Seeing the Big Picture Through a Narrow Lens: Understanding Agent Products Through OpenManus

The recent “Dawn of the East” hype around Manus.im sparked significant attention. However, its evolution over the past few days has been dramatic, with numerous open-source projects attempting to replicate it. OpenManus, one of the earliest clones, claims to have replicated it in just 3 hours, though its parent team MetaGPT has been working on agents for much longer. I believe both impressive performances and failures are normal at this early industry stage....

March 7, 2025 · 7 min · Yuanhao

管中窥豹:从OpenManus看到底什么是Agent产品

前几天号称“东方破晓”的Manus.im着实火了一把。但这几天的演进也充满戏剧性,已经有一大堆开源项目来复刻他们。OpenManus算是比较早的一个,号称3小时就复刻了,但其实他们背后的MetaGPT团队已经搞Agent很久了。我感觉目前的产品惊艳或者翻车都很正常,整个行业才刚开始。但OpenManus这样的项目是一个很不错的学习Agent开发的切入点,它足够简单,也覆盖了足够多的东西。这篇文章是我的一个学习笔记外加一些思考,跟大家交流。 事先说明,开源代码库变化很快,我是2025年3月7号下载的,所有内容都基于当时的版本。先来看一下整个工程的结构: . ├── LICENSE ├── README.md ├── README_zh.md ├── app │ ├── __init__.py │ ├── agent │ │ ├── __init__.py │ │ ├── base.py │ │ ├── manus.py │ │ ├── planning.py │ │ ├── react.py │ │ ├── swe.py │ │ └── toolcall.py │ ├── config.py │ ├── exceptions.py │ ├── flow │ │ ├── __init__.py │ │ ├── base.py │ │ ├── flow_factory.py │ │ └── planning.py │ ├── llm....

March 7, 2025 · 4 min · Yuanhao

OpenAI 公布声音克隆新技术,仅需 15 秒音频样本即可模仿任何说话者,将带来哪些影响?

很多答主都提到了,从技术角度来看,声音克隆技术并不新,别的不说,去年大火一阵的 AI 孙燕姿应该大家都还有印象。 「AI 孙燕姿」火遍全网,随着技术的发展,未来 AI 歌手会成为主流吗?这一技术还可能应用到哪些场景? 用孙燕姿的声音唱各种不同的歌曲就是声音克隆,而且难度还更好,因为要考虑音乐的节奏、音调、音色等因素。去年的效果已经很不错了,否则也不会出圈。更值得注意的是,AI 孙燕姿并不是某个大厂搞出来的,而是好多爱好者自己 DIY 出来的。可见,这个东西在技术上真的没有什么大的突破。 如果大家自己想玩玩 tts,我很推荐这个库,各种功能都有,自然也包括声音克隆。但开源的音色跟闭源确实没法比。 https://github.com/coqui-ai/TTS 但 OpenAI 做这个我觉得对他们自己还是很有意义的。毫无疑问,OpenAI 是要把自己打造成 AI 能力的首选,现在靠着 GPT 和 DALLE系列,和还未上线但已爆火的 Sora已经大概给自己树立这个形象了。但前面都是文本和视觉领域,Sora 的视频也是没有声音的。音频这块一直还没有起来,他家的 tts 功能我是用过的,我感觉体验很不错,虽然还没有老牌厂商例如微软那么精细的控制功能,但真的很简单易用,效果也好。这波声音克隆自然是比单纯 tts 更有可玩性,是更容易吸引用户的功能点。 以后,OpenAI 的 API key 应该是一个像样的应用开发者的必备之物了。

March 30, 2024 · 1 min · Yuanhao