AI | 多头注意力

Weekly AI Observations 251005

Went to the Silicon Valley 101 Alignment conference today. After being a listener for several years, I finally saw Jane and Qian in person. Did not expect the scale to be this big—absolutely packed, and not just Chinese attendees; plenty of international friends too. As Xiaodi Hou said: Silicon Valley really is the promised land. The collective hunger for new tech and new chances is just awesome. Got quite a lot out of today....

每周AI观察251005

今天去参加了硅谷101的Alignment大会，作为好几年的听众，终于亲眼见到了Jane和Qian。没有想到今天规模这么大，现场真是人山人海，而且不只有华人，外国友人也有不少。就像侯晓迪讲的，硅谷就是promised land，对新技术新机会的追求热情和氛围真的很棒。今天收获还是不少，首先是有感于自ChatGPT发布以来，他们的订阅数竟然涨了如此之多。我在前几天也简单看了一下“数字生命卡兹克”的数据，虽然没有硅谷101那么成功，但毫无疑问也是借AI东方崛起的典型代表。作为一个打酱油的技术自媒体，以及似有若无的AI从业者，不免有虚度光阴的感觉。另一方面，作为一个近几年都没有什么增长的内容产品参与者，心里更加不是滋味。 AI这个内容机会绝对也是对我们敞开大门甚至还蛮适合的，但我们只会竹篮打水靠运气的搞法在内容的把握和执行上真的连门都没有入。硅谷101近几年的订阅数有几个印象比较深的panel(观点): 第一个panel羽北讲的关于数据效率的角度很有意思。如果学习的效率足够高（像人一样高），那就可以有属于每个人的AI（每个人的数据都不一样），看起来thinking machines有往这个方向发展的意思？ Bill主持的强化学习的panel。首先Bill比知乎头像圆润不少。另外这个Panel是最detailed的，Zheng Wen前面都在I agree，最后展望竟然也是三分之二嘉宾觉得分层推理未来可期，Process reward可能要死灰复燃？总体听下来现在RL这个领域好像没有什么非共识？虽然很早就做了不少SFT，但是没有进一步做RL一直是自己比较大的遗憾，后面还是要找机会补上这一课。沐神的keynote也有不少干货，这是我第一次听沐神讲东西，感觉现场发挥比论文精读之类录播视频略差一些。他讲例如即使做垂直模型也要保证通用任务水平不要降低太多、对于要求细致的问答系统AI很容易犯错都比较符合自己之前工作里面积累的认知，他们最后放的metrics增长也很亮眼了，半年追上GPT-4o，8个月超过专业人类。以我的感觉这个速度还是很合理的，再快可能比较难（要么没价值），再慢创业公司也玩不太下去。所以各位老板们，在定义好问题之后，要有给团队6-8个月时间开发的预期。侯晓迪的keynote全场最另类，大谈如何在afterhype活下去。第一次听他讲东西，挺吸引人的，类似的还有panel里的胡渊明。他们虽然很年轻，但都已经在自己领域耕耘多年，也都或多或少经历过高潮和低谷，此时专注和执着就开始散发出魅力，也会体现出价值。在此Echo一下硅谷101，他们也是积累多年借势爆发。反观我们，其实也在不错的赛道上，但东一榔头西一锤子，结果就是毛都没搞出来。新技术新产品本周的product hunt感觉有些平淡，比如第一名的定位是lovable for slides，有点为垂直而垂直的意思，lovable 做slides很难吗，感觉这么一写，这个产品的天花板都被自己拉低了。Strata这个MCP产品感觉是长在工具调用的一些共识上的，也确实是一个痛点。这里面其实是有很多技术的空间可以发挥，把 One MCP server for AI agents to handle thousands of tools 做好并不容易。但对于MCP的价值我一直比较怀疑，严谨认真的Agent开发者一定会把很多时间花在Tool上，搞一层MCP并没有什么价值，也不会搞thousands of tools。能用好几十个tools已经非常非常强大了。 PH上周榜单 Thinking Machines发布了一个叫Tinker的产品，是个Post training的平台。我感觉随着最近一些高水平开源模型的发布（比如openai oss，Qwen next等），Post training要迎来新的春天了。总的来说，我相信基础模型的能力总会来到增长缓慢的一天，那时候就像羽北说的，不易公开获取的个性化数据价值就会变大，结合水涨船高的开源模型，后训练会变得更加有效。他只说了训练的效率，serving的效率靠Lora来解决确实是一个很好的方案。不太可能部署一大堆”稍微不同“的完整模型，那样显存的效率太低了。很有可能下一代的openrouter就是从标准化模型路由，进化到支持个性化模型部署和路由？立个Flag 决定开一个“每周AI观察”系列，每周至少写一篇文章。因为这个日新月异的AI时代真的有太多值得记录和交流的东西。希望大家监督并多多批评指正。

Seeing the Big Picture Through a Narrow Lens: Understanding Agent Products Through OpenManus

The recent “Dawn of the East” hype around Manus.im sparked significant attention. However, its evolution over the past few days has been dramatic, with numerous open-source projects attempting to replicate it. OpenManus, one of the earliest clones, claims to have replicated it in just 3 hours, though its parent team MetaGPT has been working on agents for much longer. I believe both impressive performances and failures are normal at this early industry stage....

管中窥豹：从OpenManus看到底什么是Agent产品

前几天号称“东方破晓”的Manus.im着实火了一把。但这几天的演进也充满戏剧性，已经有一大堆开源项目来复刻他们。OpenManus算是比较早的一个，号称3小时就复刻了，但其实他们背后的MetaGPT团队已经搞Agent很久了。我感觉目前的产品惊艳或者翻车都很正常，整个行业才刚开始。但OpenManus这样的项目是一个很不错的学习Agent开发的切入点，它足够简单，也覆盖了足够多的东西。这篇文章是我的一个学习笔记外加一些思考，跟大家交流。事先说明，开源代码库变化很快，我是2025年3月7号下载的，所有内容都基于当时的版本。先来看一下整个工程的结构： . ├── LICENSE ├── README.md ├── README_zh.md ├── app │ ├── __init__.py │ ├── agent │ │ ├── __init__.py │ │ ├── base.py │ │ ├── manus.py │ │ ├── planning.py │ │ ├── react.py │ │ ├── swe.py │ │ └── toolcall.py │ ├── config.py │ ├── exceptions.py │ ├── flow │ │ ├── __init__.py │ │ ├── base.py │ │ ├── flow_factory.py │ │ └── planning.py │ ├── llm....

OpenAI 公布声音克隆新技术，仅需 15 秒音频样本即可模仿任何说话者，将带来哪些影响？

很多答主都提到了，从技术角度来看，声音克隆技术并不新，别的不说，去年大火一阵的 AI 孙燕姿应该大家都还有印象。「AI 孙燕姿」火遍全网，随着技术的发展，未来 AI 歌手会成为主流吗？这一技术还可能应用到哪些场景？用孙燕姿的声音唱各种不同的歌曲就是声音克隆，而且难度还更好，因为要考虑音乐的节奏、音调、音色等因素。去年的效果已经很不错了，否则也不会出圈。更值得注意的是，AI 孙燕姿并不是某个大厂搞出来的，而是好多爱好者自己 DIY 出来的。可见，这个东西在技术上真的没有什么大的突破。如果大家自己想玩玩 tts，我很推荐这个库，各种功能都有，自然也包括声音克隆。但开源的音色跟闭源确实没法比。 https://github.com/coqui-ai/TTS 但 OpenAI 做这个我觉得对他们自己还是很有意义的。毫无疑问，OpenAI 是要把自己打造成 AI 能力的首选，现在靠着 GPT 和 DALLE系列，和还未上线但已爆火的 Sora已经大概给自己树立这个形象了。但前面都是文本和视觉领域，Sora 的视频也是没有声音的。音频这块一直还没有起来，他家的 tts 功能我是用过的，我感觉体验很不错，虽然还没有老牌厂商例如微软那么精细的控制功能，但真的很简单易用，效果也好。这波声音克隆自然是比单纯 tts 更有可玩性，是更容易吸引用户的功能点。以后，OpenAI 的 API key 应该是一个像样的应用开发者的必备之物了。