多头注意力

Weekly AI Observations 251005

Went to the Silicon Valley 101 Alignment conference today. After being a listener for several years, I finally saw Jane and Qian in person. Did not expect the scale to be this big—absolutely packed, and not just Chinese attendees; plenty of international friends too. As Xiaodi Hou said: Silicon Valley really is the promised land. The collective hunger for new tech and new chances is just awesome. Got quite a lot out of today....

每周AI观察251005

今天去参加了硅谷101的Alignment大会，作为好几年的听众，终于亲眼见到了Jane和Qian。没有想到今天规模这么大，现场真是人山人海，而且不只有华人，外国友人也有不少。就像侯晓迪讲的，硅谷就是promised land，对新技术新机会的追求热情和氛围真的很棒。今天收获还是不少，首先是有感于自ChatGPT发布以来，他们的订阅数竟然涨了如此之多。我在前几天也简单看了一下“数字生命卡兹克”的数据，虽然没有硅谷101那么成功，但毫无疑问也是借AI东方崛起的典型代表。作为一个打酱油的技术自媒体，以及似有若无的AI从业者，不免有虚度光阴的感觉。另一方面，作为一个近几年都没有什么增长的内容产品参与者，心里更加不是滋味。 AI这个内容机会绝对也是对我们敞开大门甚至还蛮适合的，但我们只会竹篮打水靠运气的搞法在内容的把握和执行上真的连门都没有入。硅谷101近几年的订阅数有几个印象比较深的panel(观点): 第一个panel羽北讲的关于数据效率的角度很有意思。如果学习的效率足够高（像人一样高），那就可以有属于每个人的AI（每个人的数据都不一样），看起来thinking machines有往这个方向发展的意思？ Bill主持的强化学习的panel。首先Bill比知乎头像圆润不少。另外这个Panel是最detailed的，Zheng Wen前面都在I agree，最后展望竟然也是三分之二嘉宾觉得分层推理未来可期，Process reward可能要死灰复燃？总体听下来现在RL这个领域好像没有什么非共识？虽然很早就做了不少SFT，但是没有进一步做RL一直是自己比较大的遗憾，后面还是要找机会补上这一课。沐神的keynote也有不少干货，这是我第一次听沐神讲东西，感觉现场发挥比论文精读之类录播视频略差一些。他讲例如即使做垂直模型也要保证通用任务水平不要降低太多、对于要求细致的问答系统AI很容易犯错都比较符合自己之前工作里面积累的认知，他们最后放的metrics增长也很亮眼了，半年追上GPT-4o，8个月超过专业人类。以我的感觉这个速度还是很合理的，再快可能比较难（要么没价值），再慢创业公司也玩不太下去。所以各位老板们，在定义好问题之后，要有给团队6-8个月时间开发的预期。侯晓迪的keynote全场最另类，大谈如何在afterhype活下去。第一次听他讲东西，挺吸引人的，类似的还有panel里的胡渊明。他们虽然很年轻，但都已经在自己领域耕耘多年，也都或多或少经历过高潮和低谷，此时专注和执着就开始散发出魅力，也会体现出价值。在此Echo一下硅谷101，他们也是积累多年借势爆发。反观我们，其实也在不错的赛道上，但东一榔头西一锤子，结果就是毛都没搞出来。新技术新产品本周的product hunt感觉有些平淡，比如第一名的定位是lovable for slides，有点为垂直而垂直的意思，lovable 做slides很难吗，感觉这么一写，这个产品的天花板都被自己拉低了。Strata这个MCP产品感觉是长在工具调用的一些共识上的，也确实是一个痛点。这里面其实是有很多技术的空间可以发挥，把 One MCP server for AI agents to handle thousands of tools 做好并不容易。但对于MCP的价值我一直比较怀疑，严谨认真的Agent开发者一定会把很多时间花在Tool上，搞一层MCP并没有什么价值，也不会搞thousands of tools。能用好几十个tools已经非常非常强大了。 PH上周榜单 Thinking Machines发布了一个叫Tinker的产品，是个Post training的平台。我感觉随着最近一些高水平开源模型的发布（比如openai oss，Qwen next等），Post training要迎来新的春天了。总的来说，我相信基础模型的能力总会来到增长缓慢的一天，那时候就像羽北说的，不易公开获取的个性化数据价值就会变大，结合水涨船高的开源模型，后训练会变得更加有效。他只说了训练的效率，serving的效率靠Lora来解决确实是一个很好的方案。不太可能部署一大堆”稍微不同“的完整模型，那样显存的效率太低了。很有可能下一代的openrouter就是从标准化模型路由，进化到支持个性化模型部署和路由？立个Flag 决定开一个“每周AI观察”系列，每周至少写一篇文章。因为这个日新月异的AI时代真的有太多值得记录和交流的东西。希望大家监督并多多批评指正。

ACL ARR审稿碎碎念

ACL 2025年5月的ARR cycle已经出分了，估计这会儿学术圈又忙起来了，作者在忙着写rebuttal，AC在忙着找紧急审稿。而我这个审稿人却感觉格外的轻松，因为这次看的论文分都太低了，估计作者都不会来rebuttal，自然我也不用再回复作者。这一次给我分的都是RAG和Hallucination方向的论文，我一共审了5篇，打分情况是3篇2分，2篇2.5分。说实话，总体上我已经抬一手了，全凭良心打的话，还要更低一点。给不熟悉ARR评分标准的读者稍微补充一下，ARR是5分制，分以下9档： 5 = Consider for Award: I think this paper could be considered for an outstanding paper award at an *ACL conference (up to top 2.5% papers). 4.5 = Borderline Award 4.0 = Conference: I think this paper could be accepted to an *ACL conference. 3.5 = Borderline Conference 3 = Findings: I think this paper could be accepted to the Findings of the ACL. 2.5 = Borderline Findings 2 = Resubmit next cycle: I think this paper needs substantial revisions that can be completed by the next ARR cycle....

Reflections as an ACL ARR Reviewer

The scores for ACL 2025’s May ARR cycle have been released, and I imagine the academic community is busy again—authors scrambling to write rebuttals, area chairs frantically searching for emergency reviewers. Yet as a reviewer, I feel exceptionally relaxed because the papers I reviewed scored so low that I doubt the authors will even bother with rebuttals, which means I won’t need to respond either. This round, I was assigned papers in RAG and Hallucination directions....

Seeing the Big Picture Through a Narrow Lens: Understanding Agent Products Through OpenManus

The recent “Dawn of the East” hype around Manus.im sparked significant attention. However, its evolution over the past few days has been dramatic, with numerous open-source projects attempting to replicate it. OpenManus, one of the earliest clones, claims to have replicated it in just 3 hours, though its parent team MetaGPT has been working on agents for much longer. I believe both impressive performances and failures are normal at this early industry stage....

管中窥豹：从OpenManus看到底什么是Agent产品

前几天号称“东方破晓”的Manus.im着实火了一把。但这几天的演进也充满戏剧性，已经有一大堆开源项目来复刻他们。OpenManus算是比较早的一个，号称3小时就复刻了，但其实他们背后的MetaGPT团队已经搞Agent很久了。我感觉目前的产品惊艳或者翻车都很正常，整个行业才刚开始。但OpenManus这样的项目是一个很不错的学习Agent开发的切入点，它足够简单，也覆盖了足够多的东西。这篇文章是我的一个学习笔记外加一些思考，跟大家交流。事先说明，开源代码库变化很快，我是2025年3月7号下载的，所有内容都基于当时的版本。先来看一下整个工程的结构： . ├── LICENSE ├── README.md ├── README_zh.md ├── app │ ├── __init__.py │ ├── agent │ │ ├── __init__.py │ │ ├── base.py │ │ ├── manus.py │ │ ├── planning.py │ │ ├── react.py │ │ ├── swe.py │ │ └── toolcall.py │ ├── config.py │ ├── exceptions.py │ ├── flow │ │ ├── __init__.py │ │ ├── base.py │ │ ├── flow_factory.py │ │ └── planning.py │ ├── llm....

Deepseek公开利润率带来的影响

2025年2月28号，DeepSeek开源周的第六天，官方发布了一个很特别的东西，是V3/R1模型的推理系统介绍。和前面几天的代码库不同，这次是一篇博客文章。文章我没有细看，看可能也看不太懂，但单纯是tweeter上的帖子，已经带来相当大的震撼。 DeepSeek这个公司和早两年的OpenAI有一点像，让人眼前一亮。不管你喜欢还是不喜欢，OpenAI在这几年的AI浪潮就是先行者，旗手，领路人的角色，前期的几个工作ChatGPT、GPT4、Sora、O1都是开创性的。DeepSeek在几个月前其实在国内甚至都不被包含在所谓的六小龙里面，R1出来之后迅速出圈爆火。上个月研究了一下他们之前的一系列工作，连贯性特别强，除了坚持MOE道路，从一开始就把效率摆在了非常重要的位置。之前大家都说OpenAI力大飞砖，暴力美学，苦于国内算力难求，就感觉低人一档，但DeepSeek是一直在想怎么用更小的力把砖也飞起来，感觉有一种工程的精致美感。开源周开源的几个东西，其实和一般开发者都没什么关系，但今天的这个推文，我感觉会很深刻地影响后面的产业走向，进而影响到广大普通人。首先是把AI的价格打下来，你看他现在卖这么便宜，还有500%的利润率，简直是在印钞，可见降价空间之大。目前DS API的价格是8块钱人民币1M input，16块1M output，如果是没有RAG的问答，我感觉1M input/output够中高端用户用半年（红楼梦大概120万字，中文跟token大概率1比1换算，所以就是1.2Mtoken，你想一想一本红楼梦你要看多久）。未来一年，这个成本还会继续下降，我感觉降到十分之一并不困难，那么估计一个用户一年产生的推理成本可能就是几块钱人民币，基本可以忽略不计。当然这个估计可能不够准，毕竟推理模型大行其道之后模型的输出长度可能会成倍增加。但不会影响成本的数量级。接下来是AI应用的爆发，如果上面的成本计算正确，那所有的应用都会毫不犹豫地加上AI功能，只要AI能提升一丁点产品体验，且不会伤害现有的商业模式（被普遍接受的观点是动作缓慢的谷歌就是怕影响广告）。我之前听到AI应用爆发，第一反应是像物种大爆炸一样出来很多“新”的东西，但是成本的快速下降可能更有利于原有产品利用AI进行体验提升。另一个角度是感觉直接把模型卖给消费者不是个好生意，这里有好多理由，比如：1）零星应用产生的交易金额很小，按照上面的计算一个普通人可能一年就花几块钱；2）模型间切换成本很低，一旦有更好或者更便宜的模型，用户会毫不犹豫地切换，这就特别需要加一个产品层来让用户产生粘性；3）对普通应用，目前的模型可能已经足够好了，比较难做出差异。在不严谨的语境下，AI在今年达到“90%领域超过90%的人”我认为是板上钉钉的。结合两方面原因，除了有AGI理想，卷应用是个更合理的选择。然后就是对很多职业的影响，当ai真的在90%领域超过90%的人，那大规模失业的概率感觉在上升。离技术近的码农行业已经开始了，北美这边应届生找计算机相关工作真的挺困难。随着AI能力提升，影响面会逐渐从Junior岗位往Senior蔓延，也会从技术行业往其他行业蔓延，尤其是高时薪的知识密集型岗位，比如医生、律师等等。要么在行业里达到前10%，否则就比较危险，而且现在是10%，两三年之后可能就是5%，甚至1%。当然这个过程明面上不会很快，因为人会给机器使绊子。你端我饭碗，我跟你拼命。 “太阳底下没有新鲜事”这句话是很恐怖的，如果不是新鲜事，就意味着有被压缩到几百Billion模型参数里的可能性。所以在最后，祝大家能活出新鲜感吧。

Impact of Deepseek's Public Profit Rate Disclosure

On March 1st, 2025, the sixth day of DeepSeek’s open-source week, they released something quite special - an introduction to the V3/R1 model’s inference system. Unlike the code repositories from previous days, this time it was a blog post. I haven’t read the article in detail, and I might not fully understand it anyway, but the Twitter post alone has already caused quite a stir. DeepSeek resembles the OpenAI of two years ago, catching everyone’s attention....

小模型 Phi 的发展之路

今天微软发布了 Phi3 模型，3.8B 的小体量做到了 Mixtral-8x7B 一样的效果，在社区引起了不小的轰动。 fuyao 老师直呼不能李姐我前段时间曾经试过finetune Phi2 模型，效果说实话并不是很理想，默认 context 只有 2k 更是让他难以胜任很多生成式的任务。今天发布的 Phi3 context 做到了 4k，还有长上下文的 128k 版本，至少在这块已经补上了短板。其实 Phi 家族一直是 LLM 领域蛮有个性的一套模型，今天也趁机梳理了一下他们的发展脉络。我们倒过去看，先总结一下今天发的最新版 Phi3。Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone的几个重点如下：模型尺寸有3.8B，7B，14B，3.8B 性能已经不错，量化后 1.8G 在 iPhone16 上一秒可以出 20 个 token 3.3T token 训练，更大的模型用了4.5T。这个比 llama3 的 15T 少的多训练分两阶段。第一阶段用高质量网络数据，第二阶段用更强力过滤后的一阶段子集加 GPT 合成数据。第一阶段学语言能力和常识，第二阶段主要学逻辑推理能力。除了语言模型还发不了 SFT+DPO 的版本 Phi3 的性能确实能打 Phi2 是23 年 12 月发布，只有一个 2.7B 的版本，没有对应的技术报告。从 Model Card 上可以看到主要是按 Phi1....

生成式模型的奇葩应用：生成式检索

最近在学习一个奇特的技术，叫做生成式检索。生成式检索是一种利用生成式语言模型的全新信息检索方法。不同于依赖外部索引的传统方法，生成式检索利用单个强大的模型来处理查询和文档语料库。在这个注重推理能力，讲agent的年代，生成式检索却走到了让模型“死记硬背”的另一个极端。生成式检索用简单的话来说，就是对于输入查询（query），让模型直接生成出语料库里相关文章的id，是的，你没有看错，是直接生成id！当然，这就会涉及到一个很重要的问题——id长啥样？当前的主流做法有几种：原子id（atomic id），即每篇文章用一个独立的token来表示。这实际上是挂羊头卖狗肉，说是生成式，但因为每个文章都有独立token，所以等价于一个分类问题。朴素id（naive id），即id是一个字符串，这个字符串没什么特别的，就是id常用的形式，可能是12345这样的数字串，也可能是apdkcr这样的hash串。然后模型在推理阶段是用自己的词表生成出这个id字符串。因为id没有明确含义，这种做法着实是挺难为模型的，相当于问一个人“为人民服务”出现在毛选的第几卷第几本第几页第几行第几个字。语义id（semantic id）。和2一样，这里的id还是一个字符串，不同的是这个id是要包含语义信息的。这个大类有很多细分的做法，我列两种比较有代表性的。直接生成URL。是论文Large Language Models are Built-in Autoregressive Search Engines里的做法。他们讨论的语料是维基百科，页面的url包含非常明确的页面主题信息。这种做法是比较符合大家对生成式模型的直觉的，生成目标也不局限在URL，tag、category都可以使用。层次聚类。该领域经典论文Transformer Memory as a Differentiable Search Index的做法。是将大的语料库用embedding进行层次聚类，直到簇的大小符合要求。这样就把语料库转换成了一棵检索树，文章的id就是从根到叶子的一条路径。虽然还是数字id，但相比于一个自增或者随机的数已经结构化了很多。层次聚类示意图说完了id的问题，另一个重要问题是怎么让模型记住这么多id?方法也很土很暴力，就是搞一堆(query, docid) pair 让模型学就完了。如果这种数据不够，那有一些方法合成，比较典型的有： DAQ(Document as query):通常是在文章里取一截内容做query。 D2Q(Document to query):再搞一个模型根据内容生成一些可以回答的问题。显然D2Q搞出来的数据更有可能接近使用场景的真实数据，所以效果好很多。D2Q其实不是什么新方法，四五年前就有人在IR任务里拿来增强模型。这两种方法都可以产生大量的训练数据，让模型充分死记硬背。 Doc2Query不是什么新鲜玩意儿最后看下这种方法的效果和问题。根据这篇论文的数据，在语料库不大（100k左右）的情况下这个方法还是表现不错的，可以超过bm25和经典的dual encoder+ann。但不得不说，这个成本可不低，100k文档的训练数据可能是4-5M条，要跑一会。 Corpus小的时候generative retrieval表现还不错但当检索范围变大，这种方法的效果下降非常明显。这个结论也不意外，背几首古诗和背新华字典的难度肯定不同。很快就差于经典的召回方法了。 Corpus变大模型性能迅速下降另一个明显的问题是死记硬背导致的新文档更新问题。当语料库里增加新的文档之后，模型要重新训练，速度慢不说，效果还可能有各种问题。也有不少文章专门也就这个问题。以上就是对近期学习的一个简单总结。总的来说这个东西学术味道浓了一些，实用价值在现阶段应该还不大。但确实难说后面会不会有跟LLM结合的点。更多相关内容可以看这个Github Repo。