模型选型 | 多头注意力

今天是感恩节假期的第一天，感谢各位读者的支持。上篇关于vibe coding面试的文章是我写作生涯阅读量最高的一篇，最应该感谢阮一峰老师把它收录到了科技爱好者周刊里，让它有机会出现在大家眼前。这周想聊聊2025年末的AI应用模型选型。模型选型对AI应用来说真的非常重要，不仅决定效果，还影响成本。别看每百万token一个0.2美元一个0.25美元只差5分钱，这里面可是25%的成本差距。如果一个面试者能对现在主流的模型能力、价格、特点如数家珍，在我这里一定是个加分项。 Openrouter的参考价值 Openrouter是个不错的参考，可以看现在别人用什么模型比较多，但上面的分布和真实用量肯定有巨大差别。 Openrouter每周都有模型榜单首先是上面很多免费token送，一免费用量就会上去，比如现在排第一的Grok 4.1 Fast (free)。第二是上面的用户很多是编程相关的，从top apps一看就比较清楚。第三是真正大量的应用不会在上面跑，Openrouter有5.5%的手续费，中间商赚差价一点不划算。 Openrouter的用量是被几个AI编程工具主导的先上个表格我今天特意花时间把我比较关注的几家模型都列了一下，公众号不好分享文件，我就贴个图。这里只关注语言能力，虽然有些模型是多模态的；而且都是标准模型，finetune的模型不在本文讨论之列。御三家里，总体Anthropic最贵，中杯都比其他两家的flagship贵，反过来说就意味着它家的包月是最值的（重度用户如果用API来驱动Claude Code，一天几十刀很轻松）。当下主流模型信息小中大杯的选择正经闭源模型厂商为了满足不同的市场需求，一般分为小中大杯。不管是OpenAI的nano、mini、纯数字，还是Anthropic的haiku、sonnet、opus，亦或是Google的flash lite、flash、pro，甚至是阿里的flash、plus、max都符合这个规律。有一些起步晚、产品线不那么齐全的厂商，比如X.ai，只有俩模型，fast和非fast。按照我的经验，大杯模型适合直面用户需求的场景，比如chatbot、AI Agent（如编程）；中小杯适合离线任务如数据处理、工作流。如果在规模任务上使用大杯模型，轻则荷包出血，重则倾家荡产，大家上线之前一定要慎重。跟着厂商升级在同一厂商的产品线内，一定要跟着厂商进行升级。以O家为例，2025年11月还在使用GPT-4o的员工，轻则应给与警告，重则可扫地出门。随意对比一下就可以发现，GPT-4.1比GPT-4o便宜了不少，具体来说input和output是8折，cached是5折。而且随着模型的进步，往往可以实现4.1-mini实际效果追平4o的情况，那样的话基本是2折不到的价格。 Thinking vs Non-Thinking 在Thinking和Non-Thinking模型之间，也要做好权衡。 GPT-5是一代奇葩，全家爱思考，且不得不思考。轻则简单任务思考400个token，重则复杂任务思考几千个token，Thinking token一律按output计费。你掂量一下你的output有几个字，会不会把钱都砸在动脑筋上了。好在5.1及时纠偏，可以不思考。如果你的prompt是CoT的，已经有思考路径，那就别让模型自己瞎想，果断选择Non-Thinking模型，随随便便能省出一大笔钱。缓存命中率 Input/Output和缓存命中率也是需要考虑的一大因素。一定要构建好缓存命中率的内部监控，并且在系统实现时尽可能地提升命中率。目前行情价缓存命中后是1折的价钱，能命中的话能极大降低成本。输入输出比大的话可以选择input价格有优势的模型，反之选output价格有优势的模型。因为output的价格一般是input的好几倍，但这个倍数不同模型差别较大。O家和G家是8倍，A家是5倍，Kimi是3倍，马老板家大奇葩，是2.5倍。 Throughput的两极分化 Throughput其实也很重要，现在两极分化很严重。一般O家和G家给API的速度都是几十token每秒，但一些ASIC推理厂商已经可以做到上千token每秒。但选ASIC厂商基本意味着只能用少数几个开源模型。这个体验差别其实是巨大的，但是绝大多数用户还没有体验过。举个大家比较能理解的例子，现在所有的Chatbot产品模型的输出都是"流式"的，这样做是因为模型说完答案可能要好几十秒，先给用户看点东西，不那么枯燥，别等不及跑路了。所以模型推理有一个重要的指标是TTFT(time to first token)。但是如果把速度提升两个数量级，基本上整个答案就是一起蹦出来的。虽然我们给产品加了流式输出，但用户丝毫感觉不到流式效果。如果Claude Code现在平均5分钟干完一个你的需求，用上ASIC之后可能就是5秒钟。你提需求没他做需求快 :P。 Rate Limit的甜蜜烦恼还有一个甜蜜的烦恼是rate limit。你需要考虑rate limit说明你的业务还不错，已经有比较稳定的用量。以GPT-5.1为例，Tier1用户每分钟请求的TPM（token per minute）是500k，RPM是500。如果你一个prompt有10k个token（这点token对Agentic应用真的是洒洒水），那意味着你一分钟只能干50个请求。但如果你是尊贵的Tier5用户，这个数会涨80倍，基本就够用了。但一些neo cloud的rate limit一般比较低的，他们没有那么大的算力池来满足瞬时的需求，这是他们相比大厂的一大劣势。如果你是一个Tier5用户，那你就得好好考虑成本了，几十万美元一个月的token钱其实就有很多省的空间和必要了。实战分析：5 nano vs 4.1 nano 我们一直用的比较多的是O家模型，总体还是比较满意的。我觉得input 0.1美元以下他们还是做得挺好的，5分钱的5 nano并不算太差，开源界这个价的模型都得8b以下了，除非finetune，否则能力都不咋地。这里可以实战分析一下：5 nano和4.1 nano，一个thinking一个non-thinking，input一个0.05美元一个0.1美元，output都是0.4美元。假设用medium的reasoning effort，thinking token数约500个，那么两个模型的成本关系就取决于输出token数和input/output ratio。右上角区域5nano省钱，反之4.1nano省钱上图横坐标是输入输出比，越大5越容易省钱，纵坐标是输出token数，越大5越容易省钱。简单来说，如果你的任务输出很短，5 nano的thinking开销会让它比4.1 nano更贵；但如果输出很长，thinking开销占比就小了，5 nano的input价格优势就体现出来了。不同的问题成本关系是不同的，需要根据实际场景来选择。...