每周AI观察:2025年末AI模型选型指南

今天是感恩节假期的第一天,感谢各位读者的支持。上篇关于vibe coding面试的文章是我写作生涯阅读量最高的一篇,最应该感谢阮一峰老师把它收录到了科技爱好者周刊里,让它有机会出现在大家眼前。 这周想聊聊2025年末的AI应用模型选型。模型选型对AI应用来说真的非常重要,不仅决定效果,还影响成本。别看每百万token一个0.2美元一个0.25美元只差5分钱,这里面可是25%的成本差距。如果一个面试者能对现在主流的模型能力、价格、特点如数家珍,在我这里一定是个加分项。 Openrouter的参考价值 Openrouter是个不错的参考,可以看现在别人用什么模型比较多,但上面的分布和真实用量肯定有巨大差别。 Openrouter每周都有模型榜单 首先是上面很多免费token送,一免费用量就会上去,比如现在排第一的Grok 4.1 Fast (free)。第二是上面的用户很多是编程相关的,从top apps一看就比较清楚。第三是真正大量的应用不会在上面跑,Openrouter有5.5%的手续费,中间商赚差价一点不划算。 Openrouter的用量是被几个AI编程工具主导的 先上个表格 我今天特意花时间把我比较关注的几家模型都列了一下,公众号不好分享文件,我就贴个图。这里只关注语言能力,虽然有些模型是多模态的;而且都是标准模型,finetune的模型不在本文讨论之列。御三家里,总体Anthropic最贵,中杯都比其他两家的flagship贵,反过来说就意味着它家的包月是最值的(重度用户如果用API来驱动Claude Code,一天几十刀很轻松)。 当下主流模型信息 小中大杯的选择 正经闭源模型厂商为了满足不同的市场需求,一般分为小中大杯。不管是OpenAI的nano、mini、纯数字,还是Anthropic的haiku、sonnet、opus,亦或是Google的flash lite、flash、pro,甚至是阿里的flash、plus、max都符合这个规律。有一些起步晚、产品线不那么齐全的厂商,比如X.ai,只有俩模型,fast和非fast。 按照我的经验,大杯模型适合直面用户需求的场景,比如chatbot、AI Agent(如编程);中小杯适合离线任务如数据处理、工作流。如果在规模任务上使用大杯模型,轻则荷包出血,重则倾家荡产,大家上线之前一定要慎重。 跟着厂商升级 在同一厂商的产品线内,一定要跟着厂商进行升级。以O家为例,2025年11月还在使用GPT-4o的员工,轻则应给与警告,重则可扫地出门。 随意对比一下就可以发现,GPT-4.1比GPT-4o便宜了不少,具体来说input和output是8折,cached是5折。而且随着模型的进步,往往可以实现4.1-mini实际效果追平4o的情况,那样的话基本是2折不到的价格。 Thinking vs Non-Thinking 在Thinking和Non-Thinking模型之间,也要做好权衡。 GPT-5是一代奇葩,全家爱思考,且不得不思考。轻则简单任务思考400个token,重则复杂任务思考几千个token,Thinking token一律按output计费。你掂量一下你的output有几个字,会不会把钱都砸在动脑筋上了。 好在5.1及时纠偏,可以不思考。如果你的prompt是CoT的,已经有思考路径,那就别让模型自己瞎想,果断选择Non-Thinking模型,随随便便能省出一大笔钱。 缓存命中率 Input/Output和缓存命中率也是需要考虑的一大因素。一定要构建好缓存命中率的内部监控,并且在系统实现时尽可能地提升命中率。目前行情价缓存命中后是1折的价钱,能命中的话能极大降低成本。 输入输出比大的话可以选择input价格有优势的模型,反之选output价格有优势的模型。因为output的价格一般是input的好几倍,但这个倍数不同模型差别较大。O家和G家是8倍,A家是5倍,Kimi是3倍,马老板家大奇葩,是2.5倍。 Throughput的两极分化 Throughput其实也很重要,现在两极分化很严重。一般O家和G家给API的速度都是几十token每秒,但一些ASIC推理厂商已经可以做到上千token每秒。但选ASIC厂商基本意味着只能用少数几个开源模型。 这个体验差别其实是巨大的,但是绝大多数用户还没有体验过。举个大家比较能理解的例子,现在所有的Chatbot产品模型的输出都是"流式"的,这样做是因为模型说完答案可能要好几十秒,先给用户看点东西,不那么枯燥,别等不及跑路了。所以模型推理有一个重要的指标是TTFT(time to first token)。 但是如果把速度提升两个数量级,基本上整个答案就是一起蹦出来的。虽然我们给产品加了流式输出,但用户丝毫感觉不到流式效果。如果Claude Code现在平均5分钟干完一个你的需求,用上ASIC之后可能就是5秒钟。你提需求没他做需求快 :P。 Rate Limit的甜蜜烦恼 还有一个甜蜜的烦恼是rate limit。你需要考虑rate limit说明你的业务还不错,已经有比较稳定的用量。以GPT-5.1为例,Tier1用户每分钟请求的TPM(token per minute)是500k,RPM是500。如果你一个prompt有10k个token(这点token对Agentic应用真的是洒洒水),那意味着你一分钟只能干50个请求。但如果你是尊贵的Tier5用户,这个数会涨80倍,基本就够用了。但一些neo cloud的rate limit一般比较低的,他们没有那么大的算力池来满足瞬时的需求,这是他们相比大厂的一大劣势。 如果你是一个Tier5用户,那你就得好好考虑成本了,几十万美元一个月的token钱其实就有很多省的空间和必要了。 实战分析:5 nano vs 4.1 nano 我们一直用的比较多的是O家模型,总体还是比较满意的。我觉得input 0.1美元以下他们还是做得挺好的,5分钱的5 nano并不算太差,开源界这个价的模型都得8b以下了,除非finetune,否则能力都不咋地。 这里可以实战分析一下:5 nano和4.1 nano,一个thinking一个non-thinking,input一个0.05美元一个0.1美元,output都是0.4美元。假设用medium的reasoning effort,thinking token数约500个,那么两个模型的成本关系就取决于输出token数和input/output ratio。 右上角区域5nano省钱,反之4.1nano省钱 上图横坐标是输入输出比,越大5越容易省钱,纵坐标是输出token数,越大5越容易省钱。简单来说,如果你的任务输出很短,5 nano的thinking开销会让它比4.1 nano更贵;但如果输出很长,thinking开销占比就小了,5 nano的input价格优势就体现出来了。不同的问题成本关系是不同的,需要根据实际场景来选择。...

November 27, 2025 · 1 min · Yuanhao