走出ICU的“AI三小龙”,究竟做对了什么?

张开发
2026/4/14 16:33:09 15 分钟阅读

分享文章

走出ICU的“AI三小龙”,究竟做对了什么?
大模型2.0时代属于“制药厂 ”Anthropic终于忍不住“龙虾打洞”了。美国时间4月4日15:00北京时间4月5日03:00Anthropic旗下Claude Code负责人Boris Cherny宣布Claude订阅Pro/Max不再覆盖OpenClaw等第三方平台用户只能使用额外套餐或Claude API密钥使用这些工具。这意味着企业、初创团队、开发者都无法再利用OpenClaw去近乎无限量套利Claude订阅服务被迫转入更为昂贵的按量计费模式。简而言之就是基于人类使用习惯模式的Anthropic 的订阅服务被OpenClaw 变成了7×24 小时自动运行的算力消耗给系统带来了“disproportionate stress”不成比例的压力收入与成本倒挂。Anthropic的商业模式被挖得千疮百孔不堪重负。此外Anthropic还有一点不能忍的是OpenClaw 迟早会将Anthropic“供应商化”。OpenClaw 最新版更新支持多模型自动/手动切换从之前的Claude 单点依赖此前 60% 会话跑在Claude 上转向“模型池”model pool架构用户可以在 Claude、GPT-5.4、Gemini以及中国国产模型如智谱、MiniMax之间自由切换不再锁定单一供应商。表面上看这次更新是对Anthropic 和Google 的封禁的回应通过多模型冗余确保服务连续性避免过于依赖单一模型受制于模型厂商的政策变动。但其实即使没有这次Anthropic的封禁加入Open AI后OpenClaw 创始人Peter Steinberger 也迟早会采取“模型池”模式。因为一旦习惯使用OpenClaw后用户就在不知不觉中不会再在意用的是哪家的模型更在意结果OpenClaw 成了AI超级入口而模型厂商则成了OpenClaw 背后的“供应商”。显然这对于有着长远目标的Anthropic 来说是没法接受的与其坐以待毙不如主动重拳出击。但对于智谱、MiniMax等中国国产模型来说Anthropic“封杀”OpenClaw以及OpenClaw的多模型切换功能却是一个重大机会。当Claude API 成本过高时开发者可能会切换配置到智谱、MiniMax 甚至不排除当作为主力模型使用以规避订阅转API 的高昂成本。毕竟智谱、MiniMax的Token价格相对于Anthropic的要便宜得多。但Token便宜并不是它们最大的优势。01 三强的崛起2026年4月1日智谱发布上市后的第一份年报CEO张鹏在业绩会上反复强调了两个字Token量。这背后是一系列亮眼的表现智谱2025年全年营收7.24亿元同比增长132%是国内收入最大的独立大模型公司MaaS开放平台的年度经常性收入ARR达到17亿元12个月暴涨60倍API价格上调83%之后调用量反而继续攀升。张鹏把这种罕见的“涨价放量”归结为一个公式AGI商业价值 智能上界× Token消耗规模。模型的智能上限决定你敢不敢涨价Token消耗规模决定涨价之后有没有人买单。智谱两个都做到了。月之暗面的故事更具戏剧性。2026年1月27日Kimi K2.5发布仅仅一个月后ARR突破1亿美元20天的收入超过2025年全年。3月中旬公司完成新一轮融资估值从43亿美元飙升至180亿美元——三个月翻了四倍。更耐人寻味的是Kimi的海外收入已经反超国内海外API收入增长4倍而杨植麟站上了英伟达GTC大会的演讲台成为该会议上唯一一位中国大模型创始人这无疑成了Kimi的高光时刻。同样地MiniMax则用另一种方式证明了自己的存在感。2025年全年收入7904万美元同比增长159%。但真正让行业侧目的是2026年前两个月M2系列的API调用量——达到去年12月的六倍其中来自“龙虾”OpenClaw编程场景的Token消耗增长超过10倍。M2.5模型在SWE-Bench上拿到80.2%的得分与Anthropic的Claude Opus 4.6几乎持平而价格仅为后者的十分之一。如果把时钟拨回两年前这三家公司正挤在同一间“ICU”里。2024年下半年“AI六小龙”集体陷入困境融资收紧、商业化遥遥无期、大厂环伺、“六小龙不如一条虫”的嘲讽不绝于耳。彼时的DeepSeek刚刚凭借V3和R1震惊世界风头一时无两相比之下智谱、Kimi和MiniMax更像是被大时代抛在身后的配角。可短短一年之后剧本完全翻转。这种翻转归功于“龙虾”热潮——2026年春节前后OpenClaw作为开源AI Agent框架引爆了全球开发者社区全球AI Token消耗从每周5.6万亿暴增到14.8万亿三强恰好成了最大的“饲料供应商”。与传统单次对话不同OpenClaw执行一个任务往往需要数十轮API调用Token消耗成倍放大这就意味着使用费用也急剧提高。Token货币化的结果就是用户迫切寻找更便宜的模型。而在OpenRouter平台上MiniMax和智谱的收费仅为海外竞品如Claude Opus的1/16输入100万Token约0.3 vs 5这吸引了大量海外开发者。所以自今年2月起OpenClaw热潮推动下全球最大API聚合平台OpenRouter 上中国模型调用量三周大涨127%首次超越美国模型5.16万亿 vs 2.7万亿Token其中2026年Q1智谱的API调用量增长400%就部分归因于OpenClaw生态的放量。而MiniMax M2.5在OpenRouter平台上曾连续两周蝉联全球调用量榜首周调用量达1.63万亿Token。但仅仅把智谱、MiniMax的翻盘全归因于OpenClaw也并不公允智谱和MiniMax的增长还得益于模型能力突破智谱GLM-5在多项基准测试中登顶开源模型榜首Coding和Agent能力突出MiniMax M2专为编码与智能体任务优化也契合了Agent工作流需求。旺盛的需求和模型能力提高使得它们在一定程度上拥有了再定价权今年3月智谱将API价格上调83%但调用量依然供不应求增长400%就说明了这点。但同样面对龙虾的风口六小龙中的另外几条龙表现又怎样零一万物已经放弃了通用大模型宣布不再做单一大模型而是采用模型开放策略转型做企业级部署服务核心技术团队在DeepSeek冲击后分崩离析。百川智能的创始人王小川经历了他所谓的“至暗时刻”——业务线收缩、高管离职、目标摇摆最终押注AI医疗这个垂直赛道基本退出了通用大模型的竞争。同一个风口有人飞升有人坠落。差距出在哪答案藏在一个更深层的逻辑里龙虾的风口不是谁都能追它考的是你的底模够不够强、工具链够不够深、开发者生态够不够厚。而六小龙中的三强恰恰是在龙虾来临之前就已经在这三个维度上默默积累了足够的势能。问题是为什么偏偏是他们02 范式的转变要回答这个问题必须先理解一件在2024年底悄然发生、却深刻改变了整个行业走向的事——Ilya Sutskever在NeurIPS 2024上的那场演讲。这位OpenAI的联合创始人、被尊为“AI宗师”的人物在那场罕见的公开露面中说了一句话我们所知道的预训练将毫无疑问地终结我们已经触及了数据的顶峰不会再有更多了。这句话在业界引发了一场深刻的路线分裂。一派认为Scaling Law没有撞墙只是需要Scaling的对象变了——从互联网原始数据转向合成数据、推理轨迹、以及推理时的计算量。另一派则认为Transformer架构本身已触及天花板大模型需要一场从底层数学结构开始的架构革命。对此六小龙中的三强给出了自己的答案都不选。或者说两个都选。这就是所谓的“第三条路”——不是纯粹地继续堆数据、堆算力老路已经走到头了也不是推倒重来搞一个全新架构风险太大、周期太长而是用架构层面的精准创新去撬动新形式的Scaling。Kimi从大模型底层三大模块——优化器、注意力机制、残差连接同时突破。其MuonClip优化器引入二阶梯度信息通过牛顿-舒尔茨迭代和QK-Clip机制解决“Logits爆炸”问题实现同等算力下更高模型质量或同等质量下大幅降低算力需求提升Scaling效率。Attention Residuals论文获马斯克点赞因为其用softmax注意力实现“选择性回忆”使48B模型达到60B效果。MiniMax路径不同但信仰一致创始人闫俊杰坚信Scaling Law及模态等价性这构成其技术战略的第一性原理。MiniMax在各模态独立验证Scaling规律语言模型侧将线性注意力推进至工业级使百万长文本算力消耗降至传统方案几百分之一多模态侧发现Visual Tokenizer的Scaling Law解决视频生成投入产出问题获得结构性效率优势。作为这一策略的错过M2.5的230B总参数仅激活10B推理SWE-Bench得分80.2%价格为Claude Opus 4.6的十分之一这源于MoE架构与推理优化带来的成本优势。智谱走的路子表面上是涨价后不跌反升的“飞轮验证”2026年一季度价格涨了83%Token调用量却增长400%。但真正的秘密在于三个维度的同时强化形成了一个“多角形飞轮”很难被竞争对手同时追赶。在模型方面GLM-5在编程、长文本、多模态上的突破让它成了Agent开发者的必选项。与此同时智谱完成了与华为昇腾、摩尔线程等七大国产芯片的算子级优化让部署成本直接降低50%。这意味着国产芯片选择智谱从可选变成了必须转换成本有形化了。而在数据闭环上智谱不像大厂的数据分散在各处开发者用GLM完成一个Agent任务推理轨迹、纠错过程全部被记录这种“真实任务数据”的价值远高于互联网爬虫或合成数据。模型越强用户越多飞轮就这样转起来了。三家公司的路径各有不同但有一个共同的底层逻辑“第三条路”带来的不仅仅是极致的性价比而是在Token消耗量爆炸式增长后仍然能维持任务质量的稳定。龙虾场景下一个稍复杂的编程任务平均消耗350万Token——是普通对话的数百倍。在这种级别的负载下模型的推理稳定性、长上下文下的性能衰减控制、以及端到端的延迟管理才是开发者选择谁的真正标准。换句话说便宜只是入场券稳定才是留下来的理由。03 DeepSeek最大的挑战如果三强的崛起代表了“第三条路”的胜利那么另一个更尖锐的问题是为什么与三强同为大模型企业出身的DeepSeek没有率先实现这样的突破坦白说DeepSeek在大模型1.0时代创造的成就至今仍令人敬佩。V3和R1以极低的训练成本实现了SOTA级别的性能MLA多头潜在注意力和混合专家架构的组合在当时堪称惊艳。梁文锋以极致的、勇猛的工程学思维把每一块GPU的性价比压榨到了极致——这种“力出一孔”的能力正是大模型1.0时代最重要的竞争力。但1.0时代的竞争逻辑和2.0时代有根本的不同。到了2.0时代问题变了。当Ilya宣告“我们所知道的预训练将要终结”之后行业面临的不再是“怎么把模型做得更大”而是“下一步往哪走”是继续Scaling别的东西还是彻底换架构这是一个充满不确定性的岔路口。在这个岔路口上DeepSeek以下简称DS遇到了两个结构性的困难。第一个困难来自商业化的缺失导致其无法持续地Scaling。DS至今没有系统性的商业化运营其API虽然被大量使用但因为DS是开源的因此大量企业把DS权重下载下来私有化部署在自己的服务器上这部分用户的数据完全在企业内网里DS的母体一个字也收不到同时还有大量开发者通过阿里云、腾讯云、百度云等第三方平台调用DS数据留在了云厂商那里。更关键的地方在于DS免费或超低价的API定价难以支撑数据工程的运转成本这意味着DS用户越多越亏用户翻倍亏损也翻倍这使其无法像三强那样在龙虾实战中不断迭代。第二个困难更加微妙也是制约DS架构创新的瓶颈。DeepSeek的团队至今不到140人平均年龄只有28岁成员几乎清一色来自国内顶尖高校的应届毕业生和在读博士生。这个选择并非无意为之梁文锋曾公开表达过他的人才哲学“经验并不意味着能力反而可能限制创新。”但这里有一个隐患在2.0时代的架构创新需求下架构层面的真正突破往往需要的不只是聪明的年轻人还需要见过不同范式的人之间的知识碰撞。杨植麟在Google Brain见过Transformer如何从论文变成工业级系统智谱创始人唐杰的团队不仅有着扎根清华的学术背景也带领KEG实验室深耕了近二十年发表了超过500篇顶尖论文。这种“多层代际、多种背景”的知识密度才使得架构革命与创新成为了可能。从唯物主义的角度上说技术创新的必要条件不是只是天才的“灵光一闪”更需要看知识、人才的密度、多样性是否达到了一定的阈值和丰度。说到底DS的问题不是“技术不够强”而是它不能再用大模型1.0的思维打2.0的仗。很多人都喜欢把训练大模型叫做“炼丹”这不是段子而是一种精准的隐喻。大模型训练的本质就是把海量数据原料投入神经网络炉子经过漫长的参数调整火候最终期待涌现出一种难以预测的“智能”。你事先并不完全知道产出会是什么——调一下学习率改一下Batch Size模型的表现就可能陡然提升这种高度依赖经验与直觉的摸索过程和古人在丹炉前的反复试探如出一辙。1.0时代更讲究“炼丹师”的个人洞见一个天才型的创始人带着一小群精英在丹炉前反复实验直到炼出惊世骇俗的成果。这在很长一段时间里是有效的。但2.0时代需要的更可能是“制药厂”式的体系化创新。什么叫制药厂它不依赖任何一个药剂师的灵感而是靠可复制的研发流程、可量化的质量标准、和持续不断的临床反馈来稳定地产出新药。在大模型2.0时代持续的体系化创新能力比任何一次单点技术突破都重要得多。谁能把“创新”从个人英雄主义变成组织级的稳定产出谁就能在这个充满不确定性的时代里掌握主动权。以Kimi为例3月16日Kimi发布Attention Residuals论文被马斯克点赞之后Reddit上已有开发者在复现。这背后反映的实际上是其一种系统化、团队化的知识积累体系。绝大多数公司从论文到产品的路径是核心论文→模型训练→产品发布→用户反馈→下一个核心论文。但Kimi打破了这个模式Kimi 3月16日论文发表后从论文idea到学术发表到产品实现到开源代码只用了不到3天的迭代周期。这说明Kimi把论文看作一个可视化的思想工具用来快速获得全球反馈的中间产品而非要等到论文或产品完美后再等待反馈。论文的作者组成还暴露了一个秘密Guangyu Chen陈广宇和其他作者加起来一共35人其中还有一位17岁的高中生这在大模型论文里很罕见。通常情况下即使是OpenAI、DeepSeek发表的论文作者也大多只有十几到20位。这说明Kimi的论文不是“精英研究团队的产物”而是“整个公司在这个方向上的集体知识总结”。三强之所以能走出ICU不是因为它们拥有比DeepSeek更聪明的工程师而是因为其建立了一种更快的迭代速度、更密集的知识流转、更体系化的创新机制。大模型1.0时代属于炼丹师那是一个凭借个人洞见和技术魄力就能改变格局的英雄时代。但2.0时代属于制药厂属于那些把创新变成流水线、把突破变成日常、把个人能力沉淀为组织能力的企业。六小龙中的三强正在做同样的事。原文链接走出ICU的“AI三小龙”究竟做对了什么-36氪

更多文章