AI四巨头“论剑”:大模型的下一步与中国反超可能华尔街日报
大模型竞争已从“Chat”转向“Agent”阶段,重心从榜单分数位移至真实环境的复杂任务执行。行业预判2026年为商业价值落地元年,技术路径正向可验证强化学习(RLVR)演进。面对“中国反超”议题,领军者持冷静态度,将领先概率评估为20%以内,认为中美在算力投入结构、新范式引领及toB生态上的本质差距。
竞争坐标迁移:Chat 时代的工程问题已基本解决,未来的胜负手不再是更聪明的“搜索框”,而是能否完成复杂、长链路的真实任务。AI 的核心价值正从“提供信息”转向“交付生产力”。
核心门槛更迭:Agent 的瓶颈不在于思维深度,而在于环境反馈。未来的训练范式将从人工标注转向 RLVR(可验证强化学习),只有让模型在具备明确对错判定(如代码、数学、真实业务流)的“关卡系统”中自我迭代,才能实现落地。
效率成为新杠杆:高质量数据即将枯竭,未来的竞争是“能源转化效率”的竞赛。通过二阶优化器和线性架构实现更高的 Token Efficiency(单位数据学习效果),是在算力受限背景下突破智能天花板的关键。
概率的清醒认知:行业共识认为中国在旧范式(工程复现、局部优化、toC 落地)上的反超胜率很高,但在引领新范式(底层架构革新、长期记忆等)上的胜率可能不超过 20%,因为美国在基础研究上的算力投入高出数个量级。
弯道超车的机会窗口:反超的机会藏在两个变量里:一是当 Scaling Law 遭遇边际效应递减,全球被迫进入“智能效率”竞赛时,中国的节俭式创新可能突围;二是随着学术界算力条件的改善,2026 年前后可能出现由学术驱动的范式转向。
成功的终极变量:中国最缺的不是榜单分数,而是对不确定性的容忍度。真正的反超取决于我们是否敢于从“确定性的交付压力”中抽身,将资源投向那些可能失败但能定义未来的新范式,而非仅仅在旧赛道刷榜。
近日,由清华大学基础模型北京市重点实验室发起AGI-Next前沿峰会,把AI圈大半边天聚到了一块。基模四杰全员到场:智谱唐杰、Kimi杨植麟、阿里林俊旸,还有“突然贴脸跳屏”的姚顺雨。
他们认为,大模型竞争已从单纯的“聊天(Chat)”能力和榜单分数,转向能够进入真实环境、可验证并完成复杂任务的智能体(Agent)阶段。行业普遍预计,2026年将不再是“更强模型之年”,而是模型真正跑通业务流程、创造商业价值的关键年份。
针对投资者最为关心的“中国能否反超”这一议题,峰会传递出的情绪冷静而现实。尽管中国具备极强的工程复现与制造逻辑下的追赶能力,但多位核心人物将中国在下一代范式中领先的概率评估为不超过20%。这种谨慎源于中美在算力投入结构上的本质差异——美国倾向于投资“下一代研究”的高风险探索,而中国目前的算力更多被交付与产品化占据。
从“更会聊”到“能做事”:评估坐标发生质变
大模型行业的评估坐标系已发生根本性位移。唐杰表示,Chat这一代的问题已“差不多解决”,行业重心正从“更会聊天”转向“能完成任务”。过去市场追逐的是模型在考卷上的“分数”,而现在的核心指标变成了在真实环境中的“跑通率”。
对于企业而言,AI如果仅是更聪明的搜索框,其价值有限;但如果AI能将任务执行的成功率从偶然变为必然,则意味着生产力的质变。因此,唐杰、杨植麟等四位行业领袖达成共识:AI正在从Chat走向Thinking、Coding与Agent。
在这一阶段,RLVR(可验证强化学习)成为关键技术路径。唐杰强调,在数学、编程等结果可判定的领域,模型可以通过闭环自我探索;但在网页交互等复杂任务中,“可验证空间”稀缺。未来的竞争门槛,不是让模型多想几步,而是建立足够复杂、真实且可判分的“关卡系统”,让模型在其中通过“刷经验”实现迭代。
商业化分歧:ToB的高溢价与垂直分层
随着技术重点转向Agent,商业化路径也出现了明显的分化。姚顺雨指出,toC与toB的逻辑将渐行渐远。在toC市场,用户体验的提升并不必然带来留存提升;但在toB市场,企业最恐惧的不是慢,而是“错且不可控”。
此外,行业对“垂直整合”的看法也在修正。姚顺雨观察到,在toB领域,模型层偏向“硬核工业化”,拼的是预训练与算力;而应用层偏向“业务工程化”,拼的是流程与交付。这导致未来toB市场可能走向分层结构:最强的模型配合最懂场景的应用团队,而非单纯的“模型即产品”。这对中国公司是一个警示:不能只盯着榜单,而需关注在具体业务链路中的落地与迭代能力。
中国反超的概率:乐观预期下的结构性瓶颈
关于“中国领先概率”的讨论,峰会呈现出一种“结构性冷静”。尽管市场热衷于讨论“崛起”与“占榜”,但林俊旸等业内人士将中国领先新范式的概率上限压至20%。
这种谨慎评估基于中美在算力使用上的结构性差异:
投入方向差异: 美国将大量算力投向“下一代Research”,具备高容错率,旨在赌未来;中国则将大量算力用于交付与产品化,旨在“先活下来”。
范式话语权: 姚顺雨指出,中国在复现与工程化上极强,一旦路径被证明可行,能迅速做得更好(如制造业、电动车逻辑)。但真正的难点在于能否引领如长期记忆、自主学习框架等“新范式”,而不是在旧范式里“刷榜”。
算力瓶颈、软硬生态的完善度,以及toB市场的付费意愿,构成了制约中国模型发展的“三道门槛”。如果生态系统只奖励确定性的榜单数字,而将冒险精神挤出组织结构,那么反超将难以实现。
以下为演讲全文,由量子位整理:
我的题目是「让机器像人一样思考」。
2019年,我们在清华的支持下完成成果转化,成立了智谱。
同一时期,我们也持续推动开源,既有模型和工具层面的项目,也有面向开发者的大模型 API 体系。
我在清华待了将近二十年。
回头看,我做的事情其实很简单,主要就两件:
一是早年做AMiner;二是大模型。
有一个对我影响很深的观念,我称之为「像喝咖啡一样做研究」。这件事和今天在座的一位嘉宾密切相关——杨强教授。
刚毕业那会儿我去港科大,学校几乎所有空间都在一栋楼里:教室、实验室、会议室、咖啡厅都在一起。
有一次在咖啡厅遇到杨老师,我说最近咖啡喝得有点多,可能该戒一戒。
他先说「对,应该戒一戒」,接着又说,如果我们做研究也能像喝咖啡一样上瘾,那研究大概就真的能做好了。
这句话对我触动很大,从2008年一直影响到现在。
做研究,本质上需要长期专注和持续投入。AGI正是这样一件事,它并不追求短期见效,而是一项多年投入的工程。
2019 年,我们实验室在图神经网络和知识图谱方向已经有一定国际影响力,但当时还是下定决心阶段性按下暂停键,几乎所有人都转向大模型相关研究。到今天,算是做出了一点点成果。
如果从大模型的发展轨迹来看,用「智能水平」来描述会比较直观。
2020年前后,模型主要解决的是MMU、QA等相对简单的问题;到2021、2022 年,开始进入数学计算和基础推理阶段;通过后训练,这些能力逐步被补齐。
到2023、2024年,模型从知识记忆走向复杂推理,甚至可以处理研究生层级的问题,并开始在SWE-bench这类真实世界编程任务中表现出可用性。
这个过程很像人的成长:从阅读、算术,到更复杂的推理,再到走向真实工作场景。
今年开始,大家也看到 HLE,也就是「人类终极测试」,其中不少问题连搜索引擎都无法直接给出答案,要求模型具备更强的泛化能力。
如何解决,目前仍然没有确定答案,但可以确认的是,到2025年,模型的整体能力仍在快速提升。
从另一个角度看,一个核心问题是:模型如何从Scaling走向真正的泛化能力。


