Ilya警告、LeCun冷嘲、奥特曼沉默:Scaling Law新智元

1/1/2026

过去10年,AI大模型的技术本质,是把电力能源通过计算过程转化为可复用的智能。2026年,我们需要让AI模型在单位时间内「吃下」更多能源,并真正将其转化为智能。

2026年的AI圈子,最怕什么?

从2022年底ChatGPT横空出世以来,AI圈子里一直潜藏着一个「幽灵」。

从ChatGPT到惊艳世界的DeepSeek,再到2025年底的Gemini 3、GPT-5.2等,所有这些顶级模型背后都是这个幽灵。

他就是Scaling Law,但是令所有人焦虑的是:这个幽灵是否将要,还是已经「撞墙」了?!

Scaling Law是否已经失效?

大佬们的看法出现了前所未有的分歧。

Ilya Sutskever公开表示,单纯堆砌预训练算力的时代正在进入平台期,智能的增长需要转向新的「研究时代」。

Yann LeCun则一如既往地毒舌,认为当前的大语言模型无论怎么Scaling都无法触达真正的AGI。

即便是Sam Altman,也在公开场合含蓄地承认过,仅仅靠更多的GPU已经无法换回同比例的智能跃迁。

当全行业都在为「数据枯竭」和「算力报酬递减」头疼时,大家都在问:算力还在涨,为什么智能的跃迁似乎变慢了?

最近在刷知乎时,读到了新加坡国立大学校长青年教授、潞晨科技创始人尤洋(Yang You)的一篇深度长文:《智能增长的瓶颈》。(文末附有原文)

这篇文章的角度非常独到,尤洋站在基础设施与计算范式的底层,探讨了一个更本质和底层的问题:

算力是如何被转化为智能的,以及这种转化机制是否正在失效。

尤洋教授在文中给出了一个引人深思的观点:

过去10年,AI大模型的技术本质,是把电力能源通过计算过程转化为可复用的智能。

文章系统性地梳理了过去十年大模型成功背后的「隐含假设」,并指出这些假设正在接近边界。

一、智能从哪里来?

尤洋对「智能」的定义相当通俗易懂,也就是模型的预测与创作能力。

在此基础上,他进一步提出:

「过去10年,AI大模型的技术本质,是把电力能源通过计算过程转化为可复用的智能。」

这与强化学习教父Richard S. Sutton分享的观点类似。

在尤洋的叙述中,有三个关键共识被明确强调:

预训练是智能的主要来源

微调、强化学习等阶段贡献有限,根本原因并非算法无效,而是能源(算力)投入规模不在一个数量级。

Next-Token Prediction是一个极其成功的Loss设计

它最大化减少了人为干预,给AI大模型提供了近乎无限的训练数据。

Transformer的胜出,是因为Transformer也是一台并行计算机。

Transformer并非「更像人脑」,而是更像GPU——高度并行、计算密集、通信可控。

正是这三点共同作用,使得从GPT-1、BERT、GPT-2、GPT-3,到ChatGPT与Gemini,大模型得以在十余年间持续放大算力投入,并将其稳定转化为可感知的智能提升。

尤洋也因此指出了真正的瓶颈所在。

二、真正的「瓶颈」在哪里?

在《智能增长的瓶颈》中,尤洋重新界定了「瓶颈」的涵义,并明确区分了两类经常被混淆的进展:

用更少参数、更低算力,达到相同效果(如剪枝、蒸馏、低精度、Mamba等)。这类进展对于工程落地和规模化部署至关重要,但并不直接决定智能的上限。

智能上限提升

在相同的浮点计算总量约束下,训练出能力更强、泛化性更好的模型。这才是决定智能是否能够持续跃迁的关键指标。

在尤洋看来,当前遇到的并不是「算力不够」,而是:

「我们现在的范式无法充分利用持续增长的算力。」

换句话说,问题不在于GPU增长放缓,而在于模型、Loss、优化算法对算力的「消化能力」正在下降。

我们需要让AI模型在单位时间内「吃下」更多能源,并真正将其转化为智能。这么来看:

大模型智能可能还有很大的发展空间,预训练才刚刚开始。

Scroll for more