Ilya警告、LeCun冷嘲、奥特曼沉默：Scaling Law新智元

过去10年，AI大模型的技术本质，是把电力能源通过计算过程转化为可复用的智能。2026年，我们需要让AI模型在单位时间内「吃下」更多能源，并真正将其转化为智能。

2026年的AI圈子，最怕什么？

从2022年底ChatGPT横空出世以来，AI圈子里一直潜藏着一个「幽灵」。

从ChatGPT到惊艳世界的DeepSeek，再到2025年底的Gemini 3、GPT-5.2等，所有这些顶级模型背后都是这个幽灵。

他就是Scaling Law，但是令所有人焦虑的是：这个幽灵是否将要，还是已经「撞墙」了？！

Scaling Law是否已经失效？

大佬们的看法出现了前所未有的分歧。

Ilya Sutskever公开表示，单纯堆砌预训练算力的时代正在进入平台期，智能的增长需要转向新的「研究时代」。

Yann LeCun则一如既往地毒舌，认为当前的大语言模型无论怎么Scaling都无法触达真正的AGI。

即便是Sam Altman，也在公开场合含蓄地承认过，仅仅靠更多的GPU已经无法换回同比例的智能跃迁。

当全行业都在为「数据枯竭」和「算力报酬递减」头疼时，大家都在问：算力还在涨，为什么智能的跃迁似乎变慢了？

最近在刷知乎时，读到了新加坡国立大学校长青年教授、潞晨科技创始人尤洋（Yang You）的一篇深度长文：《智能增长的瓶颈》。（文末附有原文）

这篇文章的角度非常独到，尤洋站在基础设施与计算范式的底层，探讨了一个更本质和底层的问题：

算力是如何被转化为智能的，以及这种转化机制是否正在失效。

尤洋教授在文中给出了一个引人深思的观点：

过去10年，AI大模型的技术本质，是把电力能源通过计算过程转化为可复用的智能。

文章系统性地梳理了过去十年大模型成功背后的「隐含假设」，并指出这些假设正在接近边界。

一、智能从哪里来？

尤洋对「智能」的定义相当通俗易懂，也就是模型的预测与创作能力。

在此基础上，他进一步提出：

「过去10年，AI大模型的技术本质，是把电力能源通过计算过程转化为可复用的智能。」

这与强化学习教父Richard S. Sutton分享的观点类似。

在尤洋的叙述中，有三个关键共识被明确强调：

预训练是智能的主要来源

微调、强化学习等阶段贡献有限，根本原因并非算法无效，而是能源（算力）投入规模不在一个数量级。

Next-Token Prediction是一个极其成功的Loss设计

它最大化减少了人为干预，给AI大模型提供了近乎无限的训练数据。

Transformer的胜出，是因为Transformer也是一台并行计算机。

Transformer并非「更像人脑」，而是更像GPU——高度并行、计算密集、通信可控。

正是这三点共同作用，使得从GPT-1、BERT、GPT-2、GPT-3，到ChatGPT与Gemini，大模型得以在十余年间持续放大算力投入，并将其稳定转化为可感知的智能提升。

尤洋也因此指出了真正的瓶颈所在。

二、真正的「瓶颈」在哪里？

在《智能增长的瓶颈》中，尤洋重新界定了「瓶颈」的涵义，并明确区分了两类经常被混淆的进展：

用更少参数、更低算力，达到相同效果（如剪枝、蒸馏、低精度、Mamba等）。这类进展对于工程落地和规模化部署至关重要，但并不直接决定智能的上限。

智能上限提升

在相同的浮点计算总量约束下，训练出能力更强、泛化性更好的模型。这才是决定智能是否能够持续跃迁的关键指标。

在尤洋看来，当前遇到的并不是「算力不够」，而是：

「我们现在的范式无法充分利用持续增长的算力。」

换句话说，问题不在于GPU增长放缓，而在于模型、Loss、优化算法对算力的「消化能力」正在下降。

我们需要让AI模型在单位时间内「吃下」更多能源，并真正将其转化为智能。这么来看：

大模型智能可能还有很大的发展空间，预训练才刚刚开始。