LeCun:大模型正在逼近它的天花板星云创联AI智库

6/29/2026

你可能还在用AI写报告,惊叹于它的无所不知。

但图灵奖得主、深度学习三巨头之一的Yann LeCun,却在各种场合不断给这股狂热泼冷水。

他的观点散落在无数推文和访谈中,常常被断章取义。

这一次,我们把他的所有判断系统地连成一条线。

大模型这条路,到底能走多远?

01 那个被捧上神坛的预测游戏,其实根本没有学会理解世界

LeCun的态度非常务实。

他自己每天也在用大语言模型,承认它们是极具价值的基础设施。

但他坚信,这绝不是通往通用智能的正确路径。

这与OpenAI和Google那些坚信“只要规模足够大就能通关”的研究者,有着根本性的分歧。

“大模型表现得再好,和真正的智能之间,也存在着一道无法逾越的裂缝。”

想象一个简单的场景。

你问AI:“我需要洗车,洗车店离我家100米,我应该走路去吗?”

之前测试,有AI会头头是道地建议你走路去,理由是100米很近、省油、环保。

它甚至把“车必须被开到现场”这个最基本的物理前提,降格为无关紧要的例外。

它在解决一个根本不存在的问题。

你不需要思考就知道必须开车去,因为你要洗的是车。

但模型只抓住了“100米很近”的表层线索,在符号的统计规律里寻找下一个词。

它根本没有理解“洗车”这一行为在物理世界中的真实约束。

这并不是我们常说的“幻觉”,而是更深层的结构性盲区。

它缺少现实世界运行规律的内部表征。

现在的各种改进,比如调用工具、优化提示词,都只是在给汽车换更好的轮胎。

汽车原本的工作原理没有变,它学到的依然是语言符号的统计学,而不是现实。

有人试图通过多模态训练来打破这个限制,让模型同时看视频、听声音。

但在LeCun看来,如果训练目标仍然只是预测观测数据本身,多模态也救不了它。

大模型的成功,恰恰建立在语言是离散符号这一前提上。

因为目标具体,词表固定,损失函数明确,所以它极其擅长规则明确、可客观验证的数学和代码。

但知道怎么做,不等于理解为什么。

“它更像是一个做了十万道例题的学生,习得了模式,却不懂规律。”

预训练就像是在空地上建了一座藏书海量的图书馆。

后训练的对齐,则只是培训了一个知道该怎么说话的图书馆员。

书的内容没变,改变的只是服务态度。

即使引入链式推理或蒙特卡洛树搜索,它也无法复刻AlphaGo Zero的奇迹。

因为围棋有明确规则和即时反馈,而现实任务根本没有这种清晰的转移状态。

更现实的危机是,高质量的人类文本数据快要枯竭了。

Epoch AI估算,全球高质量公开文本大约在300万亿Token左右。

而像Llama 3-70B训练就已经消耗了7000亿Token。

按照目前的消耗速度,数据瓶颈将在2025到2030年之间轰然降临。

为了自救,AI公司开始转向版权数据和合成数据。

但这会引发可怕的“模型崩塌”。

当AI开始大量吃进AI自己生成的、未经筛选的数据,偏差就会像雪崩一样累积。

最终,模型会丢失那些稀有但重要的真实信息,变得越来越单调、失真。

数据墙只是外部约束,真正的死穴在它的内部架构。

02 为什么我们不能指望一个没有后果反馈的系统去规划未来

“真正的智能,不仅要能描述世界,还必须能预测自己的行动会带来什么后果。”

你在过马路时,大脑会自动模拟:现在走会不会被撞?等几秒是不是更安全?

你不需要真的走过去试错,而是在脑海中用一个简化的世界模型完成了预演。

大模型没有这个内部模拟器。

对它来说,输出每一个词就是它的“行动”。

它只是在用文字模仿对世界的描述,而不是在内部模拟世界的运行。

这就是第一个致命缺口:缺少对行动后果的预测能力。

不仅如此,智能还需要规划。

你要去巴黎,会在脑海中比较直飞、转机、高铁的代价与收益。

大模型则是逐个词顺序输出的,它无法在脑子里构想多个未来,再挑出最优的一条。

它的多路径搜索,只是在语言空间里换一种“说法”。

而真正的规划,是在物理状态空间里换一种“走法”。

《自然·神经科学》的一篇论文指出,大脑本质上是一台预测机器,感知只是为了校正预测。

因为处理感官信号需要时间,大脑必须提前下注,用预测跑在现实前面。

大模型不需要承受任何后果,它的上一个词和下一个词之间,没有物理世界的反馈。

为了解决这个问题,LeCun提出了JEPA架构。

它以配置器为核心,统筹感知、世界模型、成本模块、短期记忆和执行器,在行动前先在内部进行模拟。

没有预测,搜索就会变成盲目的穷举。

围棋有 $10^{170}$ 种可能,AlphaGo能赢是因为有价值网络这个“世界模型”来剪枝。

大模型的搜索依然在语言空间,它比较的是“哪段话听起来更像好计划”。

而JEPA直接在世界模型构建的状态空间里推演,让执行器提出行动,世界模型预测状态,成本模块评估,滚动多步。

这些缺口,是无法通过打补丁来修复的。

无论是检索增强、工具调用还是反思链路,都只是在外部叠加能力。

它们面临着无法绕过的墙:

规划依然在语言空间,与真实状态空间存在无法填补的鸿沟。

泛化极度依赖示范数据。

17岁孩子20小时就能学会开车,而自动驾驶采集了数百万公里依然在复杂场景下不稳定。

因为人类有物理世界模型能举一反三,而数据驱动只是在死记硬背。

安全约束是后训练硬贴上去的,不仅有损,还极易被越狱。

通过人类反馈强化学习做对齐,会让模型变得保守,且文言文或罕见语言提示词轻易就能绕过过滤。

它只是让输出看起来合规,并没有让模型理解为什么有害。

常识缺失无法靠数据堆砌解决。

冬天要不要放掉室外水管的水,这种因果判断对人是常识,对大模型却是盲区。

03 那个被寄予厚望的具身智能大脑,为什么在现实中碰了壁

既然纯语言不行,那加上身体和感知呢?

这就是曾经让二级市场疯狂的VLA(视觉-语言-动作)模型。

RT-2的发布曾让人以为具身智能商业化提前了三年。

但当它走进真实场景,可靠性不足、数据依赖重、泛化脆弱的毛病暴露无遗。

LeCun在访谈中给出了最直接的判词:“VLA现在基本上被视为失败。”

VLA尝试把视觉、语言和动作塞进一个端到端的统一系统。

看见环境,理解指令,联合推理,然后直接生成机器人的控制指令。

这看似合理,实则是路线的错配。

语言是离散的,物理世界是连续且复杂的。

2025年软件工程顶会FSE发表的《VLATest》对七个代表性VLA模型进行了模糊测试。

结论非常残酷:稍微改变相机视角、光照条件、物体遮挡,模型的鲁棒性就会崩溃。

随后的《LIBERO-Plus》研究更发现,适度的扰动能让VLA的成功率从95%骤降到30%以下。

更讽刺的是,实验表明,VLA模型在相当程度上忽略了语言指令,只依赖视觉线索。

它本质上是在做视觉模式匹配,而不是理解因果。

在软件里错可以重试,但在物理世界,机器人的错误动作往往不可逆,代价极其高昂。

而且,VLA的数据成本高得吓人。

大模型的数据有通用迁移性,但VLA的模仿学习数据没有。

每个新任务、新环境,都要重新收集演示数据,成本呈线性甚至超线性增长。

2026年ICLR的论文《From Seeing to Doing》指出,由于具身数据的稀缺,VLA无法实现鲁棒的零样本性能,最佳模型的成功率仅为72%。

它无法进行显式的多步规划,只能自回归地问“下一个动作是什么”。

理想汽车基座模型负责人在2026年GTC大会上痛陈:3D空间理解对齐效率低、决策延迟长、长尾场景无法突破。

北大王勇涛团队也指出其三大缺陷:隐式规则导致罕见场景泛化差、模态推理割裂、价值对齐缺失。

既然如此,为什么Google、NVIDIA、Figure等巨头还在疯狂押注VLA?

因为工业界和LeCun的视角不同。

LeCun看重的是通往AGI的终极路径,而巨头们需要解决未来三到五年的商业落地。

首先,VLA拥有目前最成熟的工程技术栈,不需要等待理论突破。

其次,仓库分拣、工厂装配等任务,并不需要完美的“世界模型”,只要在固定环境里达到95%的成功率就有商业价值。

最后,VLA也在不断吸收世界模型的思想,引入状态预测和强化学习。

未来,或许不是谁取代谁,而是分工协作。

但要实现通用具身智能,我们必须寻找新的方向。

世界模型并不是新概念。

从卡尔曼滤波、Dyna架构,到Ha的深度世界模型、PlaNet、Dreamer,再到MuZero,研究者一直在探索。

而JEPA的独特价值,在于完全抛弃了像素重建,在潜在空间中学习“可预测的表征”。

04 别再试图让AI画出世界,它只需要在脑海里预判倒下的水瓶

“LeCun对世界模型的定义非常精炼:让智能体预测自身行动后果的事物。”

Scroll for more