LeCun：大模型正在逼近它的天花板星云创联AI智库

你可能还在用AI写报告，惊叹于它的无所不知。

但图灵奖得主、深度学习三巨头之一的Yann LeCun，却在各种场合不断给这股狂热泼冷水。

他的观点散落在无数推文和访谈中，常常被断章取义。

这一次，我们把他的所有判断系统地连成一条线。

大模型这条路，到底能走多远？

01 那个被捧上神坛的预测游戏，其实根本没有学会理解世界

LeCun的态度非常务实。

他自己每天也在用大语言模型，承认它们是极具价值的基础设施。

但他坚信，这绝不是通往通用智能的正确路径。

这与OpenAI和Google那些坚信“只要规模足够大就能通关”的研究者，有着根本性的分歧。

“大模型表现得再好，和真正的智能之间，也存在着一道无法逾越的裂缝。”

想象一个简单的场景。

你问AI：“我需要洗车，洗车店离我家100米，我应该走路去吗？”

之前测试，有AI会头头是道地建议你走路去，理由是100米很近、省油、环保。

它甚至把“车必须被开到现场”这个最基本的物理前提，降格为无关紧要的例外。

它在解决一个根本不存在的问题。

你不需要思考就知道必须开车去，因为你要洗的是车。

但模型只抓住了“100米很近”的表层线索，在符号的统计规律里寻找下一个词。

它根本没有理解“洗车”这一行为在物理世界中的真实约束。

这并不是我们常说的“幻觉”，而是更深层的结构性盲区。

它缺少现实世界运行规律的内部表征。

现在的各种改进，比如调用工具、优化提示词，都只是在给汽车换更好的轮胎。

汽车原本的工作原理没有变，它学到的依然是语言符号的统计学，而不是现实。

有人试图通过多模态训练来打破这个限制，让模型同时看视频、听声音。

但在LeCun看来，如果训练目标仍然只是预测观测数据本身，多模态也救不了它。

大模型的成功，恰恰建立在语言是离散符号这一前提上。

因为目标具体，词表固定，损失函数明确，所以它极其擅长规则明确、可客观验证的数学和代码。

但知道怎么做，不等于理解为什么。

“它更像是一个做了十万道例题的学生，习得了模式，却不懂规律。”

预训练就像是在空地上建了一座藏书海量的图书馆。

后训练的对齐，则只是培训了一个知道该怎么说话的图书馆员。

书的内容没变，改变的只是服务态度。

即使引入链式推理或蒙特卡洛树搜索，它也无法复刻AlphaGo Zero的奇迹。

因为围棋有明确规则和即时反馈，而现实任务根本没有这种清晰的转移状态。

更现实的危机是，高质量的人类文本数据快要枯竭了。

Epoch AI估算，全球高质量公开文本大约在300万亿Token左右。

而像Llama 3-70B训练就已经消耗了7000亿Token。

按照目前的消耗速度，数据瓶颈将在2025到2030年之间轰然降临。

为了自救，AI公司开始转向版权数据和合成数据。

但这会引发可怕的“模型崩塌”。

当AI开始大量吃进AI自己生成的、未经筛选的数据，偏差就会像雪崩一样累积。

最终，模型会丢失那些稀有但重要的真实信息，变得越来越单调、失真。

数据墙只是外部约束，真正的死穴在它的内部架构。

02 为什么我们不能指望一个没有后果反馈的系统去规划未来

“真正的智能，不仅要能描述世界，还必须能预测自己的行动会带来什么后果。”

你在过马路时，大脑会自动模拟：现在走会不会被撞？等几秒是不是更安全？

你不需要真的走过去试错，而是在脑海中用一个简化的世界模型完成了预演。

大模型没有这个内部模拟器。

对它来说，输出每一个词就是它的“行动”。

它只是在用文字模仿对世界的描述，而不是在内部模拟世界的运行。

这就是第一个致命缺口：缺少对行动后果的预测能力。

不仅如此，智能还需要规划。

你要去巴黎，会在脑海中比较直飞、转机、高铁的代价与收益。

大模型则是逐个词顺序输出的，它无法在脑子里构想多个未来，再挑出最优的一条。

它的多路径搜索，只是在语言空间里换一种“说法”。

而真正的规划，是在物理状态空间里换一种“走法”。

《自然·神经科学》的一篇论文指出，大脑本质上是一台预测机器，感知只是为了校正预测。

因为处理感官信号需要时间，大脑必须提前下注，用预测跑在现实前面。

大模型不需要承受任何后果，它的上一个词和下一个词之间，没有物理世界的反馈。

为了解决这个问题，LeCun提出了JEPA架构。

它以配置器为核心，统筹感知、世界模型、成本模块、短期记忆和执行器，在行动前先在内部进行模拟。

没有预测，搜索就会变成盲目的穷举。

围棋有 $10^{170}$ 种可能，AlphaGo能赢是因为有价值网络这个“世界模型”来剪枝。

大模型的搜索依然在语言空间，它比较的是“哪段话听起来更像好计划”。

而JEPA直接在世界模型构建的状态空间里推演，让执行器提出行动，世界模型预测状态，成本模块评估，滚动多步。

这些缺口，是无法通过打补丁来修复的。

无论是检索增强、工具调用还是反思链路，都只是在外部叠加能力。

它们面临着无法绕过的墙：

规划依然在语言空间，与真实状态空间存在无法填补的鸿沟。

泛化极度依赖示范数据。

17岁孩子20小时就能学会开车，而自动驾驶采集了数百万公里依然在复杂场景下不稳定。

因为人类有物理世界模型能举一反三，而数据驱动只是在死记硬背。

安全约束是后训练硬贴上去的，不仅有损，还极易被越狱。

通过人类反馈强化学习做对齐，会让模型变得保守，且文言文或罕见语言提示词轻易就能绕过过滤。

它只是让输出看起来合规，并没有让模型理解为什么有害。

常识缺失无法靠数据堆砌解决。

冬天要不要放掉室外水管的水，这种因果判断对人是常识，对大模型却是盲区。

03 那个被寄予厚望的具身智能大脑，为什么在现实中碰了壁

既然纯语言不行，那加上身体和感知呢？

这就是曾经让二级市场疯狂的VLA（视觉-语言-动作）模型。

RT-2的发布曾让人以为具身智能商业化提前了三年。

但当它走进真实场景，可靠性不足、数据依赖重、泛化脆弱的毛病暴露无遗。

LeCun在访谈中给出了最直接的判词：“VLA现在基本上被视为失败。”

VLA尝试把视觉、语言和动作塞进一个端到端的统一系统。

看见环境，理解指令，联合推理，然后直接生成机器人的控制指令。

这看似合理，实则是路线的错配。

语言是离散的，物理世界是连续且复杂的。

2025年软件工程顶会FSE发表的《VLATest》对七个代表性VLA模型进行了模糊测试。

结论非常残酷：稍微改变相机视角、光照条件、物体遮挡，模型的鲁棒性就会崩溃。

随后的《LIBERO-Plus》研究更发现，适度的扰动能让VLA的成功率从95%骤降到30%以下。

更讽刺的是，实验表明，VLA模型在相当程度上忽略了语言指令，只依赖视觉线索。

它本质上是在做视觉模式匹配，而不是理解因果。

在软件里错可以重试，但在物理世界，机器人的错误动作往往不可逆，代价极其高昂。

而且，VLA的数据成本高得吓人。

大模型的数据有通用迁移性，但VLA的模仿学习数据没有。

每个新任务、新环境，都要重新收集演示数据，成本呈线性甚至超线性增长。

2026年ICLR的论文《From Seeing to Doing》指出，由于具身数据的稀缺，VLA无法实现鲁棒的零样本性能，最佳模型的成功率仅为72%。

它无法进行显式的多步规划，只能自回归地问“下一个动作是什么”。

理想汽车基座模型负责人在2026年GTC大会上痛陈：3D空间理解对齐效率低、决策延迟长、长尾场景无法突破。

北大王勇涛团队也指出其三大缺陷：隐式规则导致罕见场景泛化差、模态推理割裂、价值对齐缺失。

既然如此，为什么Google、NVIDIA、Figure等巨头还在疯狂押注VLA？

因为工业界和LeCun的视角不同。

LeCun看重的是通往AGI的终极路径，而巨头们需要解决未来三到五年的商业落地。

首先，VLA拥有目前最成熟的工程技术栈，不需要等待理论突破。

其次，仓库分拣、工厂装配等任务，并不需要完美的“世界模型”，只要在固定环境里达到95%的成功率就有商业价值。

最后，VLA也在不断吸收世界模型的思想，引入状态预测和强化学习。

未来，或许不是谁取代谁，而是分工协作。

但要实现通用具身智能，我们必须寻找新的方向。

世界模型并不是新概念。

从卡尔曼滤波、Dyna架构，到Ha的深度世界模型、PlaNet、Dreamer，再到MuZero，研究者一直在探索。

而JEPA的独特价值，在于完全抛弃了像素重建，在潜在空间中学习“可预测的表征”。

04 别再试图让AI画出世界，它只需要在脑海里预判倒下的水瓶

“LeCun对世界模型的定义非常精炼：让智能体预测自身行动后果的事物。”