LeCun:大模型正在逼近它的天花板星云创联AI智库
你可能还在用AI写报告,惊叹于它的无所不知。
但图灵奖得主、深度学习三巨头之一的Yann LeCun,却在各种场合不断给这股狂热泼冷水。
他的观点散落在无数推文和访谈中,常常被断章取义。
这一次,我们把他的所有判断系统地连成一条线。
大模型这条路,到底能走多远?
01 那个被捧上神坛的预测游戏,其实根本没有学会理解世界
LeCun的态度非常务实。
他自己每天也在用大语言模型,承认它们是极具价值的基础设施。
但他坚信,这绝不是通往通用智能的正确路径。
这与OpenAI和Google那些坚信“只要规模足够大就能通关”的研究者,有着根本性的分歧。
“大模型表现得再好,和真正的智能之间,也存在着一道无法逾越的裂缝。”
想象一个简单的场景。
你问AI:“我需要洗车,洗车店离我家100米,我应该走路去吗?”
之前测试,有AI会头头是道地建议你走路去,理由是100米很近、省油、环保。
它甚至把“车必须被开到现场”这个最基本的物理前提,降格为无关紧要的例外。
它在解决一个根本不存在的问题。
你不需要思考就知道必须开车去,因为你要洗的是车。
但模型只抓住了“100米很近”的表层线索,在符号的统计规律里寻找下一个词。
它根本没有理解“洗车”这一行为在物理世界中的真实约束。
这并不是我们常说的“幻觉”,而是更深层的结构性盲区。
它缺少现实世界运行规律的内部表征。
现在的各种改进,比如调用工具、优化提示词,都只是在给汽车换更好的轮胎。
汽车原本的工作原理没有变,它学到的依然是语言符号的统计学,而不是现实。
有人试图通过多模态训练来打破这个限制,让模型同时看视频、听声音。
但在LeCun看来,如果训练目标仍然只是预测观测数据本身,多模态也救不了它。
大模型的成功,恰恰建立在语言是离散符号这一前提上。
因为目标具体,词表固定,损失函数明确,所以它极其擅长规则明确、可客观验证的数学和代码。
但知道怎么做,不等于理解为什么。
“它更像是一个做了十万道例题的学生,习得了模式,却不懂规律。”
预训练就像是在空地上建了一座藏书海量的图书馆。
后训练的对齐,则只是培训了一个知道该怎么说话的图书馆员。
书的内容没变,改变的只是服务态度。
即使引入链式推理或蒙特卡洛树搜索,它也无法复刻AlphaGo Zero的奇迹。
因为围棋有明确规则和即时反馈,而现实任务根本没有这种清晰的转移状态。
更现实的危机是,高质量的人类文本数据快要枯竭了。
Epoch AI估算,全球高质量公开文本大约在300万亿Token左右。
而像Llama 3-70B训练就已经消耗了7000亿Token。
按照目前的消耗速度,数据瓶颈将在2025到2030年之间轰然降临。
为了自救,AI公司开始转向版权数据和合成数据。
但这会引发可怕的“模型崩塌”。
当AI开始大量吃进AI自己生成的、未经筛选的数据,偏差就会像雪崩一样累积。
最终,模型会丢失那些稀有但重要的真实信息,变得越来越单调、失真。
数据墙只是外部约束,真正的死穴在它的内部架构。
02 为什么我们不能指望一个没有后果反馈的系统去规划未来
“真正的智能,不仅要能描述世界,还必须能预测自己的行动会带来什么后果。”
你在过马路时,大脑会自动模拟:现在走会不会被撞?等几秒是不是更安全?
你不需要真的走过去试错,而是在脑海中用一个简化的世界模型完成了预演。
大模型没有这个内部模拟器。
对它来说,输出每一个词就是它的“行动”。
它只是在用文字模仿对世界的描述,而不是在内部模拟世界的运行。
这就是第一个致命缺口:缺少对行动后果的预测能力。
不仅如此,智能还需要规划。
你要去巴黎,会在脑海中比较直飞、转机、高铁的代价与收益。
大模型则是逐个词顺序输出的,它无法在脑子里构想多个未来,再挑出最优的一条。
它的多路径搜索,只是在语言空间里换一种“说法”。
而真正的规划,是在物理状态空间里换一种“走法”。
《自然·神经科学》的一篇论文指出,大脑本质上是一台预测机器,感知只是为了校正预测。
因为处理感官信号需要时间,大脑必须提前下注,用预测跑在现实前面。
大模型不需要承受任何后果,它的上一个词和下一个词之间,没有物理世界的反馈。
为了解决这个问题,LeCun提出了JEPA架构。
它以配置器为核心,统筹感知、世界模型、成本模块、短期记忆和执行器,在行动前先在内部进行模拟。
没有预测,搜索就会变成盲目的穷举。
围棋有 $10^{170}$ 种可能,AlphaGo能赢是因为有价值网络这个“世界模型”来剪枝。
大模型的搜索依然在语言空间,它比较的是“哪段话听起来更像好计划”。
而JEPA直接在世界模型构建的状态空间里推演,让执行器提出行动,世界模型预测状态,成本模块评估,滚动多步。
这些缺口,是无法通过打补丁来修复的。
无论是检索增强、工具调用还是反思链路,都只是在外部叠加能力。
它们面临着无法绕过的墙:
规划依然在语言空间,与真实状态空间存在无法填补的鸿沟。
泛化极度依赖示范数据。
17岁孩子20小时就能学会开车,而自动驾驶采集了数百万公里依然在复杂场景下不稳定。
因为人类有物理世界模型能举一反三,而数据驱动只是在死记硬背。
安全约束是后训练硬贴上去的,不仅有损,还极易被越狱。
通过人类反馈强化学习做对齐,会让模型变得保守,且文言文或罕见语言提示词轻易就能绕过过滤。
它只是让输出看起来合规,并没有让模型理解为什么有害。
常识缺失无法靠数据堆砌解决。
冬天要不要放掉室外水管的水,这种因果判断对人是常识,对大模型却是盲区。
03 那个被寄予厚望的具身智能大脑,为什么在现实中碰了壁
既然纯语言不行,那加上身体和感知呢?
这就是曾经让二级市场疯狂的VLA(视觉-语言-动作)模型。
RT-2的发布曾让人以为具身智能商业化提前了三年。
但当它走进真实场景,可靠性不足、数据依赖重、泛化脆弱的毛病暴露无遗。
LeCun在访谈中给出了最直接的判词:“VLA现在基本上被视为失败。”
VLA尝试把视觉、语言和动作塞进一个端到端的统一系统。
看见环境,理解指令,联合推理,然后直接生成机器人的控制指令。
这看似合理,实则是路线的错配。
语言是离散的,物理世界是连续且复杂的。
2025年软件工程顶会FSE发表的《VLATest》对七个代表性VLA模型进行了模糊测试。
结论非常残酷:稍微改变相机视角、光照条件、物体遮挡,模型的鲁棒性就会崩溃。
随后的《LIBERO-Plus》研究更发现,适度的扰动能让VLA的成功率从95%骤降到30%以下。
更讽刺的是,实验表明,VLA模型在相当程度上忽略了语言指令,只依赖视觉线索。
它本质上是在做视觉模式匹配,而不是理解因果。
在软件里错可以重试,但在物理世界,机器人的错误动作往往不可逆,代价极其高昂。
而且,VLA的数据成本高得吓人。
大模型的数据有通用迁移性,但VLA的模仿学习数据没有。
每个新任务、新环境,都要重新收集演示数据,成本呈线性甚至超线性增长。
2026年ICLR的论文《From Seeing to Doing》指出,由于具身数据的稀缺,VLA无法实现鲁棒的零样本性能,最佳模型的成功率仅为72%。
它无法进行显式的多步规划,只能自回归地问“下一个动作是什么”。
理想汽车基座模型负责人在2026年GTC大会上痛陈:3D空间理解对齐效率低、决策延迟长、长尾场景无法突破。
北大王勇涛团队也指出其三大缺陷:隐式规则导致罕见场景泛化差、模态推理割裂、价值对齐缺失。
既然如此,为什么Google、NVIDIA、Figure等巨头还在疯狂押注VLA?
因为工业界和LeCun的视角不同。
LeCun看重的是通往AGI的终极路径,而巨头们需要解决未来三到五年的商业落地。
首先,VLA拥有目前最成熟的工程技术栈,不需要等待理论突破。
其次,仓库分拣、工厂装配等任务,并不需要完美的“世界模型”,只要在固定环境里达到95%的成功率就有商业价值。
最后,VLA也在不断吸收世界模型的思想,引入状态预测和强化学习。
未来,或许不是谁取代谁,而是分工协作。
但要实现通用具身智能,我们必须寻找新的方向。
世界模型并不是新概念。
从卡尔曼滤波、Dyna架构,到Ha的深度世界模型、PlaNet、Dreamer,再到MuZero,研究者一直在探索。
而JEPA的独特价值,在于完全抛弃了像素重建,在潜在空间中学习“可预测的表征”。
04 别再试图让AI画出世界,它只需要在脑海里预判倒下的水瓶
“LeCun对世界模型的定义非常精炼:让智能体预测自身行动后果的事物。”


