辛顿、杨立昆与李飞飞的世界模型之争AI-lab学习笔记

—— LLM 到底懂不懂这个世界？

AlphaFold 拿了诺贝尔奖，GPT 通过了律师考试 —— 但 Sora 的玻璃穿过了桌子。LLM 到底懂不懂这个世界？LeCun 离开 Meta 创办 AMI Labs，李飞飞押注 World Labs，谢赛宁两次拒绝 Ilya —— 站在前沿的人给出了截然不同的答案。

开篇：三个让 AI 圈尴尬的瞬间

瞬间一。 2024 年，你在 GPT-4o 里让它画一只手。图是好看的 —— 线条流畅、光影逼真 —— 只有一个问题：那只手有六根手指。你让它重画，它画了七根。再重画，五根 —— 但大拇指长得像小指。

瞬间二。 2024 年 2 月，OpenAI 发布 Sora，号称“世界模拟器”。演示视频里：一个女人在东京街头走路、樱花飘落、灯光闪烁、精美无比。但仔细看有一段 —— 一个玻璃杯被打翻，玻璃直接穿过桌子落到了地板。OpenAI 自己的技术博客里展示了这段视频，承认“模型对物理仍有理解限制”。

瞬间三。 2016 年 3 月，AlphaGo 在第 37 手下了那个震惊全世界的棋。赛后记者问李世石：“你觉得它知道自己在下围棋吗？”李世石沉默了很久，说：“我不知道。它走的每一步都像在思考，但也可能它什么都没想。”

这三个瞬间指向同一个问题：AI 到底理解什么？

它画不对手指，是因为不懂“手是什么、人有几根手指” —— 还是因为“它懂，只是没有把手这个概念表征得好”？它让玻璃穿过桌子，是因为根本没有物理概念 —— 还是因为“它有，只是调用不到”？

这个问题听起来像哲学系的午后闲谈。但 AGI 走哪条路，一半取决于这个问题的答案。

但先让我们承认一个事实

在追问 AI “不懂什么”之前，先看看它已经做到了什么。

2024 年，DeepMind 的 AlphaFold 把蛋白质结构预测从“博士论文级难题”变成了“几分钟出结果” —— Demis Hassabis 因此获得诺贝尔化学奖。这不是聊天机器人的花活，这是真实的科学突破，改变了生物学、医学、制药整个链条。

GPT-4 通过了美国律师资格考试（前 10%）、USMLE 医学执照考试，在 SAT 数学里接近满分。Claude 能一次性写出几千行代码并通过测试。LLM 正在帮全世界的学生理解微积分、帮不懂编程的人建网站、帮医生阅读文献。

这些贡献是实实在在的。否认它们，跟否认 LLM 的局限一样不诚实。

所以接下来的文章不是“LLM 不行”。而是：它行在哪里、不行在哪里、为什么？以及 —— 站在前沿的那些人，正在怎么想这个问题。

第一章：LeCun 的十年异议

如果你只能记住本文里一个人的名字，记住这个：Yann LeCun。

他不是普通人。他是卷积神经网络的发明人之一。1989 年他在贝尔实验室用 CNN 识别手写邮政编码 —— 那是深度学习工业应用的第一个重大胜利。2018 年他和 Hinton、Bengio 一起获得图灵奖 —— AI 界的诺贝尔。他曾是 Meta 首席 AI 科学家，2025 年 11 月离开效力 13 年的 Meta，创办了一家押注世界模型的公司 AMI Labs。

这样一个人，在 LLM 最热的时候提出了一条完全不同的路径。从 2016 年开始，LeCun 就在不同场合表达过这个核心论点。2022 年到 2024 年，他在 Twitter、访谈、演讲里说得越来越直白：

“LLM 是一条死胡同（off-ramp）。它们永远不会达到人类级别的智能。”

这不是谦虚或修辞。他讲了一个非常具体的技术论点：LLM 学的是文本表层的统计模式，不是世界的因果和物理结构。

他常用的类比是：“一只猫比目前任何 LLM 都更懂这个世界。”为什么？因为一只猫知道：从桌子上跳下去会落地（重力）；推一下玻璃杯它会滑动（摩擦和动量）；躲到沙发后面主人就看不见它（遮挡、空间）；听到罐头声音意味着吃的要来了（因果关联）。

这些常识一只猫用几个月就学会了。GPT-4 读遍整个互联网，还是会说“6 根手指”。

LeCun 有一个更激进的数字对比：一个 17 岁的青少年，20 小时就能学会开车。一个现代自动驾驶系统，用几百万小时的驾驶数据，还没法可靠处理边缘情况。他的结论是：人类是通过感知和互动学习世界的，不是通过文本。LLM 走反了路。

他提出了一个替代方案，叫 JEPA（Joint Embedding Predictive Architecture），我们第四章会详细讲。核心思想是：不要预测下一个 token，要预测抽象表示空间里的下一个状态。

这话在 2022 年听起来像在说“深度学习走错了路” —— 在一个 LLM 刚刚让所有人疯狂、OpenAI 估值破千亿美元的时刻，这是极不讨好的观点。但 LeCun 坚持了 10 年。

第二章：Hinton 的反驳

Geoffrey Hinton —— 深度学习之父，LeCun 的图灵奖合作者，2024 年诺贝尔物理学奖得主（和 Hopfield 一起拿的，因为反向传播）。如果有一个人和 LeCun 平起平坐，就是 Hinton。

2023 年，77 岁的 Hinton 辞去了 Google 的职位。所有人都以为他会站出来批评 LLM 的局限性 —— 毕竟他是“AI 将毁灭人类”的预警者。很多记者以为他会赞同 LeCun。他恰恰相反。

Hinton 说：“LLM 其实已经在理解了。你只是没看见它在理解。”

“当你把整个互联网的文本压缩进一个固定大小的模型 —— 几百 GB 变成几十 GB —— 你不可能只靠记忆做到。你必须提炼出世界的结构。这个结构就是一种理解。”

这个说法和贾因斯 1957 年谈熵时说的话几乎是一脉的 —— 压缩即理解。Hinton 的论据很直接：

你能问 GPT “如果我把一个苹果放到碗里，然后把碗倒过来，苹果在哪里？”它答对。它没有身体，没有眼睛，没有手 —— 但它答对了。你能问它 “假如动物不会疼，人类会更喜欢吃肉吗？”它能给出复杂的反事实推理。它在心里模拟一个不存在的世界。你能问它翻译一首从来没被翻译过的俄语诗。它用的不是查表，是语义上的把握。

Hinton 有一个很重要的思想轨迹转变：

“我以前以为，AI 要真正理解世界，必须像人一样有感知、有身体、有互动。我 2023 年改变了看法。我认为 LLM 证明了：理解可以从足够丰富的文本压缩中涌现出来。”

这段话分量极重。它等于说：LeCun 基于的那个‘人类怎么学习’的前提，可能根本不适用于硅基智能。

于是两位图灵奖得主，一位诺贝尔物理学奖得主，在 AI 理解世界这件事上，给出了截然不同的答案。这不一定是谁对谁错 —— 他们可能在描述同一座冰山的不同面。但分歧是真实的，而且这个分歧决定了 AGI 的下一步往哪走。

第三章：硬证据 —— LLM 内部到底有没有世界模型？

哲学辩论没有尽头，但近几年有一些实证工作让这场辩论有了锚点。

证据一：Othello-GPT（Li 等人, 2022）

研究者拿一个标准的 Transformer，只喂它一件东西：Othello 棋谱序列（比如 “e4 d6 c4 e5 ...”）。不告诉它棋盘长什么样、不告诉它规则、不告诉它这是游戏。就是一堆看起来像乱码的短字符串。

训练完后，研究者对模型内部激活做了一个叫 probing（探针）的实验：能不能从模型的中间层激活，还原出此时棋盘的完整状态？能。他们用一个简单的线性分类器，就能从模型内部读出每个格子上是黑子、白子还是空。准确率接近 100%。

这个模型从来没见过一张棋盘。它只见过字符串。但它自发在内部构建了一个 8×8 的棋盘表征，并且用这个表征来预测下一步合法走法。一年后，Neel Nanda 等人做了一个更狠的实验：他们编辑模型内部的棋盘表征，强行把某个格子的状态改成“白子在这里” —— 结果模型接下来的预测就按照这个被编辑过的棋盘状态来走。

这不是“看起来像”。这是一个真正的棋盘模型。

如果一个只读过棋谱的模型能涌现出棋盘表征，一个读过整个互联网的模型，在内部涌现了什么？

证据二：空间和时间（Gurnee & Tegmark, 2023）

Max Tegmark（MIT 物理学家、作家）和学生 Wes Gurnee 收集了一大堆真实世界地点（城市、国家、地标）的名字，喂给 LLaMA，然后对内部激活做降维可视化。

结果：这些地点在模型里的表征位置，和它们在地球上的真实经纬度，几乎是一张地图的线性变换。纽约在东北、东京在东、巴黎在中部欧洲 —— 一张模型内部的真实世界地图。他们又做了时间版本：历史事件、人物生卒年。模型内部有一根时间轴。标题取得很直白：Language Models Represent Space and Time。

证据三：Anthropic 的稀疏自编码器（2024）

Anthropic 2024 年发表的可解释性论文里，用一种叫 Sparse Autoencoder（SAE）的技术，从 Claude 3 Sonnet 的中间层分离出了百万级数量的“单一概念”特征。

其中一个特征精确对应：“金门大桥”。不是“大桥”、不是“旧金山”、不是“建筑” —— 精确到金门大桥。当激活这个特征，模型的回答会变得执着地提到金门大桥。当抑制这个特征，模型会“忘记”这个概念。他们还发现了“Python 代码错误”、“不确定性”、“即将发生的恶意行为”等等上万个可识别的语义特征。

这不是一个只会接词的词表。这是一个有内部概念结构的系统。

这些证据加起来说明什么？

说明 LLM 内部确实学到了某种世界模型。不是完整的物理引擎，不是婴儿那种 grounded 的常识，但也不是纯粹的表层模式匹配。它学到了某种中间状态：比字符串统计更深，比人类认知更浅。

LeCun 派的反驳：“这不是真正的世界模型。这是文本诱导出的伪世界模型，碰巧在分布内能用，一出分布就崩溃。”这个反驳也有证据 —— 就是 Sora 里的玻璃穿桌、GPT 画的 6 根手指。于是辩论继续。

第四章：JEPA 和 Transformer —— 架构分歧到底在哪？

LeCun 不只是批评 LLM，他提出了替代方案。要理解他的方案，先要看清 Transformer 到底在做什么：

Transformer 训练目标：给定前 n 个 token，预测第 n+1 个 token。

这个目标逼迫模型学习所有像素级（token 级）细节。LeCun 的批评：这就是问题所在。

想象你让一个人看一小时视频，然后预测下一帧。这是不可能的任务 —— 因为下一帧有无数种可能（光的微小变化、灰尘飘动、背景噪声）。所以模型为了最小化损失，必须学会给很多可能结果分配概率。大量的模型容量被浪费在预测不重要的细节上。

LeCun 的方案 JEPA（Joint Embedding Predictive Architecture）：

JEPA 训练目标：给定输入，预测抽象表示空间里下一个状态 —— 不是像素、不是 token。

Transformer 要对齐每一个 token；JEPA 只对齐抽象状态。