辛顿、杨立昆与李飞飞的世界模型之争AI-lab学习笔记
—— LLM 到底懂不懂这个世界?
AlphaFold 拿了诺贝尔奖,GPT 通过了律师考试 —— 但 Sora 的玻璃穿过了桌子。LLM 到底懂不懂这个世界?LeCun 离开 Meta 创办 AMI Labs,李飞飞押注 World Labs,谢赛宁两次拒绝 Ilya —— 站在前沿的人给出了截然不同的答案。
开篇:三个让 AI 圈尴尬的瞬间
瞬间一。 2024 年,你在 GPT-4o 里让它画一只手。图是好看的 —— 线条流畅、光影逼真 —— 只有一个问题:那只手有六根手指。你让它重画,它画了七根。再重画,五根 —— 但大拇指长得像小指。
瞬间二。 2024 年 2 月,OpenAI 发布 Sora,号称“世界模拟器”。演示视频里:一个女人在东京街头走路、樱花飘落、灯光闪烁、精美无比。但仔细看有一段 —— 一个玻璃杯被打翻,玻璃直接穿过桌子落到了地板。OpenAI 自己的技术博客里展示了这段视频,承认“模型对物理仍有理解限制”。
瞬间三。 2016 年 3 月,AlphaGo 在第 37 手下了那个震惊全世界的棋。赛后记者问李世石:“你觉得它知道自己在下围棋吗?”李世石沉默了很久,说:“我不知道。它走的每一步都像在思考,但也可能它什么都没想。”
这三个瞬间指向同一个问题:AI 到底理解什么?
它画不对手指,是因为不懂“手是什么、人有几根手指” —— 还是因为“它懂,只是没有把手这个概念表征得好”?它让玻璃穿过桌子,是因为根本没有物理概念 —— 还是因为“它有,只是调用不到”?
这个问题听起来像哲学系的午后闲谈。但 AGI 走哪条路,一半取决于这个问题的答案。
但先让我们承认一个事实
在追问 AI “不懂什么”之前,先看看它已经做到了什么。
2024 年,DeepMind 的 AlphaFold 把蛋白质结构预测从“博士论文级难题”变成了“几分钟出结果” —— Demis Hassabis 因此获得诺贝尔化学奖。这不是聊天机器人的花活,这是真实的科学突破,改变了生物学、医学、制药整个链条。
GPT-4 通过了美国律师资格考试(前 10%)、USMLE 医学执照考试,在 SAT 数学里接近满分。Claude 能一次性写出几千行代码并通过测试。LLM 正在帮全世界的学生理解微积分、帮不懂编程的人建网站、帮医生阅读文献。
这些贡献是实实在在的。否认它们,跟否认 LLM 的局限一样不诚实。
所以接下来的文章不是“LLM 不行”。而是:它行在哪里、不行在哪里、为什么?以及 —— 站在前沿的那些人,正在怎么想这个问题。
第一章:LeCun 的十年异议
如果你只能记住本文里一个人的名字,记住这个:Yann LeCun。
他不是普通人。他是卷积神经网络的发明人之一。1989 年他在贝尔实验室用 CNN 识别手写邮政编码 —— 那是深度学习工业应用的第一个重大胜利。2018 年他和 Hinton、Bengio 一起获得图灵奖 —— AI 界的诺贝尔。他曾是 Meta 首席 AI 科学家,2025 年 11 月离开效力 13 年的 Meta,创办了一家押注世界模型的公司 AMI Labs。
这样一个人,在 LLM 最热的时候提出了一条完全不同的路径。从 2016 年开始,LeCun 就在不同场合表达过这个核心论点。2022 年到 2024 年,他在 Twitter、访谈、演讲里说得越来越直白:
“LLM 是一条死胡同(off-ramp)。它们永远不会达到人类级别的智能。”
这不是谦虚或修辞。他讲了一个非常具体的技术论点:LLM 学的是文本表层的统计模式,不是世界的因果和物理结构。
他常用的类比是:“一只猫比目前任何 LLM 都更懂这个世界。”为什么?因为一只猫知道:从桌子上跳下去会落地(重力);推一下玻璃杯它会滑动(摩擦和动量);躲到沙发后面主人就看不见它(遮挡、空间);听到罐头声音意味着吃的要来了(因果关联)。
这些常识一只猫用几个月就学会了。GPT-4 读遍整个互联网,还是会说“6 根手指”。
LeCun 有一个更激进的数字对比:一个 17 岁的青少年,20 小时就能学会开车。一个现代自动驾驶系统,用几百万小时的驾驶数据,还没法可靠处理边缘情况。他的结论是:人类是通过感知和互动学习世界的,不是通过文本。LLM 走反了路。
他提出了一个替代方案,叫 JEPA(Joint Embedding Predictive Architecture),我们第四章会详细讲。核心思想是:不要预测下一个 token,要预测抽象表示空间里的下一个状态。
这话在 2022 年听起来像在说“深度学习走错了路” —— 在一个 LLM 刚刚让所有人疯狂、OpenAI 估值破千亿美元的时刻,这是极不讨好的观点。但 LeCun 坚持了 10 年。
第二章:Hinton 的反驳
Geoffrey Hinton —— 深度学习之父,LeCun 的图灵奖合作者,2024 年诺贝尔物理学奖得主(和 Hopfield 一起拿的,因为反向传播)。如果有一个人和 LeCun 平起平坐,就是 Hinton。
2023 年,77 岁的 Hinton 辞去了 Google 的职位。所有人都以为他会站出来批评 LLM 的局限性 —— 毕竟他是“AI 将毁灭人类”的预警者。很多记者以为他会赞同 LeCun。他恰恰相反。
Hinton 说:“LLM 其实已经在理解了。你只是没看见它在理解。”
“当你把整个互联网的文本压缩进一个固定大小的模型 —— 几百 GB 变成几十 GB —— 你不可能只靠记忆做到。你必须提炼出世界的结构。这个结构就是一种理解。”
这个说法和贾因斯 1957 年谈熵时说的话几乎是一脉的 —— 压缩即理解。Hinton 的论据很直接:
你能问 GPT “如果我把一个苹果放到碗里,然后把碗倒过来,苹果在哪里?”它答对。它没有身体,没有眼睛,没有手 —— 但它答对了。你能问它 “假如动物不会疼,人类会更喜欢吃肉吗?”它能给出复杂的反事实推理。它在心里模拟一个不存在的世界。你能问它翻译一首从来没被翻译过的俄语诗。它用的不是查表,是语义上的把握。
Hinton 有一个很重要的思想轨迹转变:
“我以前以为,AI 要真正理解世界,必须像人一样有感知、有身体、有互动。我 2023 年改变了看法。我认为 LLM 证明了:理解可以从足够丰富的文本压缩中涌现出来。”
这段话分量极重。它等于说:LeCun 基于的那个‘人类怎么学习’的前提,可能根本不适用于硅基智能。
于是两位图灵奖得主,一位诺贝尔物理学奖得主,在 AI 理解世界这件事上,给出了截然不同的答案。这不一定是谁对谁错 —— 他们可能在描述同一座冰山的不同面。但分歧是真实的,而且这个分歧决定了 AGI 的下一步往哪走。
第三章:硬证据 —— LLM 内部到底有没有世界模型?
哲学辩论没有尽头,但近几年有一些实证工作让这场辩论有了锚点。
证据一:Othello-GPT(Li 等人, 2022)
研究者拿一个标准的 Transformer,只喂它一件东西:Othello 棋谱序列(比如 “e4 d6 c4 e5 ...”)。不告诉它棋盘长什么样、不告诉它规则、不告诉它这是游戏。就是一堆看起来像乱码的短字符串。
训练完后,研究者对模型内部激活做了一个叫 probing(探针)的实验:能不能从模型的中间层激活,还原出此时棋盘的完整状态?能。他们用一个简单的线性分类器,就能从模型内部读出每个格子上是黑子、白子还是空。准确率接近 100%。
这个模型从来没见过一张棋盘。它只见过字符串。但它自发在内部构建了一个 8×8 的棋盘表征,并且用这个表征来预测下一步合法走法。一年后,Neel Nanda 等人做了一个更狠的实验:他们编辑模型内部的棋盘表征,强行把某个格子的状态改成“白子在这里” —— 结果模型接下来的预测就按照这个被编辑过的棋盘状态来走。
这不是“看起来像”。这是一个真正的棋盘模型。
如果一个只读过棋谱的模型能涌现出棋盘表征,一个读过整个互联网的模型,在内部涌现了什么?
证据二:空间和时间(Gurnee & Tegmark, 2023)
Max Tegmark(MIT 物理学家、作家)和学生 Wes Gurnee 收集了一大堆真实世界地点(城市、国家、地标)的名字,喂给 LLaMA,然后对内部激活做降维可视化。
结果:这些地点在模型里的表征位置,和它们在地球上的真实经纬度,几乎是一张地图的线性变换。 纽约在东北、东京在东、巴黎在中部欧洲 —— 一张模型内部的真实世界地图。他们又做了时间版本:历史事件、人物生卒年。模型内部有一根时间轴。标题取得很直白:Language Models Represent Space and Time。
证据三:Anthropic 的稀疏自编码器(2024)
Anthropic 2024 年发表的可解释性论文里,用一种叫 Sparse Autoencoder(SAE)的技术,从 Claude 3 Sonnet 的中间层分离出了百万级数量的“单一概念”特征。
其中一个特征精确对应:“金门大桥”。不是“大桥”、不是“旧金山”、不是“建筑” —— 精确到金门大桥。当激活这个特征,模型的回答会变得执着地提到金门大桥。当抑制这个特征,模型会“忘记”这个概念。他们还发现了“Python 代码错误”、“不确定性”、“即将发生的恶意行为”等等上万个可识别的语义特征。
这不是一个只会接词的词表。这是一个有内部概念结构的系统。
这些证据加起来说明什么?
说明 LLM 内部确实学到了某种世界模型。不是完整的物理引擎,不是婴儿那种 grounded 的常识,但也不是纯粹的表层模式匹配。它学到了某种中间状态:比字符串统计更深,比人类认知更浅。
LeCun 派的反驳:“这不是真正的世界模型。这是文本诱导出的伪世界模型,碰巧在分布内能用,一出分布就崩溃。”这个反驳也有证据 —— 就是 Sora 里的玻璃穿桌、GPT 画的 6 根手指。于是辩论继续。
第四章:JEPA 和 Transformer —— 架构分歧到底在哪?
LeCun 不只是批评 LLM,他提出了替代方案。要理解他的方案,先要看清 Transformer 到底在做什么:
Transformer 训练目标:给定前 n 个 token,预测第 n+1 个 token。
这个目标逼迫模型学习所有像素级(token 级)细节。LeCun 的批评:这就是问题所在。
想象你让一个人看一小时视频,然后预测下一帧。这是不可能的任务 —— 因为下一帧有无数种可能(光的微小变化、灰尘飘动、背景噪声)。所以模型为了最小化损失,必须学会给很多可能结果分配概率。大量的模型容量被浪费在预测不重要的细节上。
LeCun 的方案 JEPA(Joint Embedding Predictive Architecture):
JEPA 训练目标:给定输入,预测抽象表示空间里下一个状态 —— 不是像素、不是 token。
Transformer 要对齐每一个 token;JEPA 只对齐抽象状态。


