杨立昆给世界模型补上了数学证明世界酱
考试这件事,我们都经历过。复习的时候有一种同学,刷了三十套卷子,答案全背下来了,分数比谁都高。但你让他讲一道题,他讲不出来。他只记得这道选C,不记得为什么选 C。
在 AI 圈,“背题”有一个更专业的名字:过拟合。
但过拟合只是一个诊断,不是一个回答。真正的问题是:你怎么判断一个 AI 是真的理解了世界,还是在背题?这个问题在 AI 领域有一个更专业的说法,叫“线性可识别性”。说白了就是,AI 的内部表示和真实世界的物理变量之间,是不是一个简单的一一对应关系。如果是,说明它真的学到了;如果不是,那就是把所有东西搅在一起凑出了正确答案。
杨立昆花了四年时间回答这个问题。
杨立昆是谁就不用多介绍了。图灵奖得主,Meta前首席 AI 科学家,卷积神经网络的奠基人之一。过去几年里,他一直走在一条和主流 AI 路线截然相反的路上。当全行业都在堆大语言模型、寄望于 Scaling Law 大力出奇迹的时候,他反复说同一句话:这条路走不通。他说大语言模型永远不可能成为世界模型,因为它们只是在文字里统计规律,不是在世界里学习规律。
为此他和很多人吵过架。和 Hinton 吵,和 Sam Altman 吵,和 Demis Hassabis 吵,几乎和 AI 圈的顶流们吵了一个遍。2025 年底他离开 Meta,一度让人觉得这是一个孤独的理想主义者被现实驱逐的故事。
然后 2026 年 5 月 25 日,他和两位合作者在arXiv 上发了一篇论文,题目叫《When Does LeJEPA Learn a World Model?》翻译过来就是:LeJEPA 这套东西,到底什么时候才算是真的理解了世界?
杨立昆给出的答案是:当世界的底层变量服从高斯分布的时候。而且高斯是唯一能做到的分布。
LeJEPA 我们之前聊过。它是 JEPA 的一个具体实现,加了一个叫做SIGReg 的正则项。JEPA 的核心想法听起来有点反直觉:不是预测像素而是预测“表示”。什么意思呢?传统的 AI 模型学东西经常试图在像素层面复现世界。比如给它看一段视频的开头,让它把后面的每一帧都画出来。杨立昆说这样太浪费了,你把计算力都花在画云朵的纹理和地面的反光上了,而这些跟世界的物理规律没什么关系。JEPA 改了一个思路:不是画像素而是在模型内部想象。先让模型把看到的画面压缩成一个紧凑的内部表示,然后在这个表示空间里预测未来状态。
但这里一直有个悬而未决的问题:你怎么知道模型学到的东西,到底对不对?它内部的“想象”是真的反映了世界的物理结构,还是只是另一种形式的自我欺骗?一个模型在训练集上表现优秀,不代表它真正理解世界,因为它可能只是把图像的纹理、光照、背景这些无关信息混在一起,恰好拼凑出了正确答案。一旦场景发生变化,这套表示就完全失效。
杨立昆这篇论文干的事,就是给这个问题一个严格的数学答案。
首先,他把学会了定义为“线性可识别性”。意思是,如果学到的东西和真实世界的潜变量之间,只差一个旋转,就算模型真的学会了。
这段可能不好理解,让我们来打个比方:假如你从楼上往下看,有个人在遮阳伞下,灯光在地面上打出他的影子。但人被遮阳伞挡住了,所以你不能直接看到他。在这种情况下,你能判断这个人此时是坐着还是站着、手放在哪,但你没法判断他面朝东还是面朝南。所以在这套体系里,旋转是唯一允许的误差,因为从信息论的角度讲,没有额外的参照系,你本来就不可能确定绝对方向。
让我们回到论文,杨立昆在线性可识别性的基础上证明了,只要真实世界的底层变量服从高斯分布,那么世界模型学到的东西和真实世界的潜变量之间就只差一个旋转。
到这里,这篇论文最漂亮的部分出现了。
在数学上,高斯分布下的任何函数,都可以按复杂度拆成许多层,直线是一层,轻微弯曲是一层,剧烈弯曲又是一层,可以无限往下拆。这个拆分工具叫 Hermite 多项式。
它有一个关键性质:越复杂的层,在同一个东西的两次观测之间,相关性就越低。就像一张桌子的基本轮廓,从正面拍和从侧面拍大差不差;但桌面上那一小块反光,你稍微动一下角度,它就没了。
而 LeJEPA 训练的核心目标,恰恰是最大化两次观测之间的相关性。两边一合力,结果非常干净:所有复杂的、弯曲的、高层的成分,在训练中被自动淘汰。剩下的只有最底层的那个简单的线性映射。
非线性成分在这个过程中就被自然地蒸发掉了。
论文接下来用一个叫Sturm-Liouville 理论的经典数学框架,证明了要让这件事成立,潜变量的分布必须满足一个非常严格的条件——它的对数密度的导数必须是线性的。在所有分布里,只有高斯满足这个条件。换成 Laplace 分布、均匀分布、或者任何其他形状的分布,线性可识别性都无法保证。
实验也验证了这一点:在广义正态分布族里扫描形状参数,线性恢复的 R²在恰好是高斯分布的时候会出现尖锐的峰值,偏离一点就迅速掉下去。
换句话说,杨立昆用数学证明了,如果想让世界模型真能学到东西,世界本身就得是高斯的。
到这里你可能想问一个特别实在的问题:这个数学证明对做机器人有什么用?
我们知道,世界模型在训练的时候要做两件事:第一件是“对齐”,也就是把同一个东西的两次观测(比如一段视频的连续两帧、一张图片的两种裁剪方式)在内部表示里拉近;第二件是防止模型作弊直接把所有表示都变成一模一样的常数。LeJEPA 用 SIGReg 来做第二件事:强制模型的内部表示服从各向同性高斯分布。做完这一步,模型就不能偷懒了,它必须真的学到点什么。
论文里有一个实验叫 DMC Reacher:让一个有两个关节的机械臂,从起始姿态运动到目标姿态。实验分两组。第一组用随机探索的方式生成训练数据,潜变量的分布满足高斯假设;第二组直接用强化学习策略跑出来的真实轨迹做训练数据,这时候因为策略本身是有目标导向的,潜变量的分布集中在状态空间的某个低熵区域,不再满足高斯假设。
结果第一组训练出来的模型,在内部表示空间里做直线插值规划,得到的关节运动轨迹和已知真实状态下的理想轨迹,在统计上没有差异。也就是说,模型在脑子里想的规划,等于在真实世界里求解最优控制。第二组呢?同样的规划方法,偏差显著上升,控制代价高了一大截。
同一套物理系统,同一套算法,唯一的不同是训练数据的分布。
打个比方,这就很像去认识一个没见过的人,看她的证件照远没有看她的生活照来得直接有效。
所以,数据不光要多,更重要的是数据的分布场景要丰富,角度、背景、光照……这些几乎和数据本身同样重要。分布丰富了,模型就能学到真实结构;分布太少,再多数据也只是更高精度的背题。
至此,杨立昆的这篇论文补上了世界模型最关键的一块理论拼图。它不是一个新的 benchmark 记录,不是一个更大的模型参数,而是一个为什么的答案。
论文里有一句话,杨立昆是这么写的:“Our theory turns an empirically successful recipe into a mathematical guarantee——我们把一个经验上成功的方法,变成了一项数学证明。”
从经验到证明,这可能就是世界模型从技术信仰变成科学必然的时刻。


