杨立昆给世界模型补上了数学证明世界酱

考试这件事，我们都经历过。复习的时候有一种同学，刷了三十套卷子，答案全背下来了，分数比谁都高。但你让他讲一道题，他讲不出来。他只记得这道选C，不记得为什么选 C。

在 AI 圈，“背题”有一个更专业的名字：过拟合。

但过拟合只是一个诊断，不是一个回答。真正的问题是：你怎么判断一个 AI 是真的理解了世界，还是在背题？这个问题在 AI 领域有一个更专业的说法，叫“线性可识别性”。说白了就是，AI 的内部表示和真实世界的物理变量之间，是不是一个简单的一一对应关系。如果是，说明它真的学到了；如果不是，那就是把所有东西搅在一起凑出了正确答案。

杨立昆花了四年时间回答这个问题。

杨立昆是谁就不用多介绍了。图灵奖得主，Meta前首席 AI 科学家，卷积神经网络的奠基人之一。过去几年里，他一直走在一条和主流 AI 路线截然相反的路上。当全行业都在堆大语言模型、寄望于 Scaling Law 大力出奇迹的时候，他反复说同一句话：这条路走不通。他说大语言模型永远不可能成为世界模型，因为它们只是在文字里统计规律，不是在世界里学习规律。

为此他和很多人吵过架。和 Hinton 吵，和 Sam Altman 吵，和 Demis Hassabis 吵，几乎和 AI 圈的顶流们吵了一个遍。2025 年底他离开 Meta，一度让人觉得这是一个孤独的理想主义者被现实驱逐的故事。

然后 2026 年 5 月 25 日，他和两位合作者在arXiv 上发了一篇论文，题目叫《When Does LeJEPA Learn a World Model?》翻译过来就是：LeJEPA 这套东西，到底什么时候才算是真的理解了世界？

杨立昆给出的答案是：当世界的底层变量服从高斯分布的时候。而且高斯是唯一能做到的分布。

LeJEPA 我们之前聊过。它是 JEPA 的一个具体实现，加了一个叫做SIGReg 的正则项。JEPA 的核心想法听起来有点反直觉：不是预测像素而是预测“表示”。什么意思呢？传统的 AI 模型学东西经常试图在像素层面复现世界。比如给它看一段视频的开头，让它把后面的每一帧都画出来。杨立昆说这样太浪费了，你把计算力都花在画云朵的纹理和地面的反光上了，而这些跟世界的物理规律没什么关系。JEPA 改了一个思路：不是画像素而是在模型内部想象。先让模型把看到的画面压缩成一个紧凑的内部表示，然后在这个表示空间里预测未来状态。

但这里一直有个悬而未决的问题：你怎么知道模型学到的东西，到底对不对？它内部的“想象”是真的反映了世界的物理结构，还是只是另一种形式的自我欺骗？一个模型在训练集上表现优秀，不代表它真正理解世界，因为它可能只是把图像的纹理、光照、背景这些无关信息混在一起，恰好拼凑出了正确答案。一旦场景发生变化，这套表示就完全失效。

杨立昆这篇论文干的事，就是给这个问题一个严格的数学答案。

首先，他把学会了定义为“线性可识别性”。意思是，如果学到的东西和真实世界的潜变量之间，只差一个旋转，就算模型真的学会了。

这段可能不好理解，让我们来打个比方：假如你从楼上往下看，有个人在遮阳伞下，灯光在地面上打出他的影子。但人被遮阳伞挡住了，所以你不能直接看到他。在这种情况下，你能判断这个人此时是坐着还是站着、手放在哪，但你没法判断他面朝东还是面朝南。所以在这套体系里，旋转是唯一允许的误差，因为从信息论的角度讲，没有额外的参照系，你本来就不可能确定绝对方向。

让我们回到论文，杨立昆在线性可识别性的基础上证明了，只要真实世界的底层变量服从高斯分布，那么世界模型学到的东西和真实世界的潜变量之间就只差一个旋转。

到这里，这篇论文最漂亮的部分出现了。

在数学上，高斯分布下的任何函数，都可以按复杂度拆成许多层，直线是一层，轻微弯曲是一层，剧烈弯曲又是一层，可以无限往下拆。这个拆分工具叫 Hermite 多项式。

它有一个关键性质：越复杂的层，在同一个东西的两次观测之间，相关性就越低。就像一张桌子的基本轮廓，从正面拍和从侧面拍大差不差；但桌面上那一小块反光，你稍微动一下角度，它就没了。

而 LeJEPA 训练的核心目标，恰恰是最大化两次观测之间的相关性。两边一合力，结果非常干净：所有复杂的、弯曲的、高层的成分，在训练中被自动淘汰。剩下的只有最底层的那个简单的线性映射。

非线性成分在这个过程中就被自然地蒸发掉了。

论文接下来用一个叫Sturm-Liouville 理论的经典数学框架，证明了要让这件事成立，潜变量的分布必须满足一个非常严格的条件——它的对数密度的导数必须是线性的。在所有分布里，只有高斯满足这个条件。换成 Laplace 分布、均匀分布、或者任何其他形状的分布，线性可识别性都无法保证。

实验也验证了这一点：在广义正态分布族里扫描形状参数，线性恢复的 R²在恰好是高斯分布的时候会出现尖锐的峰值，偏离一点就迅速掉下去。

换句话说，杨立昆用数学证明了，如果想让世界模型真能学到东西，世界本身就得是高斯的。

到这里你可能想问一个特别实在的问题：这个数学证明对做机器人有什么用？

我们知道，世界模型在训练的时候要做两件事：第一件是“对齐”，也就是把同一个东西的两次观测（比如一段视频的连续两帧、一张图片的两种裁剪方式）在内部表示里拉近；第二件是防止模型作弊直接把所有表示都变成一模一样的常数。LeJEPA 用 SIGReg 来做第二件事：强制模型的内部表示服从各向同性高斯分布。做完这一步，模型就不能偷懒了，它必须真的学到点什么。

论文里有一个实验叫 DMC Reacher：让一个有两个关节的机械臂，从起始姿态运动到目标姿态。实验分两组。第一组用随机探索的方式生成训练数据，潜变量的分布满足高斯假设；第二组直接用强化学习策略跑出来的真实轨迹做训练数据，这时候因为策略本身是有目标导向的，潜变量的分布集中在状态空间的某个低熵区域，不再满足高斯假设。

结果第一组训练出来的模型，在内部表示空间里做直线插值规划，得到的关节运动轨迹和已知真实状态下的理想轨迹，在统计上没有差异。也就是说，模型在脑子里想的规划，等于在真实世界里求解最优控制。第二组呢？同样的规划方法，偏差显著上升，控制代价高了一大截。

同一套物理系统，同一套算法，唯一的不同是训练数据的分布。

打个比方，这就很像去认识一个没见过的人，看她的证件照远没有看她的生活照来得直接有效。

所以，数据不光要多，更重要的是数据的分布场景要丰富，角度、背景、光照……这些几乎和数据本身同样重要。分布丰富了，模型就能学到真实结构；分布太少，再多数据也只是更高精度的背题。

至此，杨立昆的这篇论文补上了世界模型最关键的一块理论拼图。它不是一个新的 benchmark 记录，不是一个更大的模型参数，而是一个为什么的答案。

论文里有一句话，杨立昆是这么写的：“Our theory turns an empirically successful recipe into a mathematical guarantee——我们把一个经验上成功的方法，变成了一项数学证明。”

从经验到证明，这可能就是世界模型从技术信仰变成科学必然的时刻。