杨立昆用15M参数打平了万亿参数多少做点

4/25/2026

15M 参数,1 块 GPU,打平了用 1.24 亿张图片预训练的巨型模型,规划速度快 48 倍。

为什么删掉所有的训练技巧,结果反而更好?一个不预测像素、只预测抽象表征的 AI,真的比被迫生成像素的 AI 更懂物理吗?

2024 年 Sora 发布时,整个 AI 社区在庆祝"世界模型终于来了"。

但有一个人不买账。

杨立昆(Yann LeCun),图灵奖得主,当时还是 Meta 首席 AI 科学家。他从 2022 年就在说同一件事。那年他发表了一篇 62 页的 position paper,标题叫"A Path Towards Autonomous Machine Intelligence"。核心主张只有一句:用像素预测世界是浪费的,注定失败的。AI 应该在抽象表征空间做预测,不是在像素空间。

整个 AI 社区几乎没有人听。

2024 年 2 月,Sora 发布前后,他在 X 上写了一段话:

"Modeling the world for action by generating pixel is as wasteful and doomed to failure as the largely-abandoned idea of 'analysis by synthesis'."

"That’s why generative models for sensory inputs are doomed to failure."

翻译成人话:用像素生成来建模世界,跟当年已经被抛弃的"通过合成来分析"一样,既浪费,又注定失败。

53 万次浏览。281 次转发。行业的反应:几乎没人当回事。

2025 年 11 月,杨立昆从 Meta 离职。他没有退休,而是共同创立了 AMI Labs,拿到 10.3 亿美元种子轮融资,估值 35 亿美元。投资人包括 NVIDIA 和贝索斯。他把全部赌注押在了一个方向上:世界模型。

现在,OpenAI 已宣布 Sora 即将停止服务。OpenAI 转手发布了 ChatGPT Images 2.0,工程能力强到整个行业都在讨论。而杨立昆的论文,刚刚出来。

2025 到 2026 年,AI 行业的主旋律是一场军备竞赛。

OpenAI 的 Sora 生成电影级视频,以生成逼真的视频帧为目标。GPT 据报道有超过万亿个参数。Google DeepMind 的 DreamerV4 在 Minecraft 里用像素级重建学会了打游戏。整个行业的共识清晰到不需要讨论:模型更大、数据更多、trick 更复杂,就是进步。

所有人都在做同一件事——让 AI 看到更多像素,生成更多像素,记住更多像素。

越大越好。越复杂越强。

2026 年 3 月,arXiv 上安静地出现了一篇论文。

作者列表第四个名字是杨立昆(Yann LeCun),AMI Labs 创始人。论文叫 LeWorldModel。

但参数表看起来像是写错了。

15M 参数。2 项损失函数。1 个需要调整的超参数。1 块 GPU。训练时间:几个小时。

GPT-4 据报道有超过万亿个参数。LeWorldModel 不到它的万分之一。

在一个所有人都在比谁的 GPU 更多的时代,这篇论文像是从另一个平行宇宙寄过来的信。

一篇不该成功的论文

LeWorldModel(以下简称 LeWM)是一种叫做 JEPA(联合嵌入预测架构) 的世界模型。这个名字听起来拗口,但它做的事情用一句话就能说清:它不预测像素,只预测"嵌入"。

翻译成人话:它不试图重建世界的每一个细节,只保留预测未来所需要的骨架,丢掉纹理、光影、颜色这些不可预测的噪声。

这个想法听起来合理。但 JEPA 有一个致命弱点:表示崩塌(representation collapse)。

翻译成人话:模型发现了一个作弊捷径。如果它把所有输入都映射成同一个点,那"预测未来"就变成了一个永远正确的废话——因为未来和现在已经被压缩成了同一个东西。这就像一个学生发现每次都回答"不知道"也能得满分,他就永远不会真正学习。

之前最好的解法叫 PLDM。它用了 7 项不同的损失函数和 6 个需要反复调整的超参数来防止崩塌。代价是训练不稳定,每换一个测试环境就要从头调参。用七把锁来锁一扇门,结果锁和锁之间互相卡死了。

LeWM 的做法完全不同。它只用了一把锁。

这把锁叫 SIGReg,它背后的数学原理是 Cramér-Wold 定理(克拉梅尔-沃尔德)——一个近百年前就证明了的统计学结果。这个定理说:如果你想确认一个高维分布是否符合标准正态分布(这在 192 维的空间中几乎不可能直接验证),你只需要从各个方向做一维投影,然后检查每个投影是否像正态分布。如果所有投影都像,那整体就是。

比方说你去体检。医生不需要打开你的身体检查每一个器官。他查血压、血糖、血脂、心率这几十项指标,如果每项都正常,他就可以判断你大体是健康的。SIGReg 对潜空间做的就是这种指标式体检——从 1024 个随机方向做投影,用一个叫 Epps-Pulley 正态性检验(一种统计学工具)逐一检查。不需要直接观测 192 维空间的全貌,也不需要任何工程 trick。

整个训练目标只剩两项:一项让模型学会预测(收缩力),一项让嵌入保持多样性(展开力)。需要调整的超参数从 6 个降到了 1 个。搜索策略从 O(n⁶) 的网格搜索变成了 O(log n) 的二分法。

结果出来后,有点不讲道理:

不只是打败了同为端到端的 PLDM。LeWM 还和 DINO-WM 打了个平手——后者冻结了 DINOv2 编码器,那个编码器是用大约 1.24 亿张图片预训练出来的。LeWM 从零开始,5M 参数的编码器,在 Push-T 上反而更好(96% vs 74%)。规划速度快 48 倍。

两项损失。一块 GPU。几个小时。

这张表的重点不在任何一行,而在两张表的对比本身:更少的约束,更好的结果。这不是偶然的。

这里有一个违反直觉的事实值得停下来想一想:为什么删掉大部分防崩塌工程技巧反而更稳定?直觉上,更多的稳定化手段应该带来更稳定的训练。

但论文也没有回避自己的失败。在 Two-Room 这个最简单的环境之一中,LeWM 只做到 87%,而 DINO-WM 是 100%。原因很具体:LeWM 强制嵌入匹配高维高斯分布,但 Two-Room 的真实数据结构是低维的。先验和现实不匹配。在这种情况下,越强的先验伤害越大。

这其实是整篇论文最有信息量的发现之一:最简单的问题,是最好的压力测试。

没人要求它学会的事

论文的第五章报告了一个训练目标之外的发现。

LeWM 在训练过程中,潜空间中的轨迹越来越"直"。具体来说,连续时间步的潜速度向量之间的余弦相似度从接近 0 上升到了大约 0.6。这意味着模型把复杂的时间动态编码成了近乎直线的潜轨迹。

但没有任何损失项要求它这样做。SIGReg 只约束每个时间步的分布形状,完全不涉及时间维度上的任何约束。

翻译成人话:模型自己学会了“把复杂的事情简化成直线运动”这件事。没有任何人要求它这样做。

时间路径拉直(temporal latent path straightening) 是纯粹的涌现现象。它不是被设计出来的,而是从正确的约束条件中自然生长出来的。

更有意思的是对比。PLDM 有一个专门设计的时间平滑损失叫 L_time-sim,明确鼓励轨迹变直。它投入了额外的计算和一个专用的超参数来做这件事。

然后 LeWM 的轨迹比 PLDM 更直。

一个专门花力气设计的功能,被一个完全没有考虑过这件事的系统在涌现中超越了。这不是鸡汤。这是被量化数据支撑的工程事实。

2019 年,神经科学家埃纳夫(Hénaff)等人发表了一篇关于人类视觉系统的研究。他们发现人类大脑也会把复杂的时间动态表征为近乎直线的潜轨迹。这被称为"时间拉直假说"。

进化没有"设计"这个特性。它是视觉处理在自然选择压力下的涌现副产品。

LeWM 在没有任何生物学先验的情况下,独立涌现了相同的性质。

一个在 1 块 GPU 上训练了几个小时的 15M 参数模型,和几亿年进化出来的人类大脑,在表征时间动态的方式上走到了同一个地方。这不能证明什么因果关系,但它暗示了一个深刻的可能性:时间路径拉直可能不是人类大脑的特例,而是任何高效时序预测系统的通用归纳偏置。

回到前面预埋的那个问题:为什么删掉大部分防崩塌工程技巧反而更稳定?

因为 PLDM 的 7 项损失意味着 7 个梯度方向在争夺同一组参数。每项损失都在告诉模型"你应该往这边走",但 7 个方向互相矛盾,最终的参数更新方向是一个嘈杂的折中。就像七个人同时拉一辆车的七条绳子,车在原地打转。

LeWM 只有 2 个方向。预测损失(收缩力)想让所有嵌入趋同,SIGReg(展开力)想让嵌入保持散开。两股力量的拉锯产生一个清晰的平衡点。信号干净,折中明确。

进化生物学中有一个完全同构的结构:自然选择是收缩力(物种趋同),突变是展开力(物种分散),两者的张力平衡产生了适应性物种。LeWM 的两项损失,本质上是这种张力的工程化实现。

像测试婴儿一样测试 AI

发展心理学有一个经典的实验范式叫 VoE(违反预期,Violation-of-Expectation)。

做法很简单。给 4 个月大的婴儿看两类场景:正常的场景(一个球滚下斜面,碰到墙停下来)和违反物理规律的场景(一个球穿过了墙)。然后测量婴儿盯着屏幕看了多长时间。如果婴儿看违规场景的时间显著更长,说明它觉得"不对劲"——它有物理直觉,知道物体不应该穿墙。

论文的作者用同样的方法测试了 LeWM。他们准备了三种轨迹:

1. 正常轨迹:物体按物理规律运动

2. 物理违规:物体瞬移到一个随机位置

3. 视觉变化:物体颜色突然改变

然后测量 LeWM 的"惊讶程度"——模型的预测误差峰值。

结果清楚到不需要解释。

物体瞬移:LeWM 显著惊讶。p < 0.01,三个测试环境全部如此。

物体变色:几乎无反应。

LeWM 学会了在意"物体不会凭空消失",但不在乎"物体变了什么颜色"。它学会了区分与预测相关的信息(位置、运动)和与预测无关的信息(颜色、纹理)。

这恰恰是杨立昆四年来一直在说的那句话的实验验证。

理解不是还原所有细节,而是知道哪些细节可以忽略。

人类也是如此。我们能预测一个球从桌面滚下来之后会怎么运动,但几乎没人能精确回忆球表面是什么颜色、什么纹理。我们的大脑在做和 LeWM 相同的事情——保留骨架,丢弃噪声。

论文还做了一个反面验证。他们尝试给 LeWM 加上像素重建损失——强制模型去"看清"每一个像素级别的细节,理论上这应该帮助模型"更好地理解"环境。

结果反而变差了。训练方差从 ±2.83 暴增到 ±7.54。因为重建损失迫使编码器记住和控制无关的视觉细节(纹理、阴影、光照变化),这些细节变成了规划时的噪声。"看得越清楚"不等于"理解得越深"。

他到底在反对什么

到这里可以把镜头从论文本身拉远一步。

LeWorldModel 这篇论文写得非常克制。它的对手是 PLDM 和 DINO-WM——两个 JEPA 家族内部的竞品。它没有和 Sora、Dreamer、DIAMOND 做直接实验对比。论文里没有任何一句话在挑衅生成式路线。

但论文的存在本身就是一个立场声明。

因为它的共同作者,就是前面说了四年“wasteful”的那个人。论文没有替他宣战,但数据替他说话了。

他用过一个类比。你想模拟一个足球的飞行轨迹。你需要建模球表面每一个六边形的材质吗?不需要。你只需要质量、速度和重力。

像素重建路线在做的事情,是建模每一个六边形。LeWM 在做的事情,是只保留质量、速度和重力。

Scroll for more