李飞飞、英伟达、杨立昆都在押注:三条不同的路线?AI工业
2026 年春天,“世界模型”这个词,已经从强化学习领域一个相对小众的角落,走到了机器人基础模型讨论的绝对中心。但随着这个术语迅速走红,它的含义也变得越来越模糊。正如研究员 Chris Paxton 最近所说,这个术语“相当令人沮丧”,因为不同的人用它指代的是完全不同的东西,而这些东西各自又有截然不同的优势与弱点。
如果想理解,为什么几乎所有主要 AI 实验室如今都在构建世界模型,我们就必须穿透这个“性感但容易误导的名字”,去看清行业巨头们究竟在押注哪些具体的技术路线与战略方向。
核心问题:机器人为什么需要一个“世界”?
传统机器人系统,长期以来都依赖手工编写的启发式规则和显式运动学模型。在受控的工厂环境中,这套方法能够工作;但一旦进入人类家庭这种“混乱而开放”的真实场景,它就会迅速失效。这种失败,根源上与“符号落地问题”有关。也就是,计算系统内部那些任意的符号,究竟如何获得与现实世界对应的真实含义。
现代世界模型,试图通过将抽象概念锚定在连续的视觉与物理数据之中,来解决这个问题。它的目标,是让系统通过观察与交互,把物理规律“内化”为自身能力,而不是仅仅执行一套刚性的脚本。
三种战略押注:认知、仿真与空间
战略分析师兼投资人 Natasha Malpani 认为,当前被统称为“世界模型”的项目,实际上代表了 AI 生态中三种完全不同的价值累积方向。
1. 认知架构押注(Yann LeCun / AMI Labs)
这是时间跨度最长、最偏长期主义的一种路线。由图灵奖得主 Yann LeCun 领衔的 AMI Labs,最近完成了 10.3 亿美元种子轮融资,这本身就是产业界对联合嵌入预测架构(JEPA)的一次重注。
JEPA 的思路不是去预测每一个像素——LeCun 认为这件事“在数学上很困难,而且往往并不重要”——而是去预测未来的“潜在状态”。通过忽略诸如灯光闪烁这类不可预测的噪声,模型可以把注意力集中在高层规划与推理真正需要的因果物理结构上。最近,这一理论也在 LeWorldModel(LeWM)中得到了具体体现;据称,它的规划速度可比传统基于像素的模型快 48 倍。
2. 仿真基础设施押注(NVIDIA / Waymo)
在这一路线中,**世界模型本质上是一条“仿真护城河”。**通过构建高保真、可交互的环境,企业可以生成大规模合成数据,用来训练机器人,而这在现实世界中几乎不可能做到。
例如,NVIDIA 的 DreamDojo 汇集了 4.4 万小时的人类视频,用来模拟灵巧操作任务。类似地,Waymo World Model 借助 Google DeepMind 的 Genie 3,“梦出”龙卷风、洪水等罕见但与安全高度相关的场景,从而测试其自动驾驶系统在极端情况下的表现。
3. 空间智能押注(李飞飞 / World Labs)
这一路线认为,真正的世界理解,必须建立在世界原生的三维几何结构之上。像 PointWorld 这样的模型,会把环境表示为“3D 点流”。这样一来,机器人就能以几何层面的精度去预测形变、关节运动以及稳定性,从而为复杂操作提供一种更扎实、更贴近物理现实的建模方式。
技术层级:世界模型是如何运作的?
从技术角度看,Chris Paxton 将世界模型划分为三种主要的架构类型,每一种都有各自不同的工作流。
其中,世界动作模型(World Action Model,WAM)已逐渐成为一种极具潜力的综合性路线。通过在异构机器人数据上进行训练,WAM 不仅能够从多样化轨迹中学习,还可以实现跨形态迁移——例如从人类视频中学习,再把所学能力转移到机器人身上,以提升机器人表现。
更务实的挑战者:“从零训练”与统一大脑
当一些实验室仍在关注表征学习时,另一些组织则采取了更明确、更面向目标的务实路线。
Generalist AI:它们的 GEN-1 模型拒绝依赖微调,而是主张直接在 50 万小时的人类交互数据上“从零训练”。据称,这一路线在某些任务上取得了 99% 的成功率,而此前最先进模型只能达到 64%。
Tesla:Tesla 则放弃模块化思路,把汽车与 Optimus 人形机器人都视作同一项“Physical AI”使命的一部分。其统一的“神经世界模拟器”能够根据机器人的动作生成高保真视频,从而让系统在不冒真实硬件风险的前提下,对模型进行“对抗性场景”验证。
局限与“反应性鸿沟”
尽管热度很高,但世界模型仍面临显著障碍。最核心的问题之一,就是所谓的“反应性鸿沟”。也就是,大模型需要先“梦出”未来,机器人才能采取行动,而这中间的延迟,可能会让系统错失真实世界中的反应时机。生成式视频模型的计算开销非常高。如果机器人必须等待数秒,才能让一个 140 亿参数的模型预测出下一个状态,那么它就无法应对现实环境中的实时变化。
2026 年的一些突破,已经开始试图弥合这道鸿沟。例如 AGIBOT 的 Genie Envisioner 2.0,就尝试把“动作”视作一等变量纳入系统核心,从而实现分钟级稳定仿真,并减少短时 AI 生成视频中经常出现的“漂移”问题。
随着行业走向 2020 年代后期,这几类路线之间的边界,很可能会逐渐模糊,并最终融合成“混合模型”——既具备快速推理能力,又拥有稳健的物理先验。无论是通过 LeCun 所代表的“认知架构”路线,还是 Tesla 所代表的“苦涩教训”式规模化路径,整个行业追求的目标其实是一样的:构建一个像人类一样理解世界的“通用助手”。


