李飞飞与杨立昆:同一个「世界」,不同的梦想零一瓦舍

4/29/2026

李飞飞要的是「把世界做出来并让智能体进入其中」。

杨立昆要的是「把世界压缩成可规划的内部变量并让智能体据此行动」。

前者强调世界的外在可构造性,后者强调世界的内在可预测性。

一、同一个「世界」,不同的梦想

最近几年,很多大佬都在谈「世界模型」(World Model)这个概念,杨立昆和李飞飞可能是其中最有影响力的两个。

在很多人的印象里,他们的路线和主张是一样的。其实不然。

自然语言有模糊性,同一个词指向的含义可能非常多样化——就像不久前杨立昆和 DeepMind 的哈萨比斯在社交媒体上论战「通用人工智能」(AGI),吵了半天,实际上,两人对「通用」这个词的定义完全不一样,鸡同鸭讲。

「世界模型」这个词也具有一定的迷惑性。从宏观角度讲,在这个概念下,大家都关心的共同问题是:机器究竟怎样才能获得对世界的把握?

但如果去解决这个问题,哲学观、切入点以及路线图就像各村的地道,各有各的高招了。

李飞飞最关注的是 AI 如何获得对三维空间、几何关系、物理约束与交互环境的理解与生成能力。她后来创业的公司 World Labs 在官方表述里,把自己定义为一家「空间智能」(Spatial Intelligence)公司,我觉得这个词更能贴切地描述她的主张——强调模型要能够感知、生成、推理并与 3D 世界交互。

在李飞飞眼中,所谓的「世界」,首先是一个可进入、可编辑、可共享、可漫游的空间对象。强调的是世界的可构造性与可共享性:AI 要能把一个具有空间一致性、物理连贯性和编辑自由度的世界生成出来,让人和机器都能进入其中。

杨立昆那边则完全是另一种语义重心。在他的架构里,「世界模型」是内部系统的一部分,它的职责不是把世界显式地做出来给人看,而是补全未观测状态、预测未来状态、表达不确定性,与其他模块一起支撑「规划」。

更关键的是,他反复强调,预测应发生在「抽象表征空间」中,模型不必也不应该去重建观测信号的全部细节,只需要保留与任务、行动和后果有关的结构。

在杨立昆眼中,所谓的「世界」,首先是一个可用于预测和规划的抽象状态空间。强调的则是世界的可预测性与可行动性:AI 不一定要把世界完整复刻出来,却必须形成一个足够好的内部模型,使自己能够在行动之前预想未来、比较后果并据此规划。

所以,你可以这么理解:这些大佬都觉得,单靠语言模型,不足以通向更完整的智能,未来的 AI 需要对世界有更多的认知和掌控。但对于「接下来要补上的到底是什么」这个问题,答案并不相同。有人想把世界重新带回 AI 的外部接口,有人想把世界压缩进 AI 的内部机制。

我更愿意把它们理解为两种不同层级上的命题:李飞飞在定义一种新的能力目标,杨立昆在定义一种新的认知机制。前者回答「AI 应该成为什么样的存在」,后者回答「AI 内部应该如何工作,才可能成为那样的存在」。

二、李飞飞的「空间智能」

李飞飞自己说,她进入这个领域以来,长期的北极星一直是「视觉和空间智能」:从早年推动大规模视觉学习基准 ImageNet,到后来在斯坦福长期把计算机视觉与机器人学习结合起来,再到创办 World Labs,主线始终是「让机器真正建立对世界的感知与理解」。

「空间智能」是这条主线的自然外推:从识别物体,到理解场景,再到进入世界。

她认为,真实智能首先发生在空间里。人类婴儿在学会说话之前,已经在通过抓取、移动、观察、跌倒和纠正,持续建立关于深度、边界、物体恒常性、因果后果和行动可能性的直觉。对机器而言,缺的恰恰不是更多关于世界的描述,而是这种把感知、几何、物理与行动联结起来的底层能力。

在李飞飞的论述里,下一代「世界模型」至少应当具备生成性、多模态性与交互性。而在 World Labs 的叙事中,这一点被进一步具体化为持续性(Persistent)、可漫游性(Navigable)、可编辑性(Editable)的 3D 世界——这是一个能够被人和机器共同探索、修改、组合和推演的世界。

「3D as code」是这条路线最有启发性的提法之一。它的意思是说:正如文本曾成为调用软件能力的通用接口,3D 表征也可能成为未来调用空间能力的通用接口。

代码之所以重要,是因为它可检查、可修改、可组合、可执行,并能嵌入既有工具链。而 3D 表征如果获得类似地位呢?当世界模型输出的是结构化 3D,而不只是像素时,人可以把它拿到熟悉的工具里继续编辑,机器也可以把它接入渲染引擎、仿真器、物理求解器、机器人栈与 CAD 流程。

这样一来,「空间」就变成了一种像代码一样可以进入生产链条的对象。「世界生成」就不再只是内容生产,而变成一种可编排、可迭代、可协同的生产能力。

一言以蔽之,所谓空间智能,是要重新构建 AI 与现实世界的关系——这个关系在之前长期被语言和扁平化的数据所垄断。如果说 LLM 让机器学会了「谈论」世界,那么空间智能要做的,就是让机器开始真正「栖居」(Inhabiting)于世界之中。

三、杨立昆的「世界模型」

我之前写过几篇介绍杨立昆「世界模型」和 JEPA 的文章,链接放在文末,可以参考。这里不再长篇赘述,只简述核心思想。

杨立昆如果听到「世界模型」被解释成「构建一个完整的 3D 空间」,大概会皱起眉头。不是因为他反对空间智能,而是因为他关注的首要问题不同。

他首要关注的不是AI 如何把外部世界显式做出来, 而是智能体如何在内部形成对世界变化的表征,以便预测、规划和行动。

这是他 2017 年以来一直在推进的概念——自主机器智能(Autonomous Machine Intelligence)——的核心。在这个架构里,世界模型不是一个生成 3D 场景的渲染器,而是一个可配置的预测引擎。负责两件事:一是估计感知模块没有提供的世界状态,二是预测「看似合理的未来」(Plausible Futures) 的世界状态,并在多个抽象层级和多个时间尺度上工作。

这个思想有一点「抽象」,也是最容易被大众误读的一点。我们举个具象化的例子。

比方说你在开车。你不需要在脑子里实时渲染出道路、树木、对面来车的每一根线条和纹理。你只需要一个抽象表征:前面那辆车的速度、距离、可能的刹车概率,以及如果你踩油门或刹车会发生的状态变化。那些不必要的细节——车的颜色、轮胎的品牌、路边的广告牌——统统可以丢掉。

这就是为什么他一直在推进 JEPA 这套学习方案。JEPA 不做像素级的生成,而是学习将观测(比如一帧视频)映射到一个抽象表征,然后在这个表征空间里预测未来的表征。

这套东西不是给人看的,而是供行动和规划使用的。杨立昆认为:预测应该发生在抽象表征空间中,而不是观测空间中。 因为观测空间(比如像素)太冗余、太细节,强迫模型去预测每一个像素,浪费算力,还抓不住重点。

这条路线也有它的挑战:如何在不预设显式几何结构、主要依赖表征学习的前提下,学会物理常识?如何保证抽象表征空间能够捕捉到足够多的因果结构,而不只是统计相关性?这些问题至今没有完全解决。

其实,看到这里,你应能明白,这两条路线,不是一回事,但也不是对立的,更谈不上对错之分。

李飞飞强调的是:世界必须成为一个可生成、可编辑、可共享的外部对象。这正是「3D as code」的野心:把三维空间变成一种像代码一样的通用接口。

杨立昆强调的是:世界必须成为一个可压缩、可推演、可规划的内部结构。这正是 JEPA 系列工作的核心:在抽象表征空间里学会物理世界的规律,而不浪费算力去重建每个细节。

这些路线今天看上去是分叉的,但长期看,难保没有汇合的一天。

Scroll for more