李飞飞关于世界模型深刻易懂的文章:功能分类法爱真理自由博客
世界并非由文字构成。
在之前的一篇文章中,我们提出空间智能是人工智能的下一个前沿,而世界模型则是通往这一目标的路径。今天,World Labs团队和我希望再深入一层:在当下众多被称作“世界模型”的系统中,真正构成这种能力的功能组件有哪些?它们各自的作用又是什么?
语言模型赋予了机器对概念、词汇和推理的非凡掌控力,但物理世界(无论虚拟还是现实)运行在完全不同的基底之上。语言模型学习的是文本的统计结构,而世界模型学习的是空间与时间的统计结构:光线如何落在物体表面,从一个从未被相机捕捉的角度看花园是怎样的景象,物体如何响应外力并遵循物理定律运行。
正因如此,“世界模型”已成为当今AI领域最重要、也最含义过载的术语之一。计算机视觉、机器人学、强化学习和生成式AI都在宣称自己正在构建世界模型,但它们所指的内容却大相径庭。一个生成视觉华丽却物理上不可能的火焰的视频模型、一个即兴创作可玩游戏的语言模型,以及一个忠实模拟燃烧过程的物理引擎,都被冠以同一个名字。
古希腊人始终无法就世界由什么构成达成共识——是火、水还是不可分割的原子,因为“世界”从来就不是单一的事物。它始终是一个替身,代表不同思想家需要用来推理的那个整体。AI正在需要极高精确性的时刻,继承了同样的问题。
分类法背后的循环
要厘清这一混乱,最好的起点是一个比任何相关技术都更为古老的图示。强化学习教科书(包括经典的Sutton & Barto著作)几十年来一直使用同一张图的变体,来描述智能体如何与世界互动。这个图的正式名称是部分可观测马尔可夫决策过程(POMDP),而“世界模型”这一术语的原始技术定义正源于这一传统。
一个智能体(可以是人、机器人或软件系统)会执行行动。这些行动会改变世界的状态。智能体永远无法直接看到状态,它接收到的只是观测:落在视网膜上的光子、传感器的读数、视频帧中的像素。新的观测又会引导新的行动,循环往复。
“状态”一词需要特别说明,因为其含义因领域而异。这里指的并非化学中的状态(固、液、气),而是物理学家和机器人学家所定义的状态:某一时刻世界中发生一切的完整描述,包括每一个物体、位置、速度和属性。状态是世界的底层现实——原则上完整,却永远无法被身处其中的任何智能体直接观测到。观测是智能体对这一现实的局部视图,而行动则是智能体做出的回应。
这个智能体 → 行动 → 状态 → 观测 → 智能体的循环,正是现代“世界模型”一词的技术源头。该表述本身出现更早,可追溯到Kenneth Craik 1943年提出的观点:心智通过运行现实的“小规模模型”来进行推理,并在20世纪80年代末至90年代初被引入神经网络领域。这个循环也解释了今天人们使用该术语时的不同含义——现在被称作世界模型的各种系统,实际上是同一循环的不同投影,每个系统输出的只是循环中的不同部分。
世界模型的三种核心功能
1. 渲染器(Renderer)
渲染器以像素形式输出供人类眼睛观看的观测,其核心指标是视觉保真度。将文本提示转化为电影级无人机镜头的视频模型就是渲染器,Google的Genie 3以及World Labs的RTFM等实时交互系统亦然。这类模型并不具备对三维结构的明确理解,它生成的是“观看者会看到什么”,而非“实际存在什么”。无人机镜头中的建筑从上方看可能完美无瑕,但若尝试开车穿过下方街道,它们就会崩塌。
2. 模拟器(Simulator)
模拟器输出的是状态:一个在几何、物理和动力学上忠实于世界的可计算表示,人类和程序都能对其进行计算与交互。如果说渲染器的契约是视觉层面的,那么模拟器的契约则是结构性的——几何必须经得起检验,物理必须遵循牛顿定律,动力学行为必须符合真实世界的规律。
模拟器同时服务于两类用户:建筑师、设计师、电影人和游戏开发者等专业人士需要超越视觉合理性的准确性;而强化学习智能体、机器人控制器、自动驾驶系统等程序则将其作为大规模训练场,用于测试现实中危险、昂贵或不可能执行的场景。
3. 规划器(Planner)
规划器输出的是行动。给定观测和目标,它回答“智能体下一步应该做什么”。在很多意义上,它是渲染器的逆过程:渲染器输入行动、输出观测;规划器则输入观测、输出行动,从而闭合感知-行动循环。视觉-语言-行动(VLA)模型、基于模型的系统,以及新一代的World Action Models,都属于规划器的范畴——它们试图让机器人在非结构化世界中做出决策。
这三类基本涵盖了目前大多数落地的系统,区分它们在实践中非常有价值。但它们在根本上并非彼此孤立。对世界运行规律的同一底层知识(几何、物理、动力学)是它们共同的基础。一个能从任意角度渲染杯子的模型,原则上也应该能模拟杯子被推动时的情形,并规划机械手将其拿起。目前最有价值的研究正在有意模糊这三者之间的界限。
为什么模拟器才是关键
在这三者中,模拟器受到的公众关注最少,却是最具决定性的一环。本文正是为了纠正这种不对称。
渲染器目前商业化最为成熟,大量文生视频、图生视频产品正在消费者和企业市场快速扩张。Google的Nano Banana模型已将渲染器级别的图像生成能力带给潜在数亿用户。但渲染器优化的是视觉上的似真性,而非物理准确性。这一上限至关重要:它们的输出虽然美丽,却无法被信任用于设计建筑或训练机器人。
规划器则是最令人兴奋、也最处于早期阶段的领域,与机器人学习紧密相关。过去两年出现了许多令人印象深刻的机器人演示视频,但我们必须保持诚实:这些演示几乎都局限于高度受控的实验室环境,物体种类少、任务时长短。距离能在厨房、仓库或手术室等真实复杂场景中可靠运行的机器人,仍有巨大差距。尽管如此,商业投入极其庞大。
模拟器是连接渲染器与规划器的桥梁。如果说语言是对世界的抽象,像素是对世界的投影,那么几何、物理和动力学就是世界本身。模拟器必须在这一最深层工作:作为结构主干,从中既能生成视觉外观(供渲染器使用),也能推导出行动后果(供规划器使用)。
掌握模拟能力的模型,既能投射出供人类观看的像素,也能生成供具身智能体使用的行动预测。而只擅长渲染或只擅长规划的模型,都无法做到这一点。其商业价值极为巨大,仅NVIDIA Omniverse所瞄准的工厂、仓库、供应链和数字孪生市场,就超过万亿美元。机器人训练、自动驾驶测试、建筑可视化、工程设计、药物发现等,都高度依赖模拟技术。
该领域最艰难的开放问题也集中于此:带有明确几何、材料属性和物理标注的三维数据,比渲染器依赖的互联网视频稀缺几个数量级;仿真到现实(sim-to-real)的差距依然存在;生成式模拟器还带来了新的风险——AI生成的几何看似合理,却可能存在自交、尺度错误等问题,导致物理模拟失真。
在World Labs,我们的Marble是迈向这一领域的第一步。它接受多模态提示(文本、图像、视频或空间草图),生成可探索的3D环境,同时输出用于视觉浏览的高斯溅射(Gaussian Splats)和供物理引擎使用的碰撞网格。但Marble只是漫长旅程的第一章。
界限正在瓦解,未来已来
当前该领域最重要的趋势是:三类世界模型正在相互融合。核心洞见在于——渲染世界、模拟世界和在其中行动所需的知识,本质上是同一套知识。一个真正理解“杯子如何放在桌上”的模型(包括其几何、材料、对力的响应等),应当能从任意角度渲染它、模拟它被推动时的动态,并规划如何用手拿起它。三者不过是同一底层理解的不同投影。
World Labs的Marble已能从单一模型中同时输出高斯溅射和碰撞网格,实质上打破了渲染器与模拟器之间的界限。每一类系统都在从被动输出转向交互式系统:渲染器开始接受动作条件,模拟器生成的世界越来越可控可编辑,规划器也从单纯反应转向深思熟虑。
最终的逻辑终点是一个统一的世界模型:一个基础模型,能够同时渲染照片级真实视图、生成物理准确的结构、规划复杂行动序列,并根据下游需求灵活切换输出模态。
方向已经清晰。自20世纪80年代末以来,AI领域一直押下的核心赌注——一个足够丰富、足够深刻的世界模型,足以让任何智能体看见世界、构建世界并在其中行动——如今正驱动着整整一代研究。随着渲染、模拟、规划三条原本独立的路线开始汇聚并融合,它们将共同重塑机器智能与物理世界之间的关系,即空间智能的漫长历程。
语言让机器学会了“谈论”这个世界,而世界模型将让机器最终理解、想象、推理,并真正与之互动这个世界。


