李飞飞关于世界模型深刻易懂的文章：功能分类法爱真理自由博客

世界并非由文字构成。

在之前的一篇文章中，我们提出空间智能是人工智能的下一个前沿，而世界模型则是通往这一目标的路径。今天，World Labs团队和我希望再深入一层：在当下众多被称作“世界模型”的系统中，真正构成这种能力的功能组件有哪些？它们各自的作用又是什么？

语言模型赋予了机器对概念、词汇和推理的非凡掌控力，但物理世界（无论虚拟还是现实）运行在完全不同的基底之上。语言模型学习的是文本的统计结构，而世界模型学习的是空间与时间的统计结构：光线如何落在物体表面，从一个从未被相机捕捉的角度看花园是怎样的景象，物体如何响应外力并遵循物理定律运行。

正因如此，“世界模型”已成为当今AI领域最重要、也最含义过载的术语之一。计算机视觉、机器人学、强化学习和生成式AI都在宣称自己正在构建世界模型，但它们所指的内容却大相径庭。一个生成视觉华丽却物理上不可能的火焰的视频模型、一个即兴创作可玩游戏的语言模型，以及一个忠实模拟燃烧过程的物理引擎，都被冠以同一个名字。

古希腊人始终无法就世界由什么构成达成共识——是火、水还是不可分割的原子，因为“世界”从来就不是单一的事物。它始终是一个替身，代表不同思想家需要用来推理的那个整体。AI正在需要极高精确性的时刻，继承了同样的问题。

分类法背后的循环

要厘清这一混乱，最好的起点是一个比任何相关技术都更为古老的图示。强化学习教科书（包括经典的Sutton & Barto著作）几十年来一直使用同一张图的变体，来描述智能体如何与世界互动。这个图的正式名称是部分可观测马尔可夫决策过程（POMDP），而“世界模型”这一术语的原始技术定义正源于这一传统。

一个智能体（可以是人、机器人或软件系统）会执行行动。这些行动会改变世界的状态。智能体永远无法直接看到状态，它接收到的只是观测：落在视网膜上的光子、传感器的读数、视频帧中的像素。新的观测又会引导新的行动，循环往复。

“状态”一词需要特别说明，因为其含义因领域而异。这里指的并非化学中的状态（固、液、气），而是物理学家和机器人学家所定义的状态：某一时刻世界中发生一切的完整描述，包括每一个物体、位置、速度和属性。状态是世界的底层现实——原则上完整，却永远无法被身处其中的任何智能体直接观测到。观测是智能体对这一现实的局部视图，而行动则是智能体做出的回应。

这个智能体 → 行动 → 状态 → 观测 → 智能体的循环，正是现代“世界模型”一词的技术源头。该表述本身出现更早，可追溯到Kenneth Craik 1943年提出的观点：心智通过运行现实的“小规模模型”来进行推理，并在20世纪80年代末至90年代初被引入神经网络领域。这个循环也解释了今天人们使用该术语时的不同含义——现在被称作世界模型的各种系统，实际上是同一循环的不同投影，每个系统输出的只是循环中的不同部分。

世界模型的三种核心功能

1. 渲染器（Renderer）

渲染器以像素形式输出供人类眼睛观看的观测，其核心指标是视觉保真度。将文本提示转化为电影级无人机镜头的视频模型就是渲染器，Google的Genie 3以及World Labs的RTFM等实时交互系统亦然。这类模型并不具备对三维结构的明确理解，它生成的是“观看者会看到什么”，而非“实际存在什么”。无人机镜头中的建筑从上方看可能完美无瑕，但若尝试开车穿过下方街道，它们就会崩塌。

2. 模拟器（Simulator）

模拟器输出的是状态：一个在几何、物理和动力学上忠实于世界的可计算表示，人类和程序都能对其进行计算与交互。如果说渲染器的契约是视觉层面的，那么模拟器的契约则是结构性的——几何必须经得起检验，物理必须遵循牛顿定律，动力学行为必须符合真实世界的规律。

模拟器同时服务于两类用户：建筑师、设计师、电影人和游戏开发者等专业人士需要超越视觉合理性的准确性；而强化学习智能体、机器人控制器、自动驾驶系统等程序则将其作为大规模训练场，用于测试现实中危险、昂贵或不可能执行的场景。

3. 规划器（Planner）

规划器输出的是行动。给定观测和目标，它回答“智能体下一步应该做什么”。在很多意义上，它是渲染器的逆过程：渲染器输入行动、输出观测；规划器则输入观测、输出行动，从而闭合感知-行动循环。视觉-语言-行动（VLA）模型、基于模型的系统，以及新一代的World Action Models，都属于规划器的范畴——它们试图让机器人在非结构化世界中做出决策。

这三类基本涵盖了目前大多数落地的系统，区分它们在实践中非常有价值。但它们在根本上并非彼此孤立。对世界运行规律的同一底层知识（几何、物理、动力学）是它们共同的基础。一个能从任意角度渲染杯子的模型，原则上也应该能模拟杯子被推动时的情形，并规划机械手将其拿起。目前最有价值的研究正在有意模糊这三者之间的界限。

为什么模拟器才是关键

在这三者中，模拟器受到的公众关注最少，却是最具决定性的一环。本文正是为了纠正这种不对称。

渲染器目前商业化最为成熟，大量文生视频、图生视频产品正在消费者和企业市场快速扩张。Google的Nano Banana模型已将渲染器级别的图像生成能力带给潜在数亿用户。但渲染器优化的是视觉上的似真性，而非物理准确性。这一上限至关重要：它们的输出虽然美丽，却无法被信任用于设计建筑或训练机器人。

规划器则是最令人兴奋、也最处于早期阶段的领域，与机器人学习紧密相关。过去两年出现了许多令人印象深刻的机器人演示视频，但我们必须保持诚实：这些演示几乎都局限于高度受控的实验室环境，物体种类少、任务时长短。距离能在厨房、仓库或手术室等真实复杂场景中可靠运行的机器人，仍有巨大差距。尽管如此，商业投入极其庞大。

模拟器是连接渲染器与规划器的桥梁。如果说语言是对世界的抽象，像素是对世界的投影，那么几何、物理和动力学就是世界本身。模拟器必须在这一最深层工作：作为结构主干，从中既能生成视觉外观（供渲染器使用），也能推导出行动后果（供规划器使用）。

掌握模拟能力的模型，既能投射出供人类观看的像素，也能生成供具身智能体使用的行动预测。而只擅长渲染或只擅长规划的模型，都无法做到这一点。其商业价值极为巨大，仅NVIDIA Omniverse所瞄准的工厂、仓库、供应链和数字孪生市场，就超过万亿美元。机器人训练、自动驾驶测试、建筑可视化、工程设计、药物发现等，都高度依赖模拟技术。

该领域最艰难的开放问题也集中于此：带有明确几何、材料属性和物理标注的三维数据，比渲染器依赖的互联网视频稀缺几个数量级；仿真到现实（sim-to-real）的差距依然存在；生成式模拟器还带来了新的风险——AI生成的几何看似合理，却可能存在自交、尺度错误等问题，导致物理模拟失真。

在World Labs，我们的Marble是迈向这一领域的第一步。它接受多模态提示（文本、图像、视频或空间草图），生成可探索的3D环境，同时输出用于视觉浏览的高斯溅射（Gaussian Splats）和供物理引擎使用的碰撞网格。但Marble只是漫长旅程的第一章。

界限正在瓦解，未来已来

当前该领域最重要的趋势是：三类世界模型正在相互融合。核心洞见在于——渲染世界、模拟世界和在其中行动所需的知识，本质上是同一套知识。一个真正理解“杯子如何放在桌上”的模型（包括其几何、材料、对力的响应等），应当能从任意角度渲染它、模拟它被推动时的动态，并规划如何用手拿起它。三者不过是同一底层理解的不同投影。

World Labs的Marble已能从单一模型中同时输出高斯溅射和碰撞网格，实质上打破了渲染器与模拟器之间的界限。每一类系统都在从被动输出转向交互式系统：渲染器开始接受动作条件，模拟器生成的世界越来越可控可编辑，规划器也从单纯反应转向深思熟虑。

最终的逻辑终点是一个统一的世界模型：一个基础模型，能够同时渲染照片级真实视图、生成物理准确的结构、规划复杂行动序列，并根据下游需求灵活切换输出模态。

方向已经清晰。自20世纪80年代末以来，AI领域一直押下的核心赌注——一个足够丰富、足够深刻的世界模型，足以让任何智能体看见世界、构建世界并在其中行动——如今正驱动着整整一代研究。随着渲染、模拟、规划三条原本独立的路线开始汇聚并融合，它们将共同重塑机器智能与物理世界之间的关系，即空间智能的漫长历程。

语言让机器学会了“谈论”这个世界，而世界模型将让机器最终理解、想象、推理，并真正与之互动这个世界。