下一个时代：世界模型计算不可计算之物奇点社科

语言是现实最有损的压缩

我们来做个游戏。

现在，不要真的去拍，而是用文字来描述这个动作。

你的双手在空间中的位置，以皮秒为单位，相对彼此的距离。接触点。声音。当双手靠近、碰触、分开时，它们的样子。它们如何相互挤压。两掌之间的空气发生了什么。拍手时你看到了什么。别忘了你的手臂——它们如何弯曲以配合拍打？也要按皮秒记录。袖子上的布料如何响应？背景里发生着什么？旁边的人注意到你在拍手了吗？他们怎么反应？你因为在开会途中按照一篇不该读的文章的指示拍手，被炒鱿鱼了吗？请描述你老板额头上那根青筋。它爆出来了吗？

你做不到，对吧？好，停下来。重点已经说清楚了。

语言，是现实最有损的压缩。

语言当然重要，它是我们沟通与协作的工具。"比手画脚"的游戏证明，在传递想法方面，语言远比动作高效。大语言模型（LLM）在这个意义上确实重要。但语言单独存在，是不够的。

那代码呢？代码是一种非常精确的语言，能让机器执行指令。

作者让 Claude "写一段模拟双手真实环境中拍五次的代码"。它给出了下面这个结果——看起来相当痛苦。

Claude 生成的拍手模拟程序

有一种观点认为，随着规模扩大，语言和代码将能解决所有时空智能挑战，最终产生通用人工智能（AGI）或超级人工智能（ASI）。

有人认为代码是解决众多真实世界智能挑战的关键，因为它能以精确度指挥所有物理形态的系统。

我们不这么认为。基于代码的模拟，不过是梦境的劣质版本——它受规则束缚，无法应对现实中随机混乱的本质。

要了解世界，你必须与它互动。

玻璃珠游戏的隐喻

赫尔曼·黑塞的小说《玻璃珠游戏》（Das Glasperlenspiel）为他赢得了1946年的诺贝尔文学奖。书中描述了一个名叫卡斯塔利亚的未来知识乌托邦，专注于纯粹的思想。卡斯塔利亚的核心是一场精心设计的游戏——玻璃珠游戏，它将全部人类知识综合为单一的形式语言。玩家像谱写赋格曲一样编排"游戏局"，一次落子可能将巴赫的康塔塔、一道数学证明和孔子的一段话联结在一起。这场游戏是终极的抽象：所有人类文化被压缩为符号操作。

黑塞《玻璃珠游戏》

主人公约瑟夫·克内希特晋升为"游戏大师"——卡斯塔利亚的最高职位。但他渐渐幻灭了。这场游戏无论多么美丽，都是贫瘠的。卡斯塔利亚的知识分子沉溺于抽象太深，已与现实世界脱节。他们能以非凡的优雅表达现实，却无法在其中行动。

克内希特最终决定离开卡斯塔利亚，成为一名普通家庭教师。他选择了混乱的、具身的、不可预测的世界，而非完美的符号世界。他将一生献给了游戏，掌握的技艺已超越文字层面，接近世界建模。但这还不够。符号，若与现实失去接触，终将枯竭。

大语言模型是我们的卡斯塔利亚人。它们是符号的精妙操纵者，能够在人类全部文字知识中建立连接。它们可以讨论物理学、创作诗歌、编写代码、解释棒球规则。它们确实是人类历史上伟大的智识成就之一。

但它们完全在表征的领域中运作。它们能描述拍手，却无法真正拍手。它们能谈论重力，却不像蹒跚学步的孩子那样知道重力——那种在数千次跌倒摔跤中，身体学会的"向下"究竟意味着什么。

语言模型能极好地预测下一个词。唯一的问题是，词语就像柏拉图洞穴墙壁上的影子。你无法用代码模拟出一个真实的体育场人群，就像你无法通过描述到达那里一样。

真实世界——或者曾经——是不可计算的。

如果语言和代码，这两项人类最强大的发明，都不足以表征我们的世界，我们还剩下什么？

答案：世界模型

世界模型（World Models）提供了一条通往AGI的另一条路径。它们提供了一种方法，来计算那些今天仍不可计算的事物。它们从克内希特所寻求的——与现实的混乱接触中——学习。

世界模型提供了一种高效执行非确定性计算的方式，并能在传统计算约束下本不可能实现的场景中运行模拟。

世界模型并非LLM的替代品。语言依然不可或缺；文本可用于条件化世界模型，告诉它想象什么场景、追求什么目标、给定什么长期目标。思考与行动协同工作。但"行动"必须来自文本以外的地方。

约瑟夫·克内希特，必须走下卡斯塔利亚。

真正的智能，必须来自对世界的观察；来自对行动及其后果的理解；来自语言只能指向却无法捕捉的事物。

道可道，非常道。

起初有语言。然后有了人类，行事不完美、变化莫测。

也许，事物就是如此演化的。起初有LLM。然后来了世界模型。

什么是世界模型？

世界模型，能模拟环境，并在你于其中行动时作出响应。

更正式地说，世界模型是一种交互式预测模型，能够根据行动，模拟时空环境。

LLM预测句子中的下一个词，而世界模型预测下一个状态（即将发生的事），以当前状态和控制输入为条件。

更简洁地说：LLM学习语言的结构，世界模型学习因果关系的结构。

这是世界模型的简单定义，是准确的，但还不足以理解其工作原理。为此，你需要了解四件事：世界模型做什么；它们如何构建；为什么"行动"如此重要；以及世界模型与策略的关系。

世界模型做什么

想想接住一个球时会发生什么。你的眼睛摄取场景：投球者的手臂、飞行中的球、风、刺眼的阳光，一切尽收眼底。从这洪流般的感官数据中，你的大脑构建出一个压缩的模型来理解正在发生的事，并关键地，预测即将发生什么。它预测球在几百毫秒内的轨迹，然后向你的手发出运动指令。你接住了球。整个循环——观察、预测、行动——只需一瞬间，完全不涉及任何语言或"思考"。

世界模型在计算层面做着同样的事。它接收观测数据（通常是视频帧，也可以是任何感官数据），构建环境状态的压缩内部表征，并预测该状态在不同行动下如何变化。

本质上，它是一个习得的物理引擎，但不依赖手写方程式。它不通过公式计算重力、碰撞和摩擦，而是已经观察了数十亿次重力、碰撞和摩擦，并学到了其中的模式。

这使世界模型成为构建智能体（Agent）的强大工具——AI系统在环境中行动。世界模型以三种方式帮助智能体：

①它们充当替代训练场。智能体可以在世界模型内部（基本上，在梦境中）进行练习，然后将所学转移回现实。这对安全性（某些事情不应在真实世界中测试）和成本效益（真实世界数据昂贵，难以收集）至关重要。

②它们能够在更长的时间跨度内进行规划。智能体可以在承诺某一行动之前，"想象"不同行动的后果，就像棋手提前思考几步，只是这里的棋盘可以是任何环境或现实世界。

③它们为智能体学习行为提供丰富的世界表征。在世界模型内部表征上训练的智能体，学会用对行动有意义的特征"看待"世界，而非原始像素。

Ai2 MolmoBot：完全在模拟中训练的机器人

这正是世界模型的核心承诺：如果你能创建出以真实世界响应行动的方式响应行动的世界，你就可以用它们安全、经济、高效地训练具身智能体，使其能够在任何虚拟世界或真实世界中行动。

世界模型如何构建

世界模型相当年轻。目前没有任何单一方法或组合被证明是优越的，这意味着通用世界模型的最终架构仍是一个开放问题。但训练有若干可复制的要素。

从数据开始：大量的观测数据。通常，观测数据与产生它们的行动配对。世界模型的核心目标始终不变：给定当前状态和一个行动或指令，预测下一个状态。

现代世界模型涉及潜在空间（latent space）：一种压缩的、习得的表征，其中只保留最核心的信息。视觉编码器将每帧压缩为紧凑的向量（场景的数学指纹），模型学习在行动下预测下一个指纹——而非4K帧中的每一个像素。计算效率正由此而来。

为了准确建模世界的演化，世界模型还必须学会表征全部可能的结果。扩散模型通过逐步扩散至结果来避免"模糊"问题，使模型能够聚焦于结果分布的特定模式，采样出一个清晰、合理的未来。自回归模型通过逐个采样词元来处理多模态问题。而JEPA风格的架构则通过完全绕过像素空间来规避模糊问题。