下一个时代:世界模型计算不可计算之物奇点社科
语言是现实最有损的压缩
我们来做个游戏。
现在,不要真的去拍,而是用文字来描述这个动作。
你的双手在空间中的位置,以皮秒为单位,相对彼此的距离。接触点。声音。当双手靠近、碰触、分开时,它们的样子。它们如何相互挤压。两掌之间的空气发生了什么。拍手时你看到了什么。别忘了你的手臂——它们如何弯曲以配合拍打?也要按皮秒记录。袖子上的布料如何响应?背景里发生着什么?旁边的人注意到你在拍手了吗?他们怎么反应?你因为在开会途中按照一篇不该读的文章的指示拍手,被炒鱿鱼了吗?请描述你老板额头上那根青筋。它爆出来了吗?
你做不到,对吧?好,停下来。重点已经说清楚了。
语言,是现实最有损的压缩。
语言当然重要,它是我们沟通与协作的工具。"比手画脚"的游戏证明,在传递想法方面,语言远比动作高效。大语言模型(LLM)在这个意义上确实重要。但语言单独存在,是不够的。
那代码呢?代码是一种非常精确的语言,能让机器执行指令。
作者让 Claude "写一段模拟双手真实环境中拍五次的代码"。它给出了下面这个结果——看起来相当痛苦。
Claude 生成的拍手模拟程序
有一种观点认为,随着规模扩大,语言和代码将能解决所有时空智能挑战,最终产生通用人工智能(AGI)或超级人工智能(ASI)。
有人认为代码是解决众多真实世界智能挑战的关键,因为它能以精确度指挥所有物理形态的系统。
我们不这么认为。基于代码的模拟,不过是梦境的劣质版本——它受规则束缚,无法应对现实中随机混乱的本质。
要了解世界,你必须与它互动。
玻璃珠游戏的隐喻
赫尔曼·黑塞的小说《玻璃珠游戏》(Das Glasperlenspiel)为他赢得了1946年的诺贝尔文学奖。书中描述了一个名叫卡斯塔利亚的未来知识乌托邦,专注于纯粹的思想。卡斯塔利亚的核心是一场精心设计的游戏——玻璃珠游戏,它将全部人类知识综合为单一的形式语言。玩家像谱写赋格曲一样编排"游戏局",一次落子可能将巴赫的康塔塔、一道数学证明和孔子的一段话联结在一起。这场游戏是终极的抽象:所有人类文化被压缩为符号操作。
黑塞《玻璃珠游戏》
主人公约瑟夫·克内希特晋升为"游戏大师"——卡斯塔利亚的最高职位。但他渐渐幻灭了。这场游戏无论多么美丽,都是贫瘠的。卡斯塔利亚的知识分子沉溺于抽象太深,已与现实世界脱节。他们能以非凡的优雅表达现实,却无法在其中行动。
克内希特最终决定离开卡斯塔利亚,成为一名普通家庭教师。他选择了混乱的、具身的、不可预测的世界,而非完美的符号世界。他将一生献给了游戏,掌握的技艺已超越文字层面,接近世界建模。但这还不够。符号,若与现实失去接触,终将枯竭。
大语言模型是我们的卡斯塔利亚人。它们是符号的精妙操纵者,能够在人类全部文字知识中建立连接。它们可以讨论物理学、创作诗歌、编写代码、解释棒球规则。它们确实是人类历史上伟大的智识成就之一。
但它们完全在表征的领域中运作。它们能描述拍手,却无法真正拍手。它们能谈论重力,却不像蹒跚学步的孩子那样知道重力——那种在数千次跌倒摔跤中,身体学会的"向下"究竟意味着什么。
语言模型能极好地预测下一个词。唯一的问题是,词语就像柏拉图洞穴墙壁上的影子。你无法用代码模拟出一个真实的体育场人群,就像你无法通过描述到达那里一样。
真实世界——或者曾经——是不可计算的。
如果语言和代码,这两项人类最强大的发明,都不足以表征我们的世界,我们还剩下什么?
答案:世界模型
世界模型(World Models)提供了一条通往AGI的另一条路径。它们提供了一种方法,来计算那些今天仍不可计算的事物。它们从克内希特所寻求的——与现实的混乱接触中——学习。
世界模型提供了一种高效执行非确定性计算的方式,并能在传统计算约束下本不可能实现的场景中运行模拟。
世界模型并非LLM的替代品。语言依然不可或缺;文本可用于条件化世界模型,告诉它想象什么场景、追求什么目标、给定什么长期目标。思考与行动协同工作。但"行动"必须来自文本以外的地方。
约瑟夫·克内希特,必须走下卡斯塔利亚。
真正的智能,必须来自对世界的观察;来自对行动及其后果的理解;来自语言只能指向却无法捕捉的事物。
道可道,非常道。
起初有语言。然后有了人类,行事不完美、变化莫测。
也许,事物就是如此演化的。起初有LLM。然后来了世界模型。
什么是世界模型?
世界模型,能模拟环境,并在你于其中行动时作出响应。
更正式地说,世界模型是一种交互式预测模型,能够根据行动,模拟时空环境。
LLM预测句子中的下一个词,而世界模型预测下一个状态(即将发生的事),以当前状态和控制输入为条件。
更简洁地说:LLM学习语言的结构,世界模型学习因果关系的结构。
这是世界模型的简单定义,是准确的,但还不足以理解其工作原理。为此,你需要了解四件事:世界模型做什么;它们如何构建;为什么"行动"如此重要;以及世界模型与策略的关系。
世界模型做什么
想想接住一个球时会发生什么。你的眼睛摄取场景:投球者的手臂、飞行中的球、风、刺眼的阳光,一切尽收眼底。从这洪流般的感官数据中,你的大脑构建出一个压缩的模型来理解正在发生的事,并关键地,预测即将发生什么。它预测球在几百毫秒内的轨迹,然后向你的手发出运动指令。你接住了球。整个循环——观察、预测、行动——只需一瞬间,完全不涉及任何语言或"思考"。
世界模型在计算层面做着同样的事。它接收观测数据(通常是视频帧,也可以是任何感官数据),构建环境状态的压缩内部表征,并预测该状态在不同行动下如何变化。
本质上,它是一个习得的物理引擎,但不依赖手写方程式。它不通过公式计算重力、碰撞和摩擦,而是已经观察了数十亿次重力、碰撞和摩擦,并学到了其中的模式。
这使世界模型成为构建智能体(Agent)的强大工具——AI系统在环境中行动。世界模型以三种方式帮助智能体:
①它们充当替代训练场。智能体可以在世界模型内部(基本上,在梦境中)进行练习,然后将所学转移回现实。这对安全性(某些事情不应在真实世界中测试)和成本效益(真实世界数据昂贵,难以收集)至关重要。
②它们能够在更长的时间跨度内进行规划。智能体可以在承诺某一行动之前,"想象"不同行动的后果,就像棋手提前思考几步,只是这里的棋盘可以是任何环境或现实世界。
③它们为智能体学习行为提供丰富的世界表征。在世界模型内部表征上训练的智能体,学会用对行动有意义的特征"看待"世界,而非原始像素。
Ai2 MolmoBot:完全在模拟中训练的机器人
这正是世界模型的核心承诺:如果你能创建出以真实世界响应行动的方式响应行动的世界,你就可以用它们安全、经济、高效地训练具身智能体,使其能够在任何虚拟世界或真实世界中行动。
世界模型如何构建
世界模型相当年轻。目前没有任何单一方法或组合被证明是优越的,这意味着通用世界模型的最终架构仍是一个开放问题。但训练有若干可复制的要素。
从数据开始:大量的观测数据。通常,观测数据与产生它们的行动配对。世界模型的核心目标始终不变:给定当前状态和一个行动或指令,预测下一个状态。
现代世界模型涉及潜在空间(latent space):一种压缩的、习得的表征,其中只保留最核心的信息。视觉编码器将每帧压缩为紧凑的向量(场景的数学指纹),模型学习在行动下预测下一个指纹——而非4K帧中的每一个像素。计算效率正由此而来。
为了准确建模世界的演化,世界模型还必须学会表征全部可能的结果。扩散模型通过逐步扩散至结果来避免"模糊"问题,使模型能够聚焦于结果分布的特定模式,采样出一个清晰、合理的未来。自回归模型通过逐个采样词元来处理多模态问题。而JEPA风格的架构则通过完全绕过像素空间来规避模糊问题。


