李飞飞:使用世界模型,不用等5年51CTO技术栈
“如果AI只停留在语言层面,无论模型多大,都很难走向真正的通用智能。”
“使用世界模型,不需要等5年。”
在最近Cisco AI峰会的公开对谈中,AI教母、斯坦福大学教授李飞飞,再次为业界带来了一场关于世界模型的最新进展。
首先,李飞飞抛出了一个判断:真正的AGI,只靠LLM是不可能实现的。
原因并不在于语言模型“不够聪明”,而在于语言本身不是智能的起点。
为了佐证这个观点,李飞飞把讨论直接拉回到一个AI圈并不常用、但她本人极为看重的参照系:进化史。
从进化角度看,最早触发神经系统“军备竞赛”的,并不是语言而是感知。早在五亿多年前,动物就已经开始感知光、触碰环境,逐步学会在真实世界中导航、避险、互动。而语言,即便用非常宽松的标准来估计能也只有五十万年,甚至更短,是一种极其晚近的智能形态。
语言智能是基础,空间智能则是关键性的。这意味着一件事:
理解、推理、与现实世界互动,以及在真实的三维、四维物理世界中导航的能力,与语言智能同样基础,甚至更加原始。
也正因为如此,她认为今天的AI路线出现了一种结构性偏差,我们正在不断强化“会说话的智能”,却迟迟没有补上“理解世界的智能”。
这也是她在两年前创立World Labs 的根本动机。这家公司并不是要再做一个更强的语言模型,而是押注在一个当下仍然小众、但她认为不可绕过的方向上:空间智能与世界模型。
那么,究竟什么是空间智能呢?
李飞飞表示,很多人会把它误以为是视频生成模型。
空间智能并不是生成几段视频、几张3D 图像,而是让机器具备一种能力:在真实的三维、甚至四维物理世界中,理解结构、保持一致性、进行推理,并与环境交互。语言,在这里更像是接口,而不是核心。
世界模型和空间智能,需要多久才能实现“北极星”目标?
跟马斯克等激进派所说的“1年或3年内实现AGI”的说法不同,李飞飞表示自己始终不喜欢做过度承诺。“北极星的位置很清楚,并不意味着通往它的路很短。”
以自动驾驶为例:2006 年,学术界就已经做出了可以在沙漠中连续行驶上百英里的原型车;但直到20年后,Waymo才真正开始在城市道路中规模化运行。
在她看来,空间智能和通用机器人,面临的是一个比自动驾驶维度更高、难度更大的问题。
这在问题维度上要高得多。再加上手部操作的仿真、精细视觉、空间理解能力,以及训练数据的匮乏,这些因素叠加在一起,使得挑战异常巨大。
当提及如何定义AI的“成功”时,李飞飞给出了一个很温暖的回答:
文明是否因此整体变得更好。
就像150年前的电力行业的成功,不是某项具体指标,而是学校被照亮、家庭变得温暖、工业化进程得以推进,人类寿命因此延长。
此外,对于通用机器人领域,李飞飞也透露了不少干货。比如在克服训练数据匮乏的挑战方面,团队采用了一种多模态叠加的混合策略。
篇幅关系,不再一一展开。以下是小编整理的精彩观点~
每天醒来,只想一件事:空间智能
主持人:很高兴在过去一年里看到World Labs 取得的进展。我们不妨从你们正在做什么、以及为什么这件事如此重要谈起。
李飞飞:现在我每天醒来,脑子里几乎只想着一件事——空间智能。这是我大约两年前和一群年轻的技术人员共同创立的一家公司,名字叫World Labs。
为什么空间智能如此重要?为什么我认为它是AI的下一个前沿?如果从进化的角度来看智能的发展,这条路径其实可以追溯到五亿多年前。最早引发神经系统进化“军备竞赛”的,并不是语言,而是感知。与感知相比,语言是一种非常新的智能形式。即便用非常宽松的标准来估计,语言的历史可能也只有五十万年,甚至更短;而在五亿多年前,动物就已经开始感知光、触碰环境,也就是触觉和视觉感知。
主持人:那你会把“本能”也算进感知里吗?
李飞飞:“本能”是一个很有意思的词。在我看来,它是一个相对模糊的概念。我并不是否定这个词,但如果从物理层面来看,真正触发神经系统发展的,是触觉和视觉感知。
正是这些感知能力开启了进化的“军备竞赛”,让动物越来越积极地与环境互动,也变得越来越聪明。我想强调的是:理解、推理、与现实世界互动,以及在真实的三维、甚至四维物理世界中导航的能力,与语言智能同样基础。而其中的关键技术,就是空间智能。这也是为什么我认为空间智能代表了AI的下一代、下一个前沿,而这正是World Labs 一直在构建的方向。
Marble,不是视频模型
主持人:那能不能具体讲讲最近发布的 Marble?Marble 是什么?
李飞飞:Marble 是我们第一代空间智能模型的名字。我们平时比较随意地把它称为“世界模型”,但说实话,“世界模型”这个词有很多不同的定义,是否使用这个称呼本身并不重要。
它的本质是一个空间智能模型,一个前沿模型。Marble 可以接收多模态输入:一句话、一张图片、一段视频、几张图片,甚至是一个简单的 3D 输入,都没有问题。它会将这些输入转化为一个完全可导航、可交互的三维世界。
这个世界具有长期一致性,这与当前很多视频模型非常不同,同时它还具备明确的几何结构,可以支持机器人动作仿真、游戏开发等多种应用。Marble 大约在两个月前发布,目前还只是第一代模型。我们对这段旅程感到非常兴奋,它现在仍然是最先进的3D生成式世界模型之一。


