李飞飞:LLM做不到的事,世界模型可以51CTO技术栈
“在机器中解锁生成奇异的 3D和 4D 世界、在任何世界中进行推理、训练智能体或机器人,或者辅助人类与世界互动的能力,正是空间智能的全部意义所在。”
“模拟器可以变成渲染器或规划器,在我看来,这个模拟器是解锁空间智能的一条巨大且关键的路径。”
“我们需要改变教育体系,我们需要改变评估的方式,我们需要改变教师教学的方式,从而让下一代学生能够被这些 AI 工具赋能,并做到我们从未想象过的事情。”
当下致力于实现空间智能和构建世界模型的李飞飞,近期亮相 Bloomberg Tech 2026 大会,接受了专属采访。
在访谈中,她真诚地分享了自己创立 World Labs 的初心,那就是通过构建世界模型来实现空间智能。
在她看来,智能,始于动物在物理世界中的观察和移动。进化,始于动物和物理世界的互动,与由此增进的世界认知和自我认知。我们人类的日常生活,很大一部分都与物理世界的交互有关。
所以说,让 AI 拥有对物理世界的理解、推理、模拟生成和模拟互动的能力,也就是空间智能,是人工智能发展的关键突破口。同时,这不仅有可能助力人类文明进步,还能极大便利我们的日常生活,具有巨大的价值和意义。
其实在我们的生活中,有很多日常行为是不能用语言表达、或靠语言做到的。李飞飞举出一些有趣例子:语言不能灭火,也不能煎出香喷喷的鸡蛋。然而世界模型的下游应用却能够填补这些空缺,搞定语言模型做不到的事情。
不过目前“世界模型”的概念十分混淆,被用于太多情境。为了让大家更清晰地明白世界模型是什么,她将世界模型依据不同的功能划分了三大类别。
其一是为了满足人类眼球的“渲染器”,致力于在屏幕上呈现美丽的像素。
其二是为机器或机器人预测下一步要采取的动作的“规划器”。
其三是模拟真实 3D、4D 物理世界的“模拟器”,它是关键枢纽,可以变成渲染器或规划器。在李飞飞看来,这条路径才是解锁空间智能的关键路径。
此外,在主持人问及 AI 会如何改变大学学习体验时,李飞飞直言,AI 将会改变从幼儿园到大学的整个教育体系,从能力评估方式到教师教学模式,都会迎来全方位的变革。
人力资本是世界上最宝贵的资源,有 AI 的加持,未来人们的创造能力和生产能力会超出我们的想象。
以下为此次访谈的全部内容,enjoy:
LLM 做不到的事,世界模型可以
主持人:每个人都在关注大语言模型(LLM),比如 ChatGPT 和 Claude。但你却筹集了 10 亿美元来构建一些截然不同的东西。大世界模型(Large World Models)就是佐证。其他人没做,而你正在做的赌注是什么?
李飞飞:这就是我共同创立的初创公司 World Labs,我们正全力投入“空间智能”,而实现空间智能的手段就是构建一个大世界模型。那么它的依据是什么呢?
对我们来说,这是一个长达 5 亿年的故事,即动物的智能始于在物理世界中的观察和移动。进化始于我们作为动物,了解这个世界是什么,了解我们是谁,了解如何在其中移动并与之互动。人类生活、人类工作生活、人类私生活的很大一部分都与感知、理解、推理以及与世界的互动密切相关,这也包括充满创造力的想象世界和具有生产力的虚拟世界。
因此,在机器中解锁这种能力,解锁生成奇异的 3D、4D 世界的能力,解锁在任何世界中进行推理的能力,解锁训练智能体或机器人、或者辅助人类与世界互动的能力,正是空间智能的全部意义所在。这就是我们所专注于的方向。
主持人:那么,世界模型最终能做哪些大语言模型永远无法做到的事情?
李飞飞:能用语言灭火吗?能用语言做出一份煎蛋吗?我认为这其中有太多的可能性。比如创造力,人们在进行设计,无论是设计室内空间、设计机器、设计房屋还是设计故事,这其中的很大一部分是无法用言语表达的。
我们也会使用智能体,无论是在虚拟世界中,比如游戏娱乐,还是在更严肃的工业应用中,比如数字孪生设计、检测或各种优化任务;或者我们制造机器人,来帮助我们做很多事情,从灭火到辅助医疗场景,再到制造业,所有这些都是解锁空间智能和构建世界模型的下游应用。
主持人:那么,你认为世界模型迎来属于它的“ChatGPT时刻”会是什么样子?我们该如何知道这一时刻已经到来?
李飞飞:这是一个非常好的问题。因为“聊天”是一种非常大众化的消费者行为,所以“ChatGPT时刻”往往被用来描述一个最接近“AI能做什么”在公众或消费者中引发病毒式传播的时刻。
关于我们试图解锁的这种空间智能,我仍在试图弄清楚是否存在一个相对应的消费者时刻,因为我们所谈论的这类应用往往会首先进入专业人士的视野,专业创作者、专业设计师、专业开发者、专业研究人员和工程师,他们将其用于机器人技术和工业设计等领域。
所以,也许我们不一定会有属于消费者的标志性时刻,但也许我们会有。而且,你知道,我也很想能用一种更简单的方式来设计我的房子,比如只需点击一下就能改变窗帘的颜色。
告别概念混淆,世界模型中的模拟器才是关键
主持人:听起来确实很酷。在过去的六个月里,其他人也在世界模型上展开了布局。谷歌推出了 Project Genie,英伟达拥有自己的世界模型 Cosmos,英伟达同时也是你的投资者之一。你拥有哪些他们没有的优势?在所有的竞争对手中,你最担心哪一个?
李飞飞:是的。首先,我们在 2024 年创立了 World Labs。我还记得当我们出去谈论我们的模型和空间类比时,那就在一年前,大家还完全在讨论语言模型。所以我们确实占得了先机,并意识到这将是 AI 的下一个前沿,对此我感到非常兴奋。
我认为我们拥有一支不可思议的团队,我们有坚定的信念。但世界很大,我认为这就像大语言模型一样,会有很多公司在世界模型领域做出令人内难以置信的工作。
就在 24 小时前,我们实在受够了“世界模型”这个词被如此混淆并在这么多不同的语境下被使用,所以我们实际上发布了一篇博客,专门解释世界模型的功能分类法,而不是把所有东西混为一谈。
在我看来,目前在谈到空间智能时,有三种方式可以描述“世界模型”。


