李飞飞：LLM做不到的事，世界模型可以51CTO技术栈

“在机器中解锁生成奇异的 3D和 4D 世界、在任何世界中进行推理、训练智能体或机器人，或者辅助人类与世界互动的能力，正是空间智能的全部意义所在。”

“模拟器可以变成渲染器或规划器，在我看来，这个模拟器是解锁空间智能的一条巨大且关键的路径。”

“我们需要改变教育体系，我们需要改变评估的方式，我们需要改变教师教学的方式，从而让下一代学生能够被这些 AI 工具赋能，并做到我们从未想象过的事情。”

当下致力于实现空间智能和构建世界模型的李飞飞，近期亮相 Bloomberg Tech 2026 大会，接受了专属采访。

在访谈中，她真诚地分享了自己创立 World Labs 的初心，那就是通过构建世界模型来实现空间智能。

在她看来，智能，始于动物在物理世界中的观察和移动。进化，始于动物和物理世界的互动，与由此增进的世界认知和自我认知。我们人类的日常生活，很大一部分都与物理世界的交互有关。

所以说，让 AI 拥有对物理世界的理解、推理、模拟生成和模拟互动的能力，也就是空间智能，是人工智能发展的关键突破口。同时，这不仅有可能助力人类文明进步，还能极大便利我们的日常生活，具有巨大的价值和意义。

其实在我们的生活中，有很多日常行为是不能用语言表达、或靠语言做到的。李飞飞举出一些有趣例子：语言不能灭火，也不能煎出香喷喷的鸡蛋。然而世界模型的下游应用却能够填补这些空缺，搞定语言模型做不到的事情。

不过目前“世界模型”的概念十分混淆，被用于太多情境。为了让大家更清晰地明白世界模型是什么，她将世界模型依据不同的功能划分了三大类别。

其一是为了满足人类眼球的“渲染器”，致力于在屏幕上呈现美丽的像素。

其二是为机器或机器人预测下一步要采取的动作的“规划器”。

其三是模拟真实 3D、4D 物理世界的“模拟器”，它是关键枢纽，可以变成渲染器或规划器。在李飞飞看来，这条路径才是解锁空间智能的关键路径。

此外，在主持人问及 AI 会如何改变大学学习体验时，李飞飞直言，AI 将会改变从幼儿园到大学的整个教育体系，从能力评估方式到教师教学模式，都会迎来全方位的变革。

人力资本是世界上最宝贵的资源，有 AI 的加持，未来人们的创造能力和生产能力会超出我们的想象。

以下为此次访谈的全部内容，enjoy：

LLM 做不到的事，世界模型可以

主持人：每个人都在关注大语言模型（LLM），比如 ChatGPT 和 Claude。但你却筹集了 10 亿美元来构建一些截然不同的东西。大世界模型（Large World Models）就是佐证。其他人没做，而你正在做的赌注是什么？

李飞飞：这就是我共同创立的初创公司 World Labs，我们正全力投入“空间智能”，而实现空间智能的手段就是构建一个大世界模型。那么它的依据是什么呢？

对我们来说，这是一个长达 5 亿年的故事，即动物的智能始于在物理世界中的观察和移动。进化始于我们作为动物，了解这个世界是什么，了解我们是谁，了解如何在其中移动并与之互动。人类生活、人类工作生活、人类私生活的很大一部分都与感知、理解、推理以及与世界的互动密切相关，这也包括充满创造力的想象世界和具有生产力的虚拟世界。

因此，在机器中解锁这种能力，解锁生成奇异的 3D、4D 世界的能力，解锁在任何世界中进行推理的能力，解锁训练智能体或机器人、或者辅助人类与世界互动的能力，正是空间智能的全部意义所在。这就是我们所专注于的方向。

主持人：那么，世界模型最终能做哪些大语言模型永远无法做到的事情？

李飞飞：能用语言灭火吗？能用语言做出一份煎蛋吗？我认为这其中有太多的可能性。比如创造力，人们在进行设计，无论是设计室内空间、设计机器、设计房屋还是设计故事，这其中的很大一部分是无法用言语表达的。

我们也会使用智能体，无论是在虚拟世界中，比如游戏娱乐，还是在更严肃的工业应用中，比如数字孪生设计、检测或各种优化任务；或者我们制造机器人，来帮助我们做很多事情，从灭火到辅助医疗场景，再到制造业，所有这些都是解锁空间智能和构建世界模型的下游应用。

主持人：那么，你认为世界模型迎来属于它的“ChatGPT时刻”会是什么样子？我们该如何知道这一时刻已经到来？

李飞飞：这是一个非常好的问题。因为“聊天”是一种非常大众化的消费者行为，所以“ChatGPT时刻”往往被用来描述一个最接近“AI能做什么”在公众或消费者中引发病毒式传播的时刻。

关于我们试图解锁的这种空间智能，我仍在试图弄清楚是否存在一个相对应的消费者时刻，因为我们所谈论的这类应用往往会首先进入专业人士的视野，专业创作者、专业设计师、专业开发者、专业研究人员和工程师，他们将其用于机器人技术和工业设计等领域。

所以，也许我们不一定会有属于消费者的标志性时刻，但也许我们会有。而且，你知道，我也很想能用一种更简单的方式来设计我的房子，比如只需点击一下就能改变窗帘的颜色。

告别概念混淆，世界模型中的模拟器才是关键

主持人：听起来确实很酷。在过去的六个月里，其他人也在世界模型上展开了布局。谷歌推出了 Project Genie，英伟达拥有自己的世界模型 Cosmos，英伟达同时也是你的投资者之一。你拥有哪些他们没有的优势？在所有的竞争对手中，你最担心哪一个？

李飞飞：是的。首先，我们在 2024 年创立了 World Labs。我还记得当我们出去谈论我们的模型和空间类比时，那就在一年前，大家还完全在讨论语言模型。所以我们确实占得了先机，并意识到这将是 AI 的下一个前沿，对此我感到非常兴奋。

我认为我们拥有一支不可思议的团队，我们有坚定的信念。但世界很大，我认为这就像大语言模型一样，会有很多公司在世界模型领域做出令人内难以置信的工作。

就在 24 小时前，我们实在受够了“世界模型”这个词被如此混淆并在这么多不同的语境下被使用，所以我们实际上发布了一篇博客，专门解释世界模型的功能分类法，而不是把所有东西混为一谈。

在我看来，目前在谈到空间智能时，有三种方式可以描述“世界模型”。