放下AI焦虑——听李飞飞的10个观点赛博狸

2/6/2026

李飞飞被誉为“人工智能教母”,聚焦于AI理解真实世界与促进技术与社会和谐发展的愿景。她强调世界模型的概念,指出AI面临数据获取挑战,感知能力进化与运动相关,人类文明超越语言,AI仍处于低估期。她倡导以人为本的AI,重视尊严、自主性和社群,认为信任是AI发展的关键。她鼓励面对不确定性,勇于探索未知,强调创造力和勇气的重要性,展现其在AI领域的勇气与远见。

在上一期,我们通过人工智能教父辛顿教授的十个观点复盘了2025年的AI。今天我们来介绍另外一位科学家,来自斯坦福大学的人工智能教授李飞飞。她也是我个人非常钦佩的一位女性。我们提炼了过往一年她的十个观点,来回顾人工智能的发展。其中,最后三个观点我个人认为非常精彩。

在此之前,我们有必要先对李飞飞教授做一个简单的介绍。她在业界几乎是和辛顿齐名。辛顿被称为人工智能教父,当然人工智能教父不止他这一位,准确的来说,当年和他一起拿图灵奖的那三位都可以称为人工智能教父,辛顿、杨丽昆和本希奥。我们在后续的文章中还会陆续介绍这些大科学家的个人观点,他们之间有很多的相似之处,但是也有很多的不同之处。

李飞飞在业界被誉为人工智能教母。当然这不是说他跟辛顿之间有什么婚姻关系,而是她所在的这个领域做出了非常了不起的突破性工作。早在大家跟AI语言模型日常聊天这种场景频繁发生之前,李飞飞早早地选择了一条充满荆棘的路:视觉智能。或者更准确的说,让AI尝试理解地球上这个三维的物理空间。我们接下来通过她的观点可以清楚地了解她所做的这个领域。

1 世界是无限的

维特根斯坦曾经有句名言:语言定义了世界的界限。李飞飞说,她不反对维特根斯坦的这句话,但是她做了扩展,她认为语言界定了这个世界可以用符号的形式来描述的某种边界,除此之外,世界实际上是无限的。

那么这个世界究竟是什么样的呢?我们如何定义它呢?它和人工智能有什么关系呢?我们又如何利用机器来表达它呢?

教授说所有的这些都可以归入世界模型的范畴。这个世界模型它当然与我们的语言密切相关,但它也关乎到表达、呈现,甚至最终你要参与到这个世界各种状态的变化之中。她说,这是可以虚拟的,也可以是物理现实的。它确实会包含语言,因为人类的语言是你和这个世界进行对话的一种方式,但这个世界还包含视觉、光线、语义、空间、物理行为等等,所以这一切都还处在萌芽之中。李飞飞创办的一家公司,叫作World Labs世界实验室,公司使命愿景就是致力于让AI学会理解我们人类所处的这个真实世界。

2 世界模型的应用范围也是无限的

既然世界是无限的,那么构造一个AI可以理解的世界模型,它所能产生的应用范围当然也是无限的。教授说,很多讲故事的人都是擅长多种媒介的创业人士,无论是电影、雕塑、数字艺术等等。那是一个极具创意,互动性极强的世界,你无法仅仅只是用语言来表达。现在已经有很多用AI来生成一些事物,甚至是生成一些你可以沉浸在其中并且与之互动的这种虚拟能力。这对其中的这些艺术家、创作家来说极具吸引力,也令人兴奋。这已经是世界模型的一种应用方式了,但它不仅仅是为了娱乐和讲故事,它也可以用来设计,也可以用于工业乃至医疗保健、医学教育等等领域。过去那种被动的去接受娱乐和你主动的去参与体验,这个中间的差别正在迅速地缩小。现在科学界正在让机器来创建世界模型,从而实现那种沉浸式的体验,这是非常强大的,所以世界模型的应用范围是无限的。

3 最大的挑战是数据

教授说,AI世界模型确实会遇到很多困难。但在她看来,其中最大的一个挑战是数据。因为用于训练AI理解世界的数据并不像语言数据那样易于获取,其中最关键的数据形式就是视频数据。我们所处的这个世界是多模态的,具有很强的空间性。所谓多模态就是丰富多彩的,它包含了基本的三维信息、几何形状、物理的特性和动力学信息等等诸多方面,而其中的大量信息并不容易获取,或者说它没法像人类的语言这么容易地获取。

4 感知的目的是为了运动

教授说,她在思考AI如何发展出感知能力的时候,想通了一件事儿。她原以为要花100年才能解决物体的识别定义这种问题,但实际上进展比她想象的要快,所以她想到了进化论。然后她花了很多时间大量阅读关于进化论和一些哲学方面的文献。她在其中发现,大约在5.3亿年前,世界发生过一次惊人的进化,这被人类学家称为寒武纪生命大爆发。动物的物种,在那个时候出现了井喷式增长,而与此同时,神经系统也在那个时候开始出现,当时主要是感光细胞。在阅读了大量的文献并深入思考之后,李飞飞恍然大悟:动物所拥有的感知能力,它的进化目的实际上是为了活动,运动,为了互动,它是一种主动的而不是被动的感知。这意味着人类的感知智能是以运动为基础的。而所谓的运动一开始是非常简单的,你只需要迅速的将身体从一个位置移动到另一个位置。而今天人类的运动能力是非常复杂的,这种对我们自身所处的空间具有细致复杂的理解的能力,才是人工智能机器人或称具身智能的核心所在。

5 人类文明仅靠语言不可能实现

教授举了两个例子。比如人类的建筑史,追溯我们这个星球上最早的建筑奇迹:埃及的金字塔。它所体现出来的,是那个时期人类对于抽象几何的理解,对空间几何的感知能力,以及对这种大型物体的建造能力,这不是光靠语言就能做到的。另外一个例子是,人类对于DNA结构的推断,最早来自于一位被低估的科学家,叫罗莎林德·弗兰克林。这位富兰克林和美国的那位国父并不是同时代的人,她是一位英国的物理学家,主要研究晶体。可惜的是她活的时间并不长,她生活在一战二战那个年代,只活了38岁。后来大家公认的DNA的结构是由詹姆斯·沃森和弗朗西斯·克里克所解构的,但是这两位科学家的启发却是从罗莎林德·弗兰克林那里来的。在更早的时间,罗莎林德拍摄过这些DNA分子的X射线照片,这些照片看起来就像一个个的十字型。正是这些图像涉及到的空间概念,最终帮助后来的科学家推导出了DNA的三维双螺旋结构。你无法仅凭语言就能得出这样的推论。这些例子都是人类运用自己的空间推理能力的绝佳例子。

Scroll for more