放下AI焦虑——听李飞飞的10个观点赛博狸

李飞飞被誉为“人工智能教母”，聚焦于AI理解真实世界与促进技术与社会和谐发展的愿景。她强调世界模型的概念，指出AI面临数据获取挑战，感知能力进化与运动相关，人类文明超越语言，AI仍处于低估期。她倡导以人为本的AI，重视尊严、自主性和社群，认为信任是AI发展的关键。她鼓励面对不确定性，勇于探索未知，强调创造力和勇气的重要性，展现其在AI领域的勇气与远见。

在上一期，我们通过人工智能教父辛顿教授的十个观点复盘了2025年的AI。今天我们来介绍另外一位科学家，来自斯坦福大学的人工智能教授李飞飞。她也是我个人非常钦佩的一位女性。我们提炼了过往一年她的十个观点，来回顾人工智能的发展。其中，最后三个观点我个人认为非常精彩。

在此之前，我们有必要先对李飞飞教授做一个简单的介绍。她在业界几乎是和辛顿齐名。辛顿被称为人工智能教父，当然人工智能教父不止他这一位，准确的来说，当年和他一起拿图灵奖的那三位都可以称为人工智能教父，辛顿、杨丽昆和本希奥。我们在后续的文章中还会陆续介绍这些大科学家的个人观点，他们之间有很多的相似之处，但是也有很多的不同之处。

李飞飞在业界被誉为人工智能教母。当然这不是说他跟辛顿之间有什么婚姻关系，而是她所在的这个领域做出了非常了不起的突破性工作。早在大家跟AI语言模型日常聊天这种场景频繁发生之前，李飞飞早早地选择了一条充满荆棘的路：视觉智能。或者更准确的说，让AI尝试理解地球上这个三维的物理空间。我们接下来通过她的观点可以清楚地了解她所做的这个领域。

1 世界是无限的

维特根斯坦曾经有句名言：语言定义了世界的界限。李飞飞说，她不反对维特根斯坦的这句话，但是她做了扩展，她认为语言界定了这个世界可以用符号的形式来描述的某种边界，除此之外，世界实际上是无限的。

那么这个世界究竟是什么样的呢？我们如何定义它呢？它和人工智能有什么关系呢？我们又如何利用机器来表达它呢？

教授说所有的这些都可以归入世界模型的范畴。这个世界模型它当然与我们的语言密切相关，但它也关乎到表达、呈现，甚至最终你要参与到这个世界各种状态的变化之中。她说，这是可以虚拟的，也可以是物理现实的。它确实会包含语言，因为人类的语言是你和这个世界进行对话的一种方式，但这个世界还包含视觉、光线、语义、空间、物理行为等等，所以这一切都还处在萌芽之中。李飞飞创办的一家公司，叫作World Labs世界实验室，公司使命愿景就是致力于让AI学会理解我们人类所处的这个真实世界。

2 世界模型的应用范围也是无限的

既然世界是无限的，那么构造一个AI可以理解的世界模型，它所能产生的应用范围当然也是无限的。教授说，很多讲故事的人都是擅长多种媒介的创业人士，无论是电影、雕塑、数字艺术等等。那是一个极具创意，互动性极强的世界，你无法仅仅只是用语言来表达。现在已经有很多用AI来生成一些事物，甚至是生成一些你可以沉浸在其中并且与之互动的这种虚拟能力。这对其中的这些艺术家、创作家来说极具吸引力，也令人兴奋。这已经是世界模型的一种应用方式了，但它不仅仅是为了娱乐和讲故事，它也可以用来设计，也可以用于工业乃至医疗保健、医学教育等等领域。过去那种被动的去接受娱乐和你主动的去参与体验，这个中间的差别正在迅速地缩小。现在科学界正在让机器来创建世界模型，从而实现那种沉浸式的体验，这是非常强大的，所以世界模型的应用范围是无限的。

3 最大的挑战是数据

教授说，AI世界模型确实会遇到很多困难。但在她看来，其中最大的一个挑战是数据。因为用于训练AI理解世界的数据并不像语言数据那样易于获取，其中最关键的数据形式就是视频数据。我们所处的这个世界是多模态的，具有很强的空间性。所谓多模态就是丰富多彩的，它包含了基本的三维信息、几何形状、物理的特性和动力学信息等等诸多方面，而其中的大量信息并不容易获取，或者说它没法像人类的语言这么容易地获取。

4 感知的目的是为了运动

教授说，她在思考AI如何发展出感知能力的时候，想通了一件事儿。她原以为要花100年才能解决物体的识别定义这种问题，但实际上进展比她想象的要快，所以她想到了进化论。然后她花了很多时间大量阅读关于进化论和一些哲学方面的文献。她在其中发现，大约在5.3亿年前，世界发生过一次惊人的进化，这被人类学家称为寒武纪生命大爆发。动物的物种，在那个时候出现了井喷式增长，而与此同时，神经系统也在那个时候开始出现，当时主要是感光细胞。在阅读了大量的文献并深入思考之后，李飞飞恍然大悟：动物所拥有的感知能力，它的进化目的实际上是为了活动，运动，为了互动，它是一种主动的而不是被动的感知。这意味着人类的感知智能是以运动为基础的。而所谓的运动一开始是非常简单的，你只需要迅速的将身体从一个位置移动到另一个位置。而今天人类的运动能力是非常复杂的，这种对我们自身所处的空间具有细致复杂的理解的能力，才是人工智能机器人或称具身智能的核心所在。

5 人类文明仅靠语言不可能实现

教授举了两个例子。比如人类的建筑史，追溯我们这个星球上最早的建筑奇迹：埃及的金字塔。它所体现出来的，是那个时期人类对于抽象几何的理解，对空间几何的感知能力，以及对这种大型物体的建造能力，这不是光靠语言就能做到的。另外一个例子是，人类对于DNA结构的推断，最早来自于一位被低估的科学家，叫罗莎林德·弗兰克林。这位富兰克林和美国的那位国父并不是同时代的人，她是一位英国的物理学家，主要研究晶体。可惜的是她活的时间并不长，她生活在一战二战那个年代，只活了38岁。后来大家公认的DNA的结构是由詹姆斯·沃森和弗朗西斯·克里克所解构的，但是这两位科学家的启发却是从罗莎林德·弗兰克林那里来的。在更早的时间，罗莎林德拍摄过这些DNA分子的X射线照片，这些照片看起来就像一个个的十字型。正是这些图像涉及到的空间概念，最终帮助后来的科学家推导出了DNA的三维双螺旋结构。你无法仅凭语言就能得出这样的推论。这些例子都是人类运用自己的空间推理能力的绝佳例子。