对话李飞飞:AI的下一个前沿卡皮巴拉在硅谷
从ImageNet到空间智能:一个AI传奇的进化之路
数据驱动的范式转变:ImageNet的诞生与意义
从物体到场景:视觉智能的跃迁
为什么空间智能比语言模型更难?
从学术界到创业者:无畏求知的旅程
招聘与人才:寻找无畏求知的精神
关于AGI、开源与未来的思考
从ImageNet到空间智能:一个AI传奇的进化之路
"我整个职业生涯都在追寻那些极其困难、近乎荒谬、甚至荒诞的问题。在我看来,如果没有空间智能,通用人工智能(AGI)就不完整。我想解决这个问题。"
这是Fei-Fei Li在Y Combinator的访谈中开场就抛出的宣言。她不是来回顾过去的——尽管她的履历足以让任何人仰望——她是来告诉你,她正在做什么,以及为什么这件事值得她离开舒适的学术界,再次成为一名创业者。
当主持人Diana问起2009年的ImageNet时,Fei-Fei笑着说:"别提那件事了。"但正是这个项目,引用次数超过8万次,真正开启了AI发展的一个基石——数据问题。
数据驱动的范式转变:ImageNet的诞生与意义
当时的AI世界是什么样的?
回到18年前,Fei-Fei刚成为普林斯顿大学的一年级助理教授。那时的AI和机器学习领域与现在截然不同:
▪︎数据非常少
▪︎算法没有奏效
▪︎没有工业界支撑
▪︎"人工智能"这个词在公众中几乎不存在
但她和一小群人仍然怀揣着梦想——让机器能够看见。
"视觉是智能的基石。视觉智能不仅仅是感知,而是真正理解世界并在世界中行事。"
为什么是数据?
Fei-Fei指出,机器学习面临的核心问题是泛化。而要推广算法,需要数据。但当时计算机视觉领域没有人拥有数据。
她是第一代看到互联网——庞大的物联网——的研究生。2007年左右,她和学生决定进行一次大胆的赌博:相信机器学习需要一场范式转变,而这场转变必须由数据驱动。
于是他们决定从互联网上下载十亿张图片,创建全世界的视觉分类体系——这就是ImageNet的诞生。
2012年:AlexNet时刻
从2009年到2012年,他们相信数据将驱动AI,但几乎没有迹象表明这是否有效。他们做了两件事: 1. 采用开源模式 2. 发起挑战赛,邀请全世界最聪明的学生参与
到了第三年,2012年夏末,Fei-Fei的研究生深夜发来消息:"我们得到了一个非常非常出色的结果。"
那是AlexNet——某种卷积神经网络。算法本身发表于20世纪80年代,但Alex Krizhevsky和他的团队第一次将两个GPU放在一起,用于深度学习的计算。
"这是数据、GPU和神经网络真正结合的第一个时刻。"
从物体到场景:视觉智能的跃迁
ImageNet解决了物体识别的问题——你面前呈现一张图片,然后说出其中的物体。但Fei-Fei的梦想远不止于此。
"想象一下你在这个房间里睁开双眼。你看到的不仅仅是人、椅子、椅子、椅子。你实际上看到的是一个会议室——有屏幕、有舞台、有人、有摄像机。你实际上可以描述整个场景。"
她以为这个问题会耗尽她的一生——"我在临终前告诉自己,如果我能创造一个可以讲述一个场景故事的算法,我就成功了。"
但深度学习改变了一切。Andrej Karpathy和Justin Johnson进入她的实验室,他们开始看到自然语言的信号。2015年,他们发表了最早一批能够为图像添加描述信息的计算机论文之一。
更疯狂的是,Fei-Fei开玩笑地对Andrej说:"我们为什么不反过来呢?用一句话生成一幅图像。"Andrej当时说:"世界还没有做好准备。"
现在,我们都知道生成式AI可以做到这一点。
为什么空间智能比语言模型更难?
进化论的启示
Fei-Fei的很多灵感来自进化论和脑科学。她指出一个关键事实:
▪︎人类语言进化用了大约3亿到5亿年,不到一百万年
▪︎而视觉——理解三维世界、在三维世界中导航和互动——经历了5.4亿年
"第一只三叶虫化石在5.4亿年前就进化出了水下视觉。从那时起,视觉引发了这场进化军备竞赛。在视觉出现之前,动物的生存方式很简单。但在接下来的5.4亿年里,由于人类拥有了感知世界和理解世界的能力,进化军备竞赛开始了,动物的智力也开始相互竞争。"
三维世界的三个根本难点
▪︎ 维度问题:语言本质上是一维的,而现实世界是三维的(加上时间就是4D)。这本身就是一个组合上更难的问题。
▪︎ 投射问题:无论是你的眼睛、视网膜还是相机,它总是将3D图像压缩成2D图像。这在数学上是不成立的。
▪︎ 生成与重构的平衡:世界并非纯粹的生成式世界。现实世界同时存在,你需要流畅地在生成和重构之间切换。
"语言纯粹是生成性的。自然界中没有语言。你不能碰语言。你看不到语言。而世界远比这复杂得多。"
数据在哪里?
互联网上有大量关于语言的数据,但关于空间智能的数据在哪里?它不在互联网上——它在我们的大脑里。不像语言那样容易获取。
但Fei-Fei说:"如果它很容易,那就说明别人已经解决了。我的整个职业生涯都在追求那些极其困难、近乎妄想的问题。"
从学术界到创业者:无畏求知的旅程
从洗衣店到斯坦福
Fei-Fei的人生本身就是一部从零到一的传奇。她19岁时来到美国,一句英语都不会说。为了养家糊口和上大学,她开了一家干洗店——"用硅谷式的语言筹集资金,我是创始人兼CEO,同时还兼任收银员和其他所有工作。"
七年过去了,她笑着说:"我的自助洗衣店从来没收到过掌声。"


