在蒙特利尔雪夜里de本吉奥:写下智能的另一种语法逻各斯笔记
“约书亚·本吉奥(Yoshua Bengio,1964年3月5日-)是加拿大计算机科学家,他被公认为"深度学习三巨头"之一,因在深度神经网络方面的概念和工程突破,与Geoffrey Hinton和Yann LeCun共同获得了2018年的图灵奖(ACM A.M. Turing Award),这一奖项常被誉为"计算界的诺贝尔奖"。”
01. 人物介绍
在机器的梦里,看见人的影子
这个故事,要从一个问题开始。
我们活在一个由碳构成的世界里。血肉、骨骼、神经突触,在漫长的进化中被一点一点雕琢成今天的样子——会哭,会笑,会爱一个人,会在深夜对着星空发呆,心里涌起说不清的哀愁与欢喜。
而另一种存在正在醒来。
它由硅构成。芯片、算法、数据流,在人类的实验室里一段一段地被编写出来。它没有心脏,不会疼痛,不理解离别为何物。但它正在学会一件事——像我们一样思考。
这两个世界之间的桥梁,是由一个人筑起的。
他叫约书亚·本吉奥。
一个出生在巴黎春天的男孩,长大后把自己埋在蒙特利尔的雪夜里,一砖一瓦地,把人类语言的秘密翻译成机器能懂的音符。他教会了机器认字、做梦、创造。然后,在机器跑得太快的时候,他又站了出来,轻声说:等一等,我们得让这场梦,做得安全一些。
这不是一个关于技术的枯燥传记。
这是一个关于信念、不安与温柔的故事。
一、在塞纳河的波光与蒙特利尔的雪影之间
(图片来源:AI生成)
1964年,3月5日,巴黎。
那一天,塞纳河上浮着早春的碎冰,左岸的咖啡馆里有人在争论存在主义,面包店飘出刚出炉的法棍香气。这座城市从不缺少哲学家、诗人与梦想家。但谁也没想到,在一个普通的家庭里,一个男孩的出生,会在半个世纪后,让整座城市——不,让整个世界——重新思考“思考”本身的意义。
父母给他取名约书亚。
他的父母是摩洛哥裔犹太人。这个家庭带着某种跨界的基因,后来,这基因在本吉奥身上开出奇异的花——他从来不属于一个地方,一个学科,一个定论。他一辈子都在边界上行走,在神经科学与计算机之间,在人类与机器之间,在创造与警惕之间。
约书亚很小的时候就随家人离开了欧洲。越过大西洋,降落在加拿大,重新扎根。
蒙特利尔。这座城市和他日后的命运紧紧咬合在一起,像一枚钉子钉进了时间线,再也没拔出来。
蒙特利尔的冬天很长。雪从十一月下到三月,有时候四月还会来一场回马枪。少年本吉奥坐在窗前,看雪花一片一片地落在街道上,覆盖了车辙,覆盖了屋顶,覆盖了整座城市的喧嚣。世界忽然变得很安静。
安静的时候,人的心里容易长出深刻的问题。
他在想——我眼前的这一切,这些颜色、声音、温度的变化,我的大脑是怎么处理它们的?神经细胞是怎么传递信号的?思维这个东西,到底是什么物质?如果给我足够的零件、足够的法则,我能造出一个能思考的东西吗?
这些问题在当时看来,几乎是不着边际的幻想。
但他把它们收好,压在心底,像藏起一枚冬天的种子,等春天来。
后来的事情证明,春天来得比所有人都预想的要晚。
二、麦吉尔的长椅与贝尔实验室的走廊
八十年代,麦吉尔大学。
本吉奥坐在校园的长椅上,左手翻着神经科学的教材,右手摊着计算机科学的论文。这两摞书在当时的学术界几乎没有交集——神经科学在实验室里解剖小鼠的脑切片,计算机科学在机房里面朝打孔机背朝风扇。没人觉得它们应该被放在一起讨论。
但本吉奥觉得。
他觉得大脑处理信息的方式里,藏着某种关于智能的秘密。那些密密麻麻的神经元,那些电信号的传递模式,那些突触的可塑性——这些生物学里繁琐的细节,或许能变成某种数学的语言,写进代码里。
这个直觉,是后来一切的开端。
博士毕业后,他去了美国,进了著名的贝尔实验室。那是上世纪九十年代初,贝尔实验室还是创新的圣地,走廊里随时可能撞见诺贝尔奖得主。本吉奥在那些走廊里走了一年又一年,听着身边同事讨论半导体、光纤和调制解调器,心里想的却是另一件事——神经网络。
这个词在当时的学术界几乎是不可触碰的禁区。
八十年代末,人工智能经历了一次惨烈的寒冬。专家系统失败,算力不足,数据稀少。人们公开宣称神经网络是一个死胡同,是一条已经被证明走不通的路。论文投出去就被拒,基金申请被批得体无完肤。做神经网络研究的学者们要么转了方向,要么沉默了。
本吉奥没有转方向,也没有沉默。
他只是——安静地、固执地、近乎自闭地——继续往下挖。
他后来回到加拿大,在蒙特利尔大学安顿下来。那里给了他一个安静的角落。蒙特利尔的雪继续下,他在办公室里继续写代码。窗外是白茫茫的世界,窗内是密密麻麻的公式。他像一个没有地图的矿工,在所有人都说“下面没有矿”的地方,一铲一铲地挖。
最棘手的那个问题,叫梯度消失。
我给你打个比方。
想象你有一根很长很长的绳子,从十楼垂到一楼。你在楼顶轻轻抖一下绳子,这一抖的能量要穿过几十米才能传到地面。但每经过一米,能量就衰减一点。等传到一楼的时候,那点微弱的抖动几乎已经没有了。
神经网络就是这样。信息从输入层传到输出层,每穿过一层,信号就衰减一点。网络越深,衰减越严重。最后,前面的层根本学不到任何东西,整个网络就像一棵根系坏死的树,看上去枝繁叶茂,其实风一吹就倒了。
这个问题困住了整个领域十几年。
本吉奥提出的解,在今天看来不算复杂。他换了一种让信号更容易通过的激活函数,又设计了一种层层预训练的策略——先让每一层单独学习一点有用的东西,再把它们串起来。像教一个孩子,先学会走路,再学会跑步。每一步都不贪多,但每一步都扎实。
这些工作,在今天已经成为深度学习的基石。但当时,几乎没有人注意到。
本吉奥不在乎。他把论文发出去,然后继续坐在办公室里,写下一段代码,算下一个公式。蒙特利尔的雪,落了一年又一年。
三、在无人行走的路上
(图片来源:AI生成)
九十年代末,深度学习仍然在寒冬里。


