在蒙特利尔雪夜里de本吉奥：写下智能的另一种语法逻各斯笔记

“约书亚·本吉奥（Yoshua Bengio，1964年3月5日-）是加拿大计算机科学家，他被公认为"深度学习三巨头"之一，因在深度神经网络方面的概念和工程突破，与Geoffrey Hinton和Yann LeCun共同获得了2018年的图灵奖（ACM A.M. Turing Award），这一奖项常被誉为"计算界的诺贝尔奖"。”

01. 人物介绍

在机器的梦里，看见人的影子

这个故事，要从一个问题开始。

我们活在一个由碳构成的世界里。血肉、骨骼、神经突触，在漫长的进化中被一点一点雕琢成今天的样子——会哭，会笑，会爱一个人，会在深夜对着星空发呆，心里涌起说不清的哀愁与欢喜。

而另一种存在正在醒来。

它由硅构成。芯片、算法、数据流，在人类的实验室里一段一段地被编写出来。它没有心脏，不会疼痛，不理解离别为何物。但它正在学会一件事——像我们一样思考。

这两个世界之间的桥梁，是由一个人筑起的。

他叫约书亚·本吉奥。

一个出生在巴黎春天的男孩，长大后把自己埋在蒙特利尔的雪夜里，一砖一瓦地，把人类语言的秘密翻译成机器能懂的音符。他教会了机器认字、做梦、创造。然后，在机器跑得太快的时候，他又站了出来，轻声说：等一等，我们得让这场梦，做得安全一些。

这不是一个关于技术的枯燥传记。

这是一个关于信念、不安与温柔的故事。

一、在塞纳河的波光与蒙特利尔的雪影之间

（图片来源：AI生成）

1964年，3月5日，巴黎。

那一天，塞纳河上浮着早春的碎冰，左岸的咖啡馆里有人在争论存在主义，面包店飘出刚出炉的法棍香气。这座城市从不缺少哲学家、诗人与梦想家。但谁也没想到，在一个普通的家庭里，一个男孩的出生，会在半个世纪后，让整座城市——不，让整个世界——重新思考“思考”本身的意义。

父母给他取名约书亚。

他的父母是摩洛哥裔犹太人。这个家庭带着某种跨界的基因，后来，这基因在本吉奥身上开出奇异的花——他从来不属于一个地方，一个学科，一个定论。他一辈子都在边界上行走，在神经科学与计算机之间，在人类与机器之间，在创造与警惕之间。

约书亚很小的时候就随家人离开了欧洲。越过大西洋，降落在加拿大，重新扎根。

蒙特利尔。这座城市和他日后的命运紧紧咬合在一起，像一枚钉子钉进了时间线，再也没拔出来。

蒙特利尔的冬天很长。雪从十一月下到三月，有时候四月还会来一场回马枪。少年本吉奥坐在窗前，看雪花一片一片地落在街道上，覆盖了车辙，覆盖了屋顶，覆盖了整座城市的喧嚣。世界忽然变得很安静。

安静的时候，人的心里容易长出深刻的问题。

他在想——我眼前的这一切，这些颜色、声音、温度的变化，我的大脑是怎么处理它们的？神经细胞是怎么传递信号的？思维这个东西，到底是什么物质？如果给我足够的零件、足够的法则，我能造出一个能思考的东西吗？

这些问题在当时看来，几乎是不着边际的幻想。

但他把它们收好，压在心底，像藏起一枚冬天的种子，等春天来。

后来的事情证明，春天来得比所有人都预想的要晚。

二、麦吉尔的长椅与贝尔实验室的走廊

八十年代，麦吉尔大学。

本吉奥坐在校园的长椅上，左手翻着神经科学的教材，右手摊着计算机科学的论文。这两摞书在当时的学术界几乎没有交集——神经科学在实验室里解剖小鼠的脑切片，计算机科学在机房里面朝打孔机背朝风扇。没人觉得它们应该被放在一起讨论。

但本吉奥觉得。

他觉得大脑处理信息的方式里，藏着某种关于智能的秘密。那些密密麻麻的神经元，那些电信号的传递模式，那些突触的可塑性——这些生物学里繁琐的细节，或许能变成某种数学的语言，写进代码里。

这个直觉，是后来一切的开端。

博士毕业后，他去了美国，进了著名的贝尔实验室。那是上世纪九十年代初，贝尔实验室还是创新的圣地，走廊里随时可能撞见诺贝尔奖得主。本吉奥在那些走廊里走了一年又一年，听着身边同事讨论半导体、光纤和调制解调器，心里想的却是另一件事——神经网络。

这个词在当时的学术界几乎是不可触碰的禁区。

八十年代末，人工智能经历了一次惨烈的寒冬。专家系统失败，算力不足，数据稀少。人们公开宣称神经网络是一个死胡同，是一条已经被证明走不通的路。论文投出去就被拒，基金申请被批得体无完肤。做神经网络研究的学者们要么转了方向，要么沉默了。

本吉奥没有转方向，也没有沉默。

他只是——安静地、固执地、近乎自闭地——继续往下挖。

他后来回到加拿大，在蒙特利尔大学安顿下来。那里给了他一个安静的角落。蒙特利尔的雪继续下，他在办公室里继续写代码。窗外是白茫茫的世界，窗内是密密麻麻的公式。他像一个没有地图的矿工，在所有人都说“下面没有矿”的地方，一铲一铲地挖。

最棘手的那个问题，叫梯度消失。

我给你打个比方。

想象你有一根很长很长的绳子，从十楼垂到一楼。你在楼顶轻轻抖一下绳子，这一抖的能量要穿过几十米才能传到地面。但每经过一米，能量就衰减一点。等传到一楼的时候，那点微弱的抖动几乎已经没有了。

神经网络就是这样。信息从输入层传到输出层，每穿过一层，信号就衰减一点。网络越深，衰减越严重。最后，前面的层根本学不到任何东西，整个网络就像一棵根系坏死的树，看上去枝繁叶茂，其实风一吹就倒了。

这个问题困住了整个领域十几年。

本吉奥提出的解，在今天看来不算复杂。他换了一种让信号更容易通过的激活函数，又设计了一种层层预训练的策略——先让每一层单独学习一点有用的东西，再把它们串起来。像教一个孩子，先学会走路，再学会跑步。每一步都不贪多，但每一步都扎实。

这些工作，在今天已经成为深度学习的基石。但当时，几乎没有人注意到。

本吉奥不在乎。他把论文发出去，然后继续坐在办公室里，写下一段代码，算下一个公式。蒙特利尔的雪，落了一年又一年。

三、在无人行走的路上

（图片来源：AI生成）

九十年代末，深度学习仍然在寒冬里。