辛顿90分钟科普播客:这次,为何不同?高飞的电子设备

3/15/2026

又是一篇超万字的博客😓,眼花缭乱中。

杰弗里·辛顿(Geoffrey Hinton)刚刚上线了一期90分钟的播客,发布十天播放量已超过百万次。

辛顿在过去两年里接受过大量采访,从CNN到BBC到60 Minutes,但几乎所有对话都集中在同一个主题:AI的风险有多大、失业潮何时到来、我们该多紧张。这些采访有价值,但如果你已经跟踪过辛顿的公开发言,会发现核心判断在不同场合反复出现。这次不一样。这期节目里他做了一件在其他采访中从未做过的事:从零开始,一层一层地拆解神经网络到底怎么工作。 他用识别一只鸟的例子讲清了从像素到语义的层级跃迁,用一根弹力绳讲透了反向传播的数学直觉,用堆肥堆和原子弹的类比证明AI已经理解了链式反应的深层结构,用一个棱镜实验论证多模态聊天机器人已经具有主观体验。这些内容在他之前的公开访谈中极为罕见——他通常把这些留给自己的大学课堂。

让他打开这个模式的,是这档节目的独特结构。

StarTalk是美国科学播客领域的头部品牌,YouTube频道订阅量超过543万,已播出超过1000期。主持人尼尔·德格拉斯·泰森(Neil deGrasse Tyson)是纽约海登天文馆馆长,大概是过去二十年里美国公众辨识度最高的科学传播者。节目的常驻搭档查克·奈斯(Chuck Nice)是职业喜剧演员,加里·奥莱利(Gary O'Reilly)是前职业足球运动员。

这个配置的效果是:当嘉宾说出一个在学术会议上只会引发同行点头的判断时,奈斯和奥莱利会代替普通听众做出最诚实的反应——停下来,要求把刚才那句话再说一遍。对于复杂话题来说,这种"等一下你刚才说什么"的打断往往比追问本身更有价值,因为它逼迫嘉宾用更直观的方式重新表述。辛顿显然享受这个过程。他在节目里用了大量面向物理学背景听众设计的类比(泰森的观众群以理工科为主),而奈斯的即时追问则确保没有听众被落下。

虽然辛顿现在大概是AI领域公众认知度最高的名字了,但他的核心贡献值得继续重复再重复了。他从1980年代开始系统地研究如何用反向传播算法训练多层神经网络,在当时学术界普遍认为这条路走不通的年代坚持了下来。他的工作直接催生了今天大语言模型和计算机视觉系统的技术基础。他是多伦多大学计算机科学系荣休教授,2013年被Google收购了他与学生联合创办的DNNresearch,此后在Google工作十年。2018年,他与约书亚·本吉奥(Yoshua Bengio)、杨立昆(Yann LeCun)三人因在深度学习领域的奠基性贡献共同获得图灵奖。2024年,他又与物理学家约翰·霍普菲尔德(John Hopfield)共同获得诺贝尔物理学奖,成为继1978年的赫伯特·西蒙(Herbert Simon)之后第二位同时拥有这两项荣誉的人。2023年他从Google离职后成为AI风险领域最具公信力的预警者。

以下是这次对话的完整梳理。

1. 1950年代的分裂:逻辑派和大脑派

AI研究从诞生之初就分裂成两个阵营,这条裂缝至今没有完全愈合。

一派相信智能的本质是逻辑推理。写好前提,定好规则,用规则操纵符号推导出新结论,就像数学家处理方程。这是"符号AI"的路线,后来发展成专家系统,在学术界和工业界主导了几十年。

另一派从生物出发。他们的论点是:我们所知的聪明东西都有大脑,而大脑擅长的是感知和类比推理,真正的逻辑推理反而要到十几岁才发育成熟。所以应该先研究大规模神经元网络如何完成感知和记忆。

辛顿属于第二派。他提到,这个阵营早期的支持者里包括冯·诺依曼(现代计算机架构的设计者)和图灵(可计算理论的奠基人,也就是图灵奖命名所纪念的那个人),可惜两人都英年早逝。"图灵可能还有英国情报机构的帮忙",辛顿说。这是指图灵因同性恋身份遭英国政府迫害、最终疑似被逼自杀的历史。

辛顿自己的兴趣起源于1960年代中期的高中时代。一个数学很好的朋友告诉他一个当时很新的想法:记忆可能不是存储在单个脑细胞里,而是分布在大量脑细胞的连接模式上。这个概念受到全息术的启发。匈牙利物理学家丹尼斯·盖伯(Dennis Gabor)发明的全息图刚刚问世,它的一个特性是信息分布在整个介质上,打碎一部分仍能还原完整图像。"从那以后,我一直在想大脑是怎么存储记忆的,实际上是怎么工作的。"

1970年代辛顿成为研究生时,意识到一种新的验证方法:不管你对大脑有什么理论,都可以在数字计算机上模拟它来检验,除非你认为大脑的核心机制依赖量子效应。"我们先别去敲彭罗斯的门",他开玩笑说。这里的彭罗斯是数学物理学家罗杰·彭罗斯(Roger Penrose),他和麻醉学家斯图尔特·哈默罗夫(Stuart Hameroff)曾提出一种有争议的理论,认为意识源于神经元内部的量子过程。辛顿显然不买这个账。

问题是,当你真的在计算机上跑大多数当时流行的大脑理论时,发现它们不工作。辛顿花了职业生涯的大部分时间解决一个具体问题:如何调整神经元之间的连接强度来学习复杂的东西,并且在数字计算机上确实能跑通。

结果是一个让他自己也不安的发现。他说自己未能理解大脑的工作方式,但弄明白了如何在数字计算机上做到同样的事。 2023年初,这个认知让他开始紧张:如果数字计算机上的学习方法比大脑的方法更高效,那数字智能(digital intelligence)可能就是比人类大脑这种模拟系统(analog intelligence)更强。

2. 从一堆数字到"这是一只鸟"

理解神经网络需要先理解一个问题:为什么识别图片里有没有鸟这件事,对计算机来说这么难。

辛顿在节目里说他有一门18小时的课讲这个,但会试着压缩。他选了一个面向物理学背景听众的入口:气体定律。你压缩气体,气体变热,为什么?因为宏观行为(温度上升)是由微观的大量原子高速运动来解释的。两个层次的现象类型完全不同。神经网络的思路类似:我们做推理时那种有意识的符号操作,底下有更复杂的微观神经活动在支撑。搞清楚了微观层,才能真正解释宏观层。

他用的核心例子是图像识别。一张灰度图片在计算机看来就是一大堆数字,每个数字代表一个像素的亮度。任务是判断图里有没有鸟。

这件事之所以困难,是因为单个像素什么都说明不了。鸟可以是黑的也可以是白的,可以占满整张图也可以只是远处天上的一个点,可能被树丛遮住大半。人们用传统编程方法尝试了半个世纪,都没有真正解决它。

辛顿的讲解策略是:先假设由他手工搭建一个神经网络,让听众理解每一层在做什么,然后再解释为什么手工搭建行不通、必须让机器自己学。

第一层的任务是找边缘。 他用了一个天平的比喻。取相邻两列像素,左列亮度放天平一端,右列放另一端。如果左亮右暗,天平倾斜,神经元兴奋,它检测到一条"左亮右暗的边缘"。如果两边一样亮,天平平衡,输出为零。人类大脑视觉皮层的早期阶段做的也是这件事:在不同位置、不同朝向、不同尺度上部署成千上万个边缘检测器。辛顿举了两个极端来说明"尺度"的含义:云的软边缘需要大尺度的模糊检测器,远处一只老鼠尾巴消失在墙角需要精细的小尺度检测器。

第二层把边缘组合成可能的部件。 几条向右下方和右上方倾斜的小边缘汇合在一个点形成尖角,这可能是箭头也可能是鸟喙。几条弯边围成近似的圆,可能是按钮也可能是鸟眼。关键词是"可能",第二层不做最终判断,只是向上传递证据。

第三层开始处理空间关系。 一个可能的鸟眼和一个可能的鸟喙处在正确的相对位置上,第三层判定"这可能是鸟头"。最后的输出层汇总鸟头、鸟脚、翅膀尖端的信号,给出"是鸟"的判断。

每一层都在上一层基础上提取更抽象的特征。这就是"深度学习"里"深度"的含义,就是多层。

奈斯在这里提了一个关键问题:那是不是要把所有可能的鸟都训练一遍?辛顿的回答指向了神经网络区别于查表式程序的核心能力:泛化。网络在学习大量数据时并不逐条记忆,它提取的是可迁移的规律。一个训练过大量动物图片的网络可以识别独角兽,哪怕它从来没见过独角兽,因为它已经学会了"四条腿""马的体型""头上有突出物"这些可拆解、可组合的特征。

这也解释了为什么你在云里画一个弯曲的V形,所有人都说"那是鸟"。大脑没有在查表,它学到了"翅膀展开的轮廓"这个高度抽象的特征,能在完全不同的场景中被激活。

但手工搭建这样一个网络在实践中不可能。你需要覆盖所有位置、朝向、尺度的组合,还要设计对猫、狗乃至政客(辛顿的原词)都有效的通用特征。一个合格的网络至少需要十亿个连接权重。"你大概需要一千万个研究生来手工调这些参数。想想你要写多少经费申请来雇他们。"

问题由此转向:这十亿个连接权重,能不能让机器自己学出来?

3. 弹力绳和反向传播:一次计算替代十亿次实验

辛顿说了一个"听起来很蠢但确实管用"的起点:从随机数开始。

所有连接权重一开始都是随机的正数或负数。输入一张鸟的图片,猫、狗、鸟、政客四个输出神经元都会被微弱激活,程度差不多。没有用处。

最直观的改进方法是逐个试错:把某个连接权重增大一点,看"鸟"的输出有没有变强。如果变强了就保留这次调整。但十亿个连接每个要试很多次,这种方法的时间成本等于无穷大。

辛顿在这里给了一个面向物理学听众设计的类比。网络输入一张鸟的图片后,"鸟"那个输出神经元只有微弱反应,离正确答案差很远。想象你在它的当前值和正确答案之间拉一根弹力绳,绳子越长拉力越大,方向指向"你该更确信这是鸟"。但这个神经元的输出是被它前面所有层的权重共同决定的,它自己动不了。

Scroll for more