他用一根橡皮筋,讲透了AI的底层逻辑孤独大脑
序幕:神经网络
老喻: 辛顿教授,深度学习对大多数人来说就是一个"黑盒",几百亿参数在里面像魔法一样运作。您能不能用打比方加一点初级数学,把"前向传播"和"反向传播"彻底揉碎了讲讲?
辛顿: 没问题。但在讲机制之前,我想先让大家理解一件事:大脑里正在发生的事情,离我们平时的"有意识逻辑思考"非常遥远。它们更像是在做"感知"或"类比",你没法用传统的符号处理去解释。
我举个最自然的例子:给你一张灰度照片,一堆像素点,请你告诉我——里面有没有鸟?
过去半个世纪,人们一直试图写程序解决这个问题,基本全部失败。为什么?因为"鸟"根本无法用一组固定的数学值来定义。它可以是怼到你脸上的一只鸵鸟,也可以是天边的一只海鸥;黑的、白的、飞着的、蹲着的。
那大脑是怎么做的?我们来手工搭一个神经网络看看。
第一层,我们放一批神经元,专门检测图片里最微小的边缘——比如取三个像素点,如果左边亮、右边暗,这个神经元就兴奋:"这里有一条边!"
第二层,神经元不再看像素,而是看第一层传来的信号——几条短边缘向下倾斜、几条向上倾斜、前端交汇成一个尖角——它就喊:"我可能发现了一个鸟嘴!"
第三层,有个神经元同时收到"鸟嘴"和"鸟眼"的信号,并且空间位置对得上,它就说:"这是一个鸟头!"
最顶层,当"鸟头""鸟脚""翅膀尖"的信号同时涌入,它大喊:"这绝对是一只鸟!"
老喻: 逻辑很清晰!但如果手工搭建,这个网络得多大?
辛顿: 至少10亿个连接。我绝不可能让我的研究生去手动设置10亿个权重——所以我们需要一种机制,让网络自己学会怎么设置这些权重。这就是我接下来要讲的核心:前向传播和反向传播。
第一幕:前向传播
辛顿:我们把正在学习“如何认出一只鸟”的神经网络,想象成一家拥有 10 亿名员工的“看图识物大公司”。
这家公司等级森严,分为四个层级:
1、基层业务员(底层神经元):只负责盯图片上最基础的像素亮暗,只有当像素亮到一定程度,业务员才会“兴奋”地往上喊(这就是激活函数)。
2、小组长(第二层神经元):听业务员汇报,负责寻找“边缘”和“线条”。
3、部门经理(第三层神经元):听小组长汇报,负责拼凑“鸟嘴”或“狗耳朵”这样的局部特征。
4、CEO(顶层神经元/输出层):听取所有经理的汇报,向客户拍板出最终结论:“这是一只鸟,还是一只狗!”
老喻:好家伙,10 亿人的大厂!那平时递进去一张图片,他们是怎么协同工作的?
辛顿:这就叫“前向传播”,也就是自下而上的情报汇报。
假设客户递来一张“麻雀”的照片。底层业务员看到像素就开始往上喊。但在职场里,上级对下属绝不会一视同仁。这里有我们第一个极其关键的数学概念: 在学术上,下属喊话的音量叫“激活值”,上级对下属的信任程度叫“权重(Weight)”。
下属汇报的音量(激活值) × 上级对他的信任度(权重) = 对上级的实际影响力
假设公司开业第一天,这 10 亿人的“信任度(权重)”全都是随机瞎填的(这叫随机初始化)。碰巧,负责找“狗耳朵”的经理 A 今天瞎激动,喊得特大声,而 CEO 给他的初始信任度又极高;相反,“鸟嘴部门”的经理 B 明明嘀咕了正确答案,却因信任度太低被彻底无视。
信号就这样一层一层做着乘法往上传递。CEO 综合了所有汇报后一拍脑门,给出了最终预测:“客户您好,根据我司严密计算,这张图有 80% 的概率是狗,只有 10% 的概率是鸟!”
老喻:对着麻雀喊狗,这是一场灾难性的业务事故!由于初始信任度是随机的,前向传播等于是在盲人摸象、瞎猜一气。客户肯定要掀桌子了。
第二幕:误差与梯度
辛顿:没错!客户(也就是训练数据里的标准答案/标签 Label)勃然大怒:“瞎了吗?这是鸟!鸟的概率必须是 100%(1.0),狗的概率必须是 0%(0.0)!”
这个时候,全公司就要开始计算这次业务事故错得有多离谱了。为了让你有直观的物理感受,老喻,我在 CEO 的办公桌上放一个极其具象的“橡皮筋与滑轨”道具,来给你演示什么叫“误差/损失(Loss)”和“梯度(Gradient)”。
想象桌上竖着两排带刻度的滑轨,分别写着“鸟”和“狗”。滑轨的最底部是 0.0,最顶部是 1.0。 每条滑轨上都有两个东西:
1、客户手里拿的“真理铁钉”(代表标准答案),砰的一声死死钉在滑轨的正确刻度上,绝对不许动。
2、CEO 手里推的“预测滑块”(代表他瞎猜的概率输出),停在他刚才汇报的刻度上。 最要命的是:在“真理铁钉”和“预测滑块”之间,死死套着一根极其强韧的橡皮筋!
老喻:画面感太强了!那这桌上现在的战况如何?CEO 岂不是被勒得很惨?


