贝叶斯没有想到:赌博如何成为AI的第一性原理?AI-lab学习笔记
1763 年,一个英国牧师的遗稿里藏着一条公式。263 年后,这条公式成了 GPT 训练的数学骨架:先验 = 预训练,似然 = 数据,后验 = 微调。贝叶斯定理不只是一个公式——它是一种「带着旧知识拥抱新证据」的思维方式。而这正是 AI 学习的方式。
一个牧师的未完成论文
1761 年,英国小镇滕布里奇韦尔斯(Tunbridge Wells),一位 59 岁的长老会牧师去世了。
他叫托马斯·贝叶斯(Thomas Bayes)。
他的一生平平无奇——在一个小教堂布道,偶尔研究数学,没有发表过什么重要论文。去世后,他的朋友理查德·普莱斯(Richard Price)在整理遗物时发现了一篇未完成的手稿。
普莱斯读完后意识到:这篇手稿可能改变人类理解世界的方式。
1763 年,普莱斯把这篇遗稿整理发表在英国皇家学会的 Philosophical Transactions 上。标题很朴素:“An Essay towards solving a Problem in the Doctrine of Chances”——《论解决概率论中一个问题的尝试》。
263 年后,这篇论文里的核心思想成了 GPT、BERT、Stable Diffusion 等所有现代 AI 的数学骨架之一。
贝叶斯没有想到的事:他为了解决赌博问题推导的公式,最终教会了机器如何学习。
一、一个反直觉的问题
在讲贝叶斯定理之前,让我先给你出一道题。
医学检测悖论
有一种罕见病,每 1000 人中只有 1 人患病(患病率 0.1%)。
现在有一种检测方法,准确率很高:
如果你真的有病,检测显示阳性的概率是 99%(灵敏度)
如果你没有病,检测显示阴性的概率是 99%(特异度)
你去检测,结果显示阳性。
问:你真正患病的概率是多少?
大多数人的第一反应:“99%!检测那么准!”
直觉告诉你几乎一定患病了。
但正确答案是:大约 9%。
你没有看错。即使检测准确率高达 99%,阳性结果只意味着你有大约 十分之一 的概率真正患病。
为什么?让我们算一算。
算给你看:10000 人中发生了什么
10000 人参加检测
├── 10 人真有病(患病率 0.1%)
│ ├── 9.9 人 → 检测阳性(真阳性,灵敏度 99%)
│ └── 0.1 人 → 检测阴性(漏诊)
└── 9990 人没有病
├── 99.9 人 → 检测阳性(假阳性,误报率 1%)
└── 9890.1 人 → 检测阴性(正确排除)
所有阳性结果 = 9.9 + 99.9 = 109.8 人
其中真正患病的 = 9.9 人
真正患病的概率 = 9.9 / 109.8 ≈ 9.0%
关键洞察: 虽然假阳性率只有 1%,但因为没病的人(9990 人)远远多于有病的人(10 人),1% 的 9990 人(≈100 人)仍然远超真正患病的 10 人。
你的直觉出了什么问题?
你忽略了一个关键信息——患病率本身就很低(0.1%)。在你做检测之前,你患病的概率就已经很低了。检测阳性只是在这个很低的基础上“升级”了概率,但没有把它翻转到 99%。
这就是贝叶斯定理要解决的核心问题:当你获得新证据时,你原来的信念应该怎样更新?
医学检测悖论的贝叶斯拆解:先验 × 似然 → 后验
二、贝叶斯定理——六个字就够了
用一个生活场景,把三个角色讲透
公式看起来吓人,但其实你每天都在用它——只是你的大脑自动帮你算了。让我用一个例子把三个角色讲清楚。
场景:早上醒来,你听到窗外有“哗哗”的声音。外面在下雨吗?
三个角色,一个故事
① 先验(Prior)—— 在听到声音之前,你觉得下雨的可能性有多大?
你昨晚看了天气预报,说今天晴天。所以你心里觉得:“下雨大概 10% 的可能吧。”
这就是先验——在看到任何证据之前,你根据已有知识做出的判断。
② 似然(Likelihood)—— 如果真的在下雨,你听到“哗哗”声的可能性有多大?
如果外面真的在下雨,你听到哗哗声的概率很高——比如 90%(也有可能雨很小你听不到)。
但注意:如果外面没下雨,你也可能听到哗哗声——邻居在浇花、楼上在洗车,概率大约 20%。
似然衡量的是:如果这件事为真,那我看到的证据有多合理?
从 10% 升到了 33%——证据(哗哗声)把你的信念从 10% 拉高到了 33%,但没有拉到 90%。因为你的先验(天气预报说晴天)在拉着另一头。
关键直觉: 后验 = 先验和似然的“拔河”结果。如果先验很强(天气预报非常准),证据需要很强才能推翻它。如果先验很弱(你对天气一无所知),一点点证据就能主导你的信念。
这就是为什么医学检测的例子让人惊讶——先验太低了(0.1%),即使似然很高(99%),后验也只有 9%。先验在拔河中占了上风。
贝叶斯公式的四个角色
让我把每个部分正式拆开:
贝叶斯公式的四个角色
贝叶斯更新:每一条新证据都在“调焦”
贝叶斯定理最强大的地方在于:它可以反复使用。上一轮的后验,变成下一轮的先验——你的信念在一条条新证据的推动下,越来越精确。
贝叶斯更新:每多看一条证据,信念分布就更“尖锐”
上面这张动图展示了一个简单的例子:你有一枚硬币,不知道它是否公平。一开始你什么都不知道(平坦的先验),然后每次抛硬币得到新数据——每多看到一条证据,你的信念分布就从“宽而平”变得“窄而尖”,越来越确定硬币的真实偏向。
这个过程就像相机调焦——一开始画面模糊(高不确定性),每一条新证据都在拧动对焦环,画面逐渐清晰。
但贝叶斯定理的深意不在这个计算——它在于它描述了一种思维方式:
带着旧知识(先验),拥抱新证据(似然),更新你的信念(后验)。
这六个字——先验 × 似然 → 后验——就是贝叶斯定理的全部。
三、贝叶斯 vs 频率学派——一场 260 年的战争
贝叶斯发表论文后的两百多年里,统计学界分裂为两个阵营:
这场争论持续了两个多世纪。频率学派长期占据主流——因为“主观先验”听起来不够科学。


