贝叶斯没有想到：赌博如何成为AI的第一性原理？AI-lab学习笔记

1763 年，一个英国牧师的遗稿里藏着一条公式。263 年后，这条公式成了 GPT 训练的数学骨架：先验 = 预训练，似然 = 数据，后验 = 微调。贝叶斯定理不只是一个公式——它是一种「带着旧知识拥抱新证据」的思维方式。而这正是 AI 学习的方式。

一个牧师的未完成论文

1761 年，英国小镇滕布里奇韦尔斯（Tunbridge Wells），一位 59 岁的长老会牧师去世了。

他叫托马斯·贝叶斯（Thomas Bayes）。

他的一生平平无奇——在一个小教堂布道，偶尔研究数学，没有发表过什么重要论文。去世后，他的朋友理查德·普莱斯（Richard Price）在整理遗物时发现了一篇未完成的手稿。

普莱斯读完后意识到：这篇手稿可能改变人类理解世界的方式。

1763 年，普莱斯把这篇遗稿整理发表在英国皇家学会的 Philosophical Transactions 上。标题很朴素：“An Essay towards solving a Problem in the Doctrine of Chances”——《论解决概率论中一个问题的尝试》。

263 年后，这篇论文里的核心思想成了 GPT、BERT、Stable Diffusion 等所有现代 AI 的数学骨架之一。

贝叶斯没有想到的事：他为了解决赌博问题推导的公式，最终教会了机器如何学习。

一、一个反直觉的问题

在讲贝叶斯定理之前，让我先给你出一道题。

医学检测悖论

有一种罕见病，每 1000 人中只有 1 人患病（患病率 0.1%）。

现在有一种检测方法，准确率很高：

如果你真的有病，检测显示阳性的概率是 99%（灵敏度）

如果你没有病，检测显示阴性的概率是 99%（特异度）

你去检测，结果显示阳性。

问：你真正患病的概率是多少？

大多数人的第一反应：“99%！检测那么准！”

直觉告诉你几乎一定患病了。

但正确答案是：大约 9%。

你没有看错。即使检测准确率高达 99%，阳性结果只意味着你有大约十分之一的概率真正患病。

为什么？让我们算一算。

算给你看：10000 人中发生了什么

10000 人参加检测

├── 10 人真有病（患病率 0.1%）

│ ├── 9.9 人 → 检测阳性（真阳性，灵敏度 99%）

│ └── 0.1 人 → 检测阴性（漏诊）

└── 9990 人没有病

├── 99.9 人 → 检测阳性（假阳性，误报率 1%）

└── 9890.1 人 → 检测阴性（正确排除）

所有阳性结果 = 9.9 + 99.9 = 109.8 人

其中真正患病的 = 9.9 人

真正患病的概率 = 9.9 / 109.8 ≈ 9.0%

关键洞察：虽然假阳性率只有 1%，但因为没病的人（9990 人）远远多于有病的人（10 人），1% 的 9990 人（≈100 人）仍然远超真正患病的 10 人。

你的直觉出了什么问题？

你忽略了一个关键信息——患病率本身就很低（0.1%）。在你做检测之前，你患病的概率就已经很低了。检测阳性只是在这个很低的基础上“升级”了概率，但没有把它翻转到 99%。

这就是贝叶斯定理要解决的核心问题：当你获得新证据时，你原来的信念应该怎样更新？

医学检测悖论的贝叶斯拆解：先验 × 似然 → 后验

二、贝叶斯定理——六个字就够了

用一个生活场景，把三个角色讲透

公式看起来吓人，但其实你每天都在用它——只是你的大脑自动帮你算了。让我用一个例子把三个角色讲清楚。

场景：早上醒来，你听到窗外有“哗哗”的声音。外面在下雨吗？

三个角色，一个故事

① 先验（Prior）—— 在听到声音之前，你觉得下雨的可能性有多大？

你昨晚看了天气预报，说今天晴天。所以你心里觉得：“下雨大概 10% 的可能吧。”

这就是先验——在看到任何证据之前，你根据已有知识做出的判断。

② 似然（Likelihood）—— 如果真的在下雨，你听到“哗哗”声的可能性有多大？

如果外面真的在下雨，你听到哗哗声的概率很高——比如 90%（也有可能雨很小你听不到）。

但注意：如果外面没下雨，你也可能听到哗哗声——邻居在浇花、楼上在洗车，概率大约 20%。

似然衡量的是：如果这件事为真，那我看到的证据有多合理？

从 10% 升到了 33%——证据（哗哗声）把你的信念从 10% 拉高到了 33%，但没有拉到 90%。因为你的先验（天气预报说晴天）在拉着另一头。

关键直觉：后验 = 先验和似然的“拔河”结果。如果先验很强（天气预报非常准），证据需要很强才能推翻它。如果先验很弱（你对天气一无所知），一点点证据就能主导你的信念。

这就是为什么医学检测的例子让人惊讶——先验太低了（0.1%），即使似然很高（99%），后验也只有 9%。先验在拔河中占了上风。

贝叶斯公式的四个角色

让我把每个部分正式拆开：

贝叶斯公式的四个角色

贝叶斯更新：每一条新证据都在“调焦”

贝叶斯定理最强大的地方在于：它可以反复使用。上一轮的后验，变成下一轮的先验——你的信念在一条条新证据的推动下，越来越精确。

贝叶斯更新：每多看一条证据，信念分布就更“尖锐”

上面这张动图展示了一个简单的例子：你有一枚硬币，不知道它是否公平。一开始你什么都不知道（平坦的先验），然后每次抛硬币得到新数据——每多看到一条证据，你的信念分布就从“宽而平”变得“窄而尖”，越来越确定硬币的真实偏向。

这个过程就像相机调焦——一开始画面模糊（高不确定性），每一条新证据都在拧动对焦环，画面逐渐清晰。

但贝叶斯定理的深意不在这个计算——它在于它描述了一种思维方式：

带着旧知识（先验），拥抱新证据（似然），更新你的信念（后验）。

这六个字——先验 × 似然 → 后验——就是贝叶斯定理的全部。

三、贝叶斯 vs 频率学派——一场 260 年的战争

贝叶斯发表论文后的两百多年里，统计学界分裂为两个阵营：

这场争论持续了两个多世纪。频率学派长期占据主流——因为“主观先验”听起来不够科学。