贝叶斯定理:智能的第一性原理?仿佛来自虚空

5/7/2026

2023年8月14日,伯克利。时任 OpenAI 首席科学家 Ilya Sutskever 在演讲中说了一段让很多人愣住的话:他们坚持做 next token prediction 的理论基础,是1960年代所罗门诺夫的归纳理论和柯尔莫哥洛夫复杂性。

第一次读到这段话时,我立刻去研究所罗门诺夫归纳到底是什么。越挖越深,发现了一件令人吃惊的事:所罗门诺夫归纳的数学骨架,就是贝叶斯定理。柯尔莫哥洛夫复杂性提供了"简单性"的度量,但真正驱动整个推理引擎运转的,是贝叶斯的那个公式。

顺着这条线,我进一步了解到朱迪亚·珀尔的因果革命,底层是贝叶斯网络。卡尔·弗里斯顿的自由能原理,核心是贝叶斯推断。安全工程中最前沿的主观逻辑,是贝叶斯概率的扩展。

但说实话,珀尔的因果图工作我其实早就知道——只是当时没有意识到它和智能基础有什么深层关联。直到把所罗门诺夫、贝叶斯、大模型串起来看,才恍然:珀尔在做的事情,本质上和所罗门诺夫一样,都是在给"从证据到认知"这件事寻找严格的数学框架。

我开始有一个很强烈的直觉:贝叶斯定理可能不只是一个统计工具,它可能是信息处理、智能涌现乃至意识构成中那个最基础的东西。

这篇文章要做的,就是把这个直觉背后的证据链铺开来,让读者自己来判断。

贝叶斯定理(Bayes' Theorem):根据新证据更新信念的数学法则。可以想象成你心里有一个"信念温度计",每收到一条新消息,温度计就调整一格。

因为健康人群基数太大,即使假阳性率只有5%,产生的假阳性绝对数量也远超真阳性。贝叶斯定理强迫你把"基础比率"纳入推理,不被单一证据牵着鼻子走。

这不是数学技巧。这是理性思考的底层逻辑。

从牧师到拉普拉斯:一段被遗忘又复活的历史

图1:先验信念与新证据的天平,背后是贝叶斯出身的英国教堂。

1761年,英国长老会牧师托马斯·贝叶斯去世,留下一篇未发表的手稿。他的朋友理查德·普莱斯整理后,于1763年提交给皇家学会。

逆概率问题(Inverse Probability):已知结果,反推原因的概率。比如你听到隔壁传来猫叫声,推断隔壁养了猫的概率有多大。

贝叶斯要解决的就是这个"逆概率"问题。在他之前,概率论只能从原因推结果(一枚均匀硬币抛出正面的概率是50%)。贝叶斯把箭头反过来了:观察到结果,推断原因。

几十年后,法国数学家拉普拉斯独立推导出同样的公式,并把它用到了天文学和人口统计学上。拉普拉斯甚至用它回答了一个经典问题:太阳连续升起了 天,明天它继续升起的概率是多少?

到了20世纪,频率学派崛起,费希尔等人猛烈批评贝叶斯方法的"主观性"。贝叶斯思想被边缘化了将近半个世纪。直到计算机时代到来,马尔可夫链蒙特卡洛(MCMC)方法让贝叶斯推断在高维空间中变得可计算,贝叶斯才重新回到舞台中央。

但真正让贝叶斯定理从"统计工具"升级为"智能原理"的,是另一个人的工作。

所罗门诺夫:贝叶斯遇见图灵机

所罗门诺夫归纳(Solomonoff Induction):将贝叶斯推理与计算理论结合,用程序长度定义先验概率的通用预测框架。可以想象成一台机器,它把世界上所有的规律都写成代码,然后按代码长短排名来预测未来。

1960年代,雷·所罗门诺夫做了一件天才的事:他解决了贝叶斯定理中最大的哲学漏洞。

贝叶斯定理需要一个先验概率 。但面对无穷多个可能的假设,先验怎么选?选错了,整个推理就歪了。

所罗门诺夫的回答:用图灵机。

所罗门诺夫证明了:这种方法在预测任何可计算数据源时,没有任何归纳方法能系统性地超越它。

注意这个框架的结构:通用先验 + 贝叶斯更新 = 最优预测。贝叶斯定理是发动机,柯尔莫哥洛夫复杂性是燃料规格,所罗门诺夫归纳是整台车。

大语言模型:贝叶斯预测的万亿参数近似

柯尔莫哥洛夫复杂性(Kolmogorov Complexity):一个字符串的"绝对信息量",等于能生成它的最短程序的长度。可以想象成把一本书压缩到极限后的大小,压缩得越小,说明书里的规律越多。

Sutskever 在伯克利演讲中的核心论点是:要精准预测下一个词元,模型必须理解产生该词元的底层现实。

比如,预测"水加热到100°C会沸腾",模型必须理解相变的物理机制。Sutskever 认为,如果一个模型能对普通人行为做出极高精度的预测,它就能通过在贝叶斯后验中进行"条件化",模拟出比训练数据中任何人都更聪明的行为。这不是外推,而是条件化推理——贝叶斯的老本行。

因果革命:从"看见"到"想象"

因果推断(Causal Inference):不仅分析"A和B相关",还要判断"A是否导致了B"。可以想象成从"每次下雨路就湿"推进到"是雨导致了路湿,而不是路湿导致了雨"。

贝叶斯网络能有效表示变量间的概率依赖关系,但传统贝叶斯推理止步于关联分析。图灵奖得主朱迪亚·珀尔把贝叶斯网络升级为因果模型,提出了著名的"因果之梯":

第一层:观察(Seeing)。回答"如果我看到 X,会发生什么?"纯粹的统计关联,大多数机器学习模型目前在这个层级。

第二层:干预(Doing)。回答"如果我做了 X,会发生什么?"需要引入 -算子,打破系统中原有的因果链条。比如"如果我给这个病人吃药(而不仅仅是观察到吃药的人恢复更快),会怎样?"

第三层:反事实(Imagining)。回答"如果我当时做了不同的决定,现在会怎样?"这是智能最高级的形式,涉及对未发生可能性的模拟。

-算子本身不是普通的条件概率——它表示对系统的干预,需要完整的因果图结构才能定义。珀尔的 do-calculus 提供了三个规则,可以在因果模型假设下,把干预分布转化为可由观测分布估计的概率表达式,从而打通从关联到因果的推理路径。

在自动驾驶领域,因果分析至关重要。路面湿滑与交通事故高度相关,但擦干路面并不能减少事故,因为真正的因果是降雨。贝叶斯因果图帮助工程师识别这些混杂因素,在数据不足或存在噪声时推断根本原因。

安全工程:贝叶斯如何守护生命

在安全关键系统中,贝叶斯定理的应用已经从理论走向了工程实践。这里有四个来自前沿研究的案例。

模糊因果树:SOTIF 分析的新工具

SOTIF(Safety of the Intended Functionality):预期功能安全,关注的不是系统故障,而是系统在正常工作但设计不完善时可能造成的危害。比如摄像头在逆光下识别错误。

传统的故障树分析(FTA)用布尔逻辑:一个条件要么成立,要么不成立。但现实中的触发条件往往是连续的。黑暗不是一个开关,从黄昏到深夜是一个平滑的过渡。

Fraunhofer IKS 的 Benjamin Herd 等人提出了模糊因果树(Fuzzy Cause Trees, FCT),用模糊逻辑建模触发条件和系统不足之间的因果关系。传统方法(如贝叶斯网络)要求精确的条件概率赋值,在感知系统中这往往难以实现——光照强度、雨雾程度都是连续值,不是0或1。FCT 用隶属度函数替代布尔值,用模糊推理处理"部分满足"的情况,实现对连续不确定性的系统化安全分析。

Scroll for more