Transformer真的在做贝叶斯科研月野兔

1/10/2026

论文标题:The Bayesian Geometry of Transformer Attention

论文地址:https://arxiv.org/pdf/2512.22471

首次提出可控的“Bayesian wind tunnels”评测框架:构造两类后验分布可解析、假设空间极大、记忆化不可行的合成任务(双射消除与隐马尔可夫状态追踪),把“模型是否做贝叶斯推理”转化为可逐位比对的熵校准误差,实现对小模型推理能力的量化验证。

发现注意力模式在训练早期即稳定,而值向量继续“展开”以提升后验精度,呈现“路由固定-数值精修”的解耦过程,与同期梯度动力学理论(本文系列论文 II)预测完全一致,首次在可控实验里实证该理论。

本文采用的核心研究方法是“贝叶斯风洞”实验范式:作者构造了两个假设空间巨大、记忆化不可行且后验分布有解析表达式的合成任务——双射消除与隐马尔可夫模型状态追踪——并在这些任务上训练参数量仅两三百万的小规模 Transformer 及容量匹配的 MLP 对照模型;通过逐位置比对模型预测熵与解析后验熵的校准误差,量化评估其贝叶斯推理能力,同时结合层间/头级消融、线性探针、Q-K 几何分析与值空间可视化等机制性诊断工具,揭示网络内部如何以几何形式实现绑定、消除与精修三段式贝叶斯更新过程。

双射风洞熵校准对比图

本图显示在双射风洞任务中,Transformer 的逐位置预测熵曲线(蓝色)与解析贝叶斯后验熵(橙色)几乎完全重合,平均绝对误差仅 0.003 bit,而参数量相当的 MLP 的熵曲线几乎保持平坦,误差达 1.85 bit,直观证明 Transformer 能够精确执行逐步假设消除的贝叶斯推理,而 MLP 则完全失败。

逐序列熵轨迹对比图

本图在双射风洞中随机抽取8条测试序列,将每条序列上模型输出的逐位置预测熵(实线)与对应解析贝叶斯后验熵(虚线)叠放展示,可以看到每一对曲线都同步呈现“阶梯式下降-突降至零”的锯齿形态:每当新映射被揭示时熵下降一位,若输入重复则熵瞬间归零;这种逐序列的精确同步说明Transformer并非在统计平均意义上拟合贝叶斯曲线,而是在单样本层面真实执行了逐步假设消除的贝叶斯更新过程。

逐层消融熵误差图

本图展示了在双射风洞中对Transformer逐层(注意力+FFN)进行独立消融后的平均绝对熵误差:无论移除哪一层,校准误差都瞬间升高一个数量级以上,表明贝叶斯推理并非由某一层单独完成,而是依赖各层依次叠加、不可替代的组合式计算,从而证实深度结构对实现精确贝叶斯更新具有必要性。

注意力头消融敏感性图

本图对双射模型中每个注意力头单独做消融,记录由此带来的平均绝对熵误差变化,结果显示Layer 0的一个特定头被移除时误差陡增,其余头影响相对小得多,说明该“假设框架头”承担了构建初始假设坐标系的关键角色,一旦缺失整个贝叶斯推理链路即被切断,从而从细粒度上验证了Layer 0负责奠基性绑定功能的结论。

Scroll for more