优化即几何，几何即推理：洞穿Transformer黑盒PaperWeekly

不是设计，而是进化。当交叉熵遇见 SGD，贝叶斯推理成了唯一的数学必然。

理论锚点：交叉熵的贝叶斯终局

Transformer 的训练通常基于最小化交叉熵损失。Paper I 首先澄清了这一优化过程的数学终局。

在无限数据与容量的极限下，最小化交叉熵：

其最优解在数学上严格等价于解析贝叶斯后验预测分布 (Bayesian Posterior Predictive Distribution)：

为了验证有限容量的 Transformer 是否真正逼近了这一极限，作者构建了贝叶斯风洞 (Bayesian Wind Tunnels) 。

这是一个完全受控的数学环境，其中每一步的解析后验都是精确已知的。

〓图1. “贝叶斯风洞”概念图。在缺乏 Ground Truth 的自然语言之外，作者构建了一个可精确测量的受控环境。

实验结果表明，在双射学习与 HMM 状态追踪任务中，Transformer 展现了极高的精度。

〓图2. Transformer 的预测熵精确贴合理论贝叶斯后验，平均绝对误差（MAE）低至 10^{-3} 比特；相比之下，MLP 无法有效利用上下文进行假设消除。

更微观的证据来自单序列分析，这是证明模型真理解而非平均记忆的铁证：

〓图3. 针对每一个具体序列，Transformer 的熵值（实线）能够精确追踪理论后验（虚线）的锯齿状变化，证明模型在进行逐 Token 的实时推理。

而在 HMM 任务中，模型甚至展现出了完美的长度外推 (Length Generalization) 能力，证明其学会了通用的递归算法：

〓图4. 模型在训练长度 K=20 内完美拟合。在测试长度 K=30 和 K=50 时，误差平滑增长，未出现断崖式下跌，证明模型并未死记硬背。

几何表征：推理的三阶段演化

〓图5. Layer 0 的 Key 向量余弦相似度矩阵。非对角元素接近 0，表明模型构建了正交的假设空间框架。