Bengio团队实证:回归Reward才是无偏正解PaperWeekly
全网都在卷 RLVR,但 Bengio 团队刚泼了盆冷水。
DeepSeek-R1 的爆火让 RLVR 成为当下大模型后训练的绝对主流。
这个逻辑听起来天经地义,但在工程落地时,我们往往面临一个极其隐蔽的选择。这个 KL 惩罚项,到底是应该减在 reward 里,还是直接加在 loss 里?
论文标题:A Comedy of Estimators: On KL Regularization in RL Training of LLMs
论文链接:https://arxiv.org/pdf/2512.21852
KL散度的计算困境
被忽视的梯度偏差
判断一种实现方式是否正确,唯一的标准是看它的梯度是否与真实梯度 (True Gradient) 一致。
对于序列级反向 KL 散度,其真实梯度的数学形式如下 :
论文对四种常见的“估算器+位置”组合进行了详尽的梯度推导,结果与直觉截然相反。
〓 表1. 不同估算器配置的梯度偏差与训练行为总结。
为什么K3 in Loss是错的?
当我们把 K3 放入 Loss 直接进行反向传播时,推导出的梯度期望包含了一个错误的系数项:
论文明确指出(Eq 41),这个梯度形式实际上是在优化前向 KL 散度:
这导致模型倾向于去覆盖参考模型的分布(Mode-covering),而非我们期望的寻找高奖励模式(Mode-seeking)。
为了直观展示这种偏差,作者构建了一个极简参数化模型(Toy Model)进行验证。
〓 图2. 极简自回归模型下各估算器的梯度偏差(左)与方差(右)。K1 in Reward(点线)的偏差接近于 0,而 K3 in Loss(虚线)存在显著的偏差。
理论上的偏差真的会影响 LLM 的推理能力吗?作者在 Qwen2.5-7B 和 Llama-3.1-8B 上进行了大规模的 MATH 数据集微调实验。
1. 训练稳定性:避坑K3 in Reward
首先,千万不要尝试 K3 in Reward。实验表明,这种配置会引入巨大的梯度方差,导致模型训练瞬间崩溃。
〓 图3. 如图所示,K3 in Reward 会导致 Pass@1 准确率直接跌零。
2. 泛化能力:K1 in Reward的降维打击
这是本研究最核心的发现。作者对比了 K3 in Loss(有偏,主流方案)和 K1 in Reward(无偏,推荐方案)在域内(MATH)和域外(Physics, Chemistry, Biology)任务上的表现。
〓 图4. Qwen2.5-7B 在不同 KL 配置下的性能对比。浅绿色 (K1 in Reward) 代表无偏方案,灰色 (K3 in Loss) 代表主流有偏方案。


