让大模型学会「自己教自己」量子位

最近，京东和中科院信工所展开了 Self-Taught RLVR 的系列研究，并连发三篇后训练新作。

这一系列的核心命题只有一个：如何让大模型自我指导，实现迭代演化？

研究者对 Self-Taught 探索了三个互补维度：

1、RLSD：探究 informed self—— 由特权信息增强的自身来教自己；

2、NPO：聚焦 temporal self—— 由近未来的自身教自己；

3、CoPD：探究 parallel-self—— 由走另一条路的自身来教自己。

这三篇文章分别面向 RLVR 和 OPD 的热点问题：

RLSD：如何更好地吸收好特权信息？

NPO：如何在 RLVR 中引入更合适的辅助学习信号？

CoPD：如何更好地将多个专家的能力吸收到同一个模型中？

虽然这些问题看似不同，但实则都有着相同的本质，就是如何引入更好的学习信号并被模型有效地吸收。

Self-Taught RLVR 系列研究则给出了同一个答案：让模型自己为自己提供贴合当前能力的，更易吸收的学习信号。

以下是三篇系列文章的详细内容。

RLSD：让 “看见答案的自己” 来教自己

第一篇 RLSD (RLVR with Self-Distillation) 关心的问题是：当我们给同一个模型注入特权信息 (比如参考答案) 后，它能不能成为老师来指导自己？

这个 setting 之前已经被 OPSD (On-Policy Self-Distillation) 探索过，比如：Self-distilled reasoner：On-policy self-distillation for large language models 和 Reinforcement learning via self-distillation，但是结果很尴尬：模型在极少数据上快速收敛（大概 20step 以内），之后很快就开始信息泄漏，在推理时想当然地引用一个其实它并没有看到的 “参考解” 来解决问题，回答风格变为如下图所示的情况，并紧接着性能逐渐坍塌。

RLSD 这篇论文做了两件事：理论上，作者证明了 OPSD 的目标函数是 ill-posed 的，这个训练目标中存在一个不可消除的项 mutual information gap（I (Yt; R | X, Y 0）。

不同于常规的条件一致的 OPD，OPSD 中的老师条件在特权信息上、而学生看不到这个特权信息，在这种情况下这个 gap 就永远抹不掉，KL 散度也就永远降不下去。每一步训练都在悄悄把 x→r 的虚假相关性写进参数里，最终影响梯度方向。

方法上，RLSD 给出了一个简单优雅的修复：方向交给 RLVR：环境奖励决定每个 token 是该被强化还是被惩罚，这是可靠但稀疏的信号，保证更新的大方向不要出错；幅度交给自蒸馏：用老师 / 学生的 evidence ratio 来调节每个 token 的更新力度，这是密集的信号，保证在细粒度上对于不同的 token 能给出不同的 credit 分配。

通过把 “用对方向” 和 “分清主次” 这两件本来纠缠在一起的事情解耦，RLSD 就成了 RLVR 和 OPSD 的自然的合体，既继承了 OPSD 的 token-level 密集信号，又重新拿回了 RLVR 来自环境的可靠信号锚定。

至于效果，在 Qwen3-VL-8B-Instruct 以及文本、图片、视频的 8 个 benchmark 上，同时打败了一系列的 baseline，不仅收敛速度更快，而且最终性能上限更高，200 步训练就超过 GRPO 训 400 步的水平。

如果用漫画总结就是：

NPO：让 “短暂未来后的自己” 教自己

第二篇 NPO (Near-Future Policy Optimization) 关心的是一个看起来朴素、根本的问题：为 RLVR 引入什么样的辅助学习信号能带来最大收益？

研究者把这件事抽象成了一个简洁的指标：有效学习信号 S=Q/V。

也就是说，一条好的辅助轨迹要足够强（高 Q，有新东西可学）的同时还得足够近（低 V，模型容易吸收）。

之前的方法都顾不全这一点：从外部老师导入轨迹，Q 高但 V 太大；从经验回放（Experience Replay）抓自己过去的轨迹，V 低但 Q 又被自身历史水平卡死。

NPO 的核心思想可以一句话概括：用未来的自己来引导当下的自己。简单来说，就是一个比当前更强 (沿优化方向走了若干步)，但又离当前足够近 (同一条优化进程上的延伸) 的天然 teacher。

作者从理论上和实证上都证明了这种设计能最大化有效学习信号 S=Q/V。

在具体实现上，本文采用 mixed-policy 的方式：把 near-future checkpoint 产生的、被验证为正确的 trajectory 混入当前 rollout group，既加速早期 bootstrap，也帮助后期突破 plateau。

进一步，作者还提出了 AutoNPO，自动从在线训练信号里检测干预时机、自动挑选 S 最大的 guide checkpoint。

最终在 Qwen3-VL-8B-Instruct 上，GRPO 平均分从 57.88 提升到 NPO 的 62.84，AutoNPO 进一步推到 63.15，在收敛速度和最终上限上同时打败 LUFFY 等 mixed-policy 基线。