让大模型学会「自己教自己」量子位
最近,京东和中科院信工所展开了 Self-Taught RLVR 的系列研究,并连发三篇后训练新作。
这一系列的核心命题只有一个:如何让大模型自我指导,实现迭代演化?
研究者对 Self-Taught 探索了三个互补维度:
1、RLSD:探究 informed self—— 由特权信息增强的自身来教自己;
2、NPO:聚焦 temporal self—— 由近未来的自身教自己;
3、CoPD:探究 parallel-self—— 由走另一条路的自身来教自己。
这三篇文章分别面向 RLVR 和 OPD 的热点问题:
RLSD:如何更好地吸收好特权信息?
NPO:如何在 RLVR 中引入更合适的辅助学习信号?
CoPD:如何更好地将多个专家的能力吸收到同一个模型中?
虽然这些问题看似不同,但实则都有着相同的本质,就是如何引入更好的学习信号并被模型有效地吸收。
Self-Taught RLVR 系列研究则给出了同一个答案:让模型自己为自己提供贴合当前能力的,更易吸收的学习信号。
以下是三篇系列文章的详细内容。
RLSD:让 “看见答案的自己” 来教自己
第一篇 RLSD (RLVR with Self-Distillation) 关心的问题是:当我们给同一个模型注入特权信息 (比如参考答案) 后,它能不能成为老师来指导自己?
这个 setting 之前已经被 OPSD (On-Policy Self-Distillation) 探索过,比如:Self-distilled reasoner:On-policy self-distillation for large language models 和 Reinforcement learning via self-distillation,但是结果很尴尬:模型在极少数据上快速收敛(大概 20step 以内),之后很快就开始信息泄漏,在推理时想当然地引用一个其实它并没有看到的 “参考解” 来解决问题,回答风格变为如下图所示的情况,并紧接着性能逐渐坍塌。
RLSD 这篇论文做了两件事:理论上,作者证明了 OPSD 的目标函数是 ill-posed 的,这个训练目标中存在一个不可消除的项 mutual information gap(I (Yt; R | X, Y 0)。
不同于常规的条件一致的 OPD,OPSD 中的老师条件在特权信息上、而学生看不到这个特权信息,在这种情况下这个 gap 就永远抹不掉,KL 散度也就永远降不下去。每一步训练都在悄悄把 x→r 的虚假相关性写进参数里,最终影响梯度方向。
方法上,RLSD 给出了一个简单优雅的修复:方向交给 RLVR:环境奖励决定每个 token 是该被强化还是被惩罚,这是可靠但稀疏的信号,保证更新的大方向不要出错;幅度交给自蒸馏:用老师 / 学生的 evidence ratio 来调节每个 token 的更新力度,这是密集的信号,保证在细粒度上对于不同的 token 能给出不同的 credit 分配。
通过把 “用对方向” 和 “分清主次” 这两件本来纠缠在一起的事情解耦,RLSD 就成了 RLVR 和 OPSD 的自然的合体,既继承了 OPSD 的 token-level 密集信号,又重新拿回了 RLVR 来自环境的可靠信号锚定。
至于效果,在 Qwen3-VL-8B-Instruct 以及文本、图片、视频的 8 个 benchmark 上,同时打败了一系列的 baseline,不仅收敛速度更快,而且最终性能上限更高,200 步训练就超过 GRPO 训 400 步的水平。
如果用漫画总结就是:
NPO:让 “短暂未来后的自己” 教自己
第二篇 NPO (Near-Future Policy Optimization) 关心的是一个看起来朴素、根本的问题:为 RLVR 引入什么样的辅助学习信号能带来最大收益?
研究者把这件事抽象成了一个简洁的指标:有效学习信号 S=Q/V。
也就是说,一条好的辅助轨迹要足够强(高 Q,有新东西可学)的同时还得足够近(低 V,模型容易吸收)。
之前的方法都顾不全这一点:从外部老师导入轨迹,Q 高但 V 太大;从经验回放(Experience Replay)抓自己过去的轨迹,V 低但 Q 又被自身历史水平卡死。
NPO 的核心思想可以一句话概括:用未来的自己来引导当下的自己。简单来说,就是一个比当前更强 (沿优化方向走了若干步),但又离当前足够近 (同一条优化进程上的延伸) 的天然 teacher。
作者从理论上和实证上都证明了这种设计能最大化有效学习信号 S=Q/V。
在具体实现上,本文采用 mixed-policy 的方式:把 near-future checkpoint 产生的、被验证为正确的 trajectory 混入当前 rollout group,既加速早期 bootstrap,也帮助后期突破 plateau。
进一步,作者还提出了 AutoNPO,自动从在线训练信号里检测干预时机、自动挑选 S 最大的 guide checkpoint。
最终在 Qwen3-VL-8B-Instruct 上,GRPO 平均分从 57.88 提升到 NPO 的 62.84,AutoNPO 进一步推到 63.15,在收敛速度和最终上限上同时打败 LUFFY 等 mixed-policy 基线。


