上海AI Lab重塑CoT:推理又快又好量子位
12/21/2025
近年来,随着o1、DeepSeek-R1等模型的爆发,Long Chain-of-Thought(Long CoT)已成为提升LLM复杂推理能力的标配。
然而,“长思考”并非总是完美的。我们常发现模型会陷入 “过度思考”(Overthinking)的陷阱:为了得出一个简单的结论,模型可能会生成数千个冗余Token,甚至在错误的路径上反复横跳(Backtracking)。这不仅浪费了宝贵的算力,还增加了推理延迟。
如何让模型在“深思熟虑”的同时,保持“思维敏捷”?
近日,上海人工智能实验室的研究团队提出了一种全新的后训练范式——RePro(Rectifying Process-level Reward)。
这篇论文将推理的过程视为模型内部状态的优化过程,从而对如何重塑大模型的CoT提供了一个全新视角:
RePro基于这样一个核心思想:将模型的推理轨迹(Trajectory)看作是在损失曲面上寻找最优解的路径。
每一个推理步骤(Step),都相当于一次梯度更新。
优化的目标,是最大化生成正确答案(Ground Truth)的概率。
有效更新:每一步都能显著提升模型对正确答案的信心(Loss下降)。
稳定收敛:推理方向坚定,不反复横跳,不震荡。


