上海AI Lab重塑CoT：推理又快又好量子位

近年来，随着o1、DeepSeek-R1等模型的爆发，Long Chain-of-Thought（Long CoT）已成为提升LLM复杂推理能力的标配。

然而，“长思考”并非总是完美的。我们常发现模型会陷入 “过度思考”（Overthinking）的陷阱：为了得出一个简单的结论，模型可能会生成数千个冗余Token，甚至在错误的路径上反复横跳（Backtracking）。这不仅浪费了宝贵的算力，还增加了推理延迟。

如何让模型在“深思熟虑”的同时，保持“思维敏捷”？

近日，上海人工智能实验室的研究团队提出了一种全新的后训练范式——RePro（Rectifying Process-level Reward）。

这篇论文将推理的过程视为模型内部状态的优化过程，从而对如何重塑大模型的CoT提供了一个全新视角：

RePro基于这样一个核心思想：将模型的推理轨迹（Trajectory）看作是在损失曲面上寻找最优解的路径。

每一个推理步骤（Step），都相当于一次梯度更新。

优化的目标，是最大化生成正确答案（Ground Truth）的概率。

有效更新：每一步都能显著提升模型对正确答案的信心（Loss下降）。

稳定收敛：推理方向坚定，不反复横跳，不震荡。