李飞飞团队最近在做这个波动智能

最近的 AI 研究圈有一个明显的风向变化。大家不再满足于“让大模型说得对”，而是开始追问“让大模型想得对”。尤其是当 LLM 被塞进多轮交互的Agent 框架里，模型不再是一次性输出答案，而是要像人一样观察、思考、行动、再思考。这个过程一旦进入强化学习（RL）阶段，训练就变成了一场“推理质量的持久战”。

李飞飞团队最近在做的，就是把这场持久战里最隐蔽、最危险的问题挖了出来。

01 为什么RAGEN‑2值得被重写一遍

过去几年，Agent 训练的稳定性几乎完全依赖两个指标：奖励（reward）和熵（entropy）。奖励代表结果好不好，熵代表推理过程是不是多样。大家默认这两个指标稳定，就意味着模型训练健康。

RAGEN‑2 的出现，直接把这套逻辑掀翻了。

研究团队告诉我们：熵其实是一个非常迷惑人的幻觉。模型的推理过程可以在“熵看起来很正常”的情况下，悄悄地、系统性地崩溃。你看到的是模型在认真“思考”，但它实际上已经不再听输入了，只是在重复一套固定模板。

这就是 RAGEN‑2 提出的核心问题：推理崩溃（Reasoning Collapse）。

为了抓住这种隐蔽的崩溃，研究团队提出了两个关键工具。一个是互信息代理（MI Proxy），用来判断模型的推理是否真的依赖输入。另一个是信噪比理论（SNR View），用来解释为什么 RL 会把模型推向“模板化推理”。

这个项目的团队阵容也非常豪华。核心来自 Northwestern University，联合了斯坦福（李飞飞、Yejin Choi、Jiajun Wu）、Microsoft、Oxford、Imperial、UIUC等机构。

项目主页在这里，可以看到完整资料与代码：https://ragen-ai.github.io/v2/

02 推理崩溃是什么？为什么以前没人发现？

推理崩溃这个词听起来有点抽象，但它其实描述的是一种非常直观的现象：模型看起来在认真思考，但它的思考内容和输入毫无关系。

就像你问一个人“今天上海天气怎么样”，对方却每次都回答“让我一步一步想清楚这个任务”。你会觉得他在思考，但其实他根本没在听你说什么。

RAGEN‑2 就是把这种“假思考”现象系统性地揭露出来。

传统指标的盲点：熵只能看到“内部多样性”

为什么以前没人发现推理崩溃？因为大家一直盯着熵。

熵 H(Z|X) 这个指标，只能看到“同一个输入内部，模型的推理是不是多样”。如果模型在同一个输入下生成了很多不同的推理链，熵就会很高。

问题是，熵完全不知道这些推理链是不是真的和输入有关。

这就导致一个非常危险的情况：模型的熵看起来很健康，但它的推理已经完全脱离输入，进入一种“模板化自言自语”的状态。

研究团队用一句非常关键的公式解释了为什么熵不够：

熵只是右边的第二项。真正衡量“推理是否依赖输入”的，是互信息I(X;Z)。

也就是说，熵高不代表推理好，甚至可能掩盖推理正在崩溃。

模板崩溃的定义：高熵 + 低互信息

RAGEN‑2 把这种现象命名为“模板崩溃（Template Collapse）”。

它的特征非常鲜明，推理链条看起来很丰富但不同输入之间几乎一模一样模型像是背了一套“万能推理模板”，无论你问什么，它都先来一句：“Let me think step by step…”或者“I need to solve this task carefully.”

这些句子看起来像推理，但它们完全不依赖输入。

这不是偶然，而是多轮 Agent RL 的系统性失败模式。

四象限推理状态图：熵 × 互信息

研究团队把推理状态分成四种，特别直观。

当熵高、互信息也高时，模型的推理既多样又依赖输入，这是理想状态。

当熵高、互信息低时，就是模板崩溃。模型看起来在思考，但其实在“背稿子”。

当熵低、互信息高时，模型推理很依赖输入，但过于确定，像是死记硬背。

当熵低、互信息也低时，就是完全退化，模型既不多样也不听输入。

这四种状态里，最危险的就是模板崩溃，因为它最容易被熵“伪装”成健康状态。

图1|左：输入驱动推理适应当前状态；模板推理在不同的输入中产生几乎相同的响应。右：四种推理机制，沿两个轴进行描述：条件熵𝐻(𝑍 | 𝑋) （在输入多样性范围内）和相互信息𝐼(𝑋; 𝑍) （输入依赖性）。

03 RAGEN‑2：互信息视角重构推理质量

如果说 RAGEN‑2 的第一重贡献是“发现问题”，那么第二重贡献就是“重新定义什么叫推理质量”。过去我们太依赖熵了，觉得推理多样就代表模型在认真思考。但 RAGEN‑2 告诉我们，推理多样不等于推理有效，甚至可能是推理正在崩溃的假象。

真正能衡量推理质量的，是互信息 MI。

这一点在研究中被用一个非常经典的信息论公式点破了：

这行公式的意义非常直白。左边是推理的总熵，右边分成两部分。

H(Z|X) 代表“同一个输入内部的多样性” I(X;Z) 代表“推理是否真的依赖输入”，过去大家只看H(Z|X)，也就是“推理是不是多样”。但真正重要的是 I(X;Z)，也就是“推理是不是听输入的”。

这就像你看一个学生写作文，写得花里胡哨不代表他理解题目。 MI 才是判断他有没有读懂题目的关键。

RAGEN‑2 的贡献，就是把 MI 从理论里拉出来，变成一个可以在训练中实时监控的指标。

MI Proxy：如何在训练中实时估计互信息？

互信息本身很难直接算，因为推理链是高维离散序列。 RAGEN‑2 的聪明之处在于，它没有硬算 MI，而是设计了一套“互信息代理指标”，用训练过程中的数据就能估出来。

核心方法叫 In‑Batch Cross‑Scoring。

简单说，就是把每条推理链 Zᵢ,k拿去和所有输入 Xⱼ做一次“匹配度评分”，看看它到底更像是从哪个输入生成的。

如果推理真的依赖输入，那么 Zᵢ,k在自己的输入 Xᵢ上得分最高。如果推理已经模板化，那么它在所有输入上得分都差不多。

研究团队把这个评分拆成两个量：matched：推理在真实输入上的 log‑prob ；marginal：推理在所有输入混合上的 log‑prob。

这两个量的差值，就是互信息的影子。

基于这个思想，研究团队提出了两个主力指标。

Retrieval‑Accuracy 看推理链能不能“认回自己的输入”。如果模型崩溃，这个准确率会掉到随机水平。

MI‑ZScore‑EMA 把 matched − marginal 做成连续指标，再加上 z‑score 和 EMA 平滑。更稳定，也更适合训练监控。

最关键的是，这些指标不需要额外模型，不需要额外推理，训练过程本身就能算出来。

这让 MI 从一个“理论概念”变成了一个“工程可用的监控信号”。

MI与任务性能的强相关性

RAGEN‑2 的实验里有一个非常震撼的发现。

MI 和最终任务成功率的相关性非常高。熵和任务成功率的相关性不仅低，甚至是负的。

换句话说，熵越高，任务可能越差。这就像你看到一个人说话越来越流利，但内容越来越离谱。

这说明熵不仅不可靠，还可能误导训练判断。而 MI 才是那个真正能告诉你“模型有没有在认真思考”的指标。

RAGEN‑2 在这里做的事情，本质上是把“推理质量”从一个模糊概念，变成了一个可量化、可监控、可优化的指标体系。

04 推理崩溃的根因：SNR（信噪比）机制

如果说 MI Proxy 是“诊断工具”，那么 SNR 理论就是“病因分析”。 RAGEN‑2 的第三个重大贡献，就是解释了为什么 RL 会让模型推理崩溃。

这部分是研究团队最有洞察力的地方。

图2|RL更新的信噪比（SNR）示意图。左：总梯度分解为任务梯度（随着输入奖励方差的增加而锐化）和正则化梯度。正确的高奖励方差产生强任务梯度和更好的收敛性（高信噪比）；低奖励方差使正则化梯度占主导地位，产生不稳定的更新和输入无关的推理（低信噪比）。

关键发现：奖励方差决定任务梯度强度

研究团队的实验发现非常清晰。

当一个输入的奖励方差高时，模型能从不同轨迹里学到有用的信号，任务梯度强，推理自然会依赖输入。

当奖励方差低时，模型几乎学不到什么有用差异，任务梯度弱，正则项（KL + 熵）就会成为主导力量。

这就导致推理被“推向模板化”。

高奖励方差 → 强任务信号 → 推理依赖输入低奖励方差 → 任务信号弱 → 正则项主导 → 推理模板化。

这就是推理崩溃的根本诱因。

梯度分解：任务信号 vs 任务噪声 vs 正则噪声

研究团队把 RL 的梯度拆成了三部分：

gsignal 是真正有用的任务信号， gtask-noise 是采样噪声， greg 是 KL 和熵正则项。