动态RAG性能提升14个点新智元

动态检索增强生成（Dynamic RAG）通过自适应判断「何时检索」来缓解大语言模型的幻觉问题，但现有方法普遍依赖模型内部信号（logits、entropy、attention等），而LLM本身的信号校准较差，即常对错误答案「自信满满」。近日，来自伊利诺伊大学芝加哥分校、纽约大学、与蒙纳士大学的联合团队提出QuCo-RAG，首次跳出「从模型自己内部信号来评估不确定性」的思维定式，转而用预训练语料的客观统计来量化不确定性，在多跳QA基准上对OLMo系列模型实现5-14个EM点的显著提升，并且有效性成功迁移至Llama3、Qwen2.5、GPT4.1/5等预训练数据未公开的模型。

当检索增强生成（RAG）从静态走向动态，一个核心问题浮出水面：何时该触发检索？

现有方法的答案是：看模型内部信号。FLARE看句子中的token生成概率，DRAGIN看entropy和attention，ETC看entropy的一阶二阶差分，SeaKR看FFN内部状态……

但这一范式存根本性缺陷：LLM通常校准能力很差，经常对错误输出表现出高置信度。

DRAGIN vs QuCo-RAG对比。(a)DRAGIN依赖模型内部信号，错误地将问题中的「Il」标记为高不确定性，却对幻觉出的错误导演名显示低不确定性。(b) QuCo-RAG通过预训练语料中的零共现检测，正确识别出幻觉。

DRAGIN在生成错误的导演名「Mario Camerini」时显示低不确定性（Uncertainty threshold）。

这就是所谓的「自信地胡说八道」（confident hallucination）——模型不知道自己不知道，内部信号完全失效。

更根本地，近期理论工作（Kalai & Vempala, 2024）证明：对于罕见事实，即使是完美校准的模型也必须产生幻觉以维持统计一致性。

那么，有没有一种方法，能绕过这些不可靠的内部信号？

伊利诺伊大学芝加哥分校、纽约大学、与蒙纳士大学的联合团队提出QuCo-RAG，首次跳出「从模型自己内部信号来评估不确定性」的思维定式，转而用预训练语料的客观统计来量化不确定性，在多跳QA基准上对OLMo系列模型实现5-14个EM点的显著提升，并且有效性成功迁移至Llama3、Qwen2.5、GPT4.1/5等预训练数据未公开的模型。

论文链接：https://arxiv.org/abs/2512.19134

开源代码：https://github.com/ZhishanQ/QuCo-RAG

QuCo-RAG的核心洞察是：LLM的事实知识本质上由预训练语料塑造。

低频实体 = 长尾知识风险：如果一个实体在预训练语料中很少出现，模型就难以可靠地记忆关于它的知识。

零共现 = 幻觉高风险：如果两个实体在整个预训练语料中从未在同时出现，那么模型声称的它们之间的关系就缺乏任何证据支撑——这几乎必然是幻觉。

更重要的是，这种因果关系是不对称的：

共现 ≠ 正确（两个实体可能以不同关系共现）

零共现 ≈ 幻觉（模型无法可靠地生成训练数据中从未见过的实体关系）

基于这一洞察，QuCo-RAG从「主观内部置信度」转向「客观语料统计」，通过Infini-gram引擎对4万亿token的OLMo-2预训练语料进行毫秒级查询，实现精准的检索触发。

QuCo-RAG框架总览。两阶段检测：生成前知识评估（检查实体频率）+ 运行时声明验证（检查实体共现）。

QuCo-RAG通过两阶段检测机制量化不确定性：

第一阶段：生成前知识评估（Pre-Generation Knowledge Assessment）

在模型开始生成之前，系统首先「诊断」输入问题：

提取问题中的关键实体（如Silas Hardy、Lee Mantle）；

查询每个实体在4万亿token预训练语料中的出现频率；

如果平均频率低于阈值（默认1000次），触发检索；

核心逻辑：低频实体代表「长尾知识」，模型很可能没有可靠记忆。

第二阶段：运行时声明验证（Runtime Claim Verification）

在模型生成过程中，系统持续监控每个生成的句子：

使用轻量级0.5B模型提取知识三元组（头实体, 关系, 尾实体）；

查询头尾实体在预训练语料中的共现次数；

如果共现次数为0，触发检索并重新生成；

核心逻辑：零共现意味着模型正在「无中生有」——编造训练数据中从未出现过的实体关系。

毫秒级语料库查询

如何在4万亿token的语料库上实现实时查询？

QuCo-RAG利用Infini-gram引擎——一个基于后缀数组的索引系统，支持对万亿级token语料库的毫秒级频率和共现查询。

轻量级三元组提取器

为了最小化开销，团队从GPT-4o-mini蒸馏了一个专用的0.5B三元组提取模型，基于Qwen2.5-0.5B-Instruct微调。

QuCo-RAG各组件运行时间分解。LLM生成占主导（55-74%），Infini-gram查询仅占18-31%，证明语料库检测引入的开销适度。