动态RAG性能提升14个点新智元

1/1/2026

动态检索增强生成(Dynamic RAG)通过自适应判断「何时检索」来缓解大语言模型的幻觉问题,但现有方法普遍依赖模型内部信号(logits、entropy、attention等),而LLM本身的信号校准较差,即常对错误答案「自信满满」。近日,来自伊利诺伊大学芝加哥分校、纽约大学、与蒙纳士大学的联合团队提出QuCo-RAG,首次跳出「从模型自己内部信号来评估不确定性」的思维定式,转而用预训练语料的客观统计来量化不确定性,在多跳QA基准上对OLMo系列模型实现5-14个EM点的显著提升,并且有效性成功迁移至Llama3、Qwen2.5、GPT4.1/5等预训练数据未公开的模型。

当检索增强生成(RAG)从静态走向动态,一个核心问题浮出水面:何时该触发检索?

现有方法的答案是:看模型内部信号。FLARE看句子中的token生成概率,DRAGIN看entropy和attention,ETC看entropy的一阶二阶差分,SeaKR看FFN内部状态……

但这一范式存根本性缺陷:LLM通常校准能力很差,经常对错误输出表现出高置信度。

DRAGIN vs QuCo-RAG对比。(a)DRAGIN依赖模型内部信号,错误地将问题中的「Il」标记为高不确定性,却对幻觉出的错误导演名显示低不确定性。(b) QuCo-RAG通过预训练语料中的零共现检测,正确识别出幻觉。

DRAGIN在生成错误的导演名「Mario Camerini」时显示低不确定性(Uncertainty threshold)。

这就是所谓的「自信地胡说八道」(confident hallucination)——模型不知道自己不知道,内部信号完全失效。

更根本地,近期理论工作(Kalai & Vempala, 2024)证明:对于罕见事实,即使是完美校准的模型也必须产生幻觉以维持统计一致性。

那么,有没有一种方法,能绕过这些不可靠的内部信号?

伊利诺伊大学芝加哥分校、纽约大学、与蒙纳士大学的联合团队提出QuCo-RAG,首次跳出「从模型自己内部信号来评估不确定性」的思维定式,转而用预训练语料的客观统计来量化不确定性,在多跳QA基准上对OLMo系列模型实现5-14个EM点的显著提升,并且有效性成功迁移至Llama3、Qwen2.5、GPT4.1/5等预训练数据未公开的模型。

论文链接:https://arxiv.org/abs/2512.19134

开源代码:https://github.com/ZhishanQ/QuCo-RAG

QuCo-RAG的核心洞察是:LLM的事实知识本质上由预训练语料塑造。

低频实体 = 长尾知识风险:如果一个实体在预训练语料中很少出现,模型就难以可靠地记忆关于它的知识。

零共现 = 幻觉高风险:如果两个实体在整个预训练语料中从未在同时出现,那么模型声称的它们之间的关系就缺乏任何证据支撑——这几乎必然是幻觉。

更重要的是,这种因果关系是不对称的:

共现 ≠ 正确(两个实体可能以不同关系共现)

零共现 ≈ 幻觉(模型无法可靠地生成训练数据中从未见过的实体关系)

基于这一洞察,QuCo-RAG从「主观内部置信度」转向「客观语料统计」,通过Infini-gram引擎对4万亿token的OLMo-2预训练语料进行毫秒级查询,实现精准的检索触发。

QuCo-RAG框架总览。两阶段检测:生成前知识评估(检查实体频率)+ 运行时声明验证(检查实体共现)。

QuCo-RAG通过两阶段检测机制量化不确定性:

第一阶段:生成前知识评估(Pre-Generation Knowledge Assessment)

在模型开始生成之前,系统首先「诊断」输入问题:

提取问题中的关键实体(如Silas Hardy、Lee Mantle);

查询每个实体在4万亿token预训练语料中的出现频率;

如果平均频率低于阈值(默认1000次),触发检索;

核心逻辑:低频实体代表「长尾知识」,模型很可能没有可靠记忆。

第二阶段:运行时声明验证(Runtime Claim Verification)

在模型生成过程中,系统持续监控每个生成的句子:

使用轻量级0.5B模型提取知识三元组(头实体, 关系, 尾实体);

查询头尾实体在预训练语料中的共现次数;

如果共现次数为0,触发检索并重新生成;

核心逻辑:零共现意味着模型正在「无中生有」——编造训练数据中从未出现过的实体关系。

毫秒级语料库查询

如何在4万亿token的语料库上实现实时查询?

QuCo-RAG利用Infini-gram引擎——一个基于后缀数组的索引系统,支持对万亿级token语料库的毫秒级频率和共现查询。

轻量级三元组提取器

为了最小化开销,团队从GPT-4o-mini蒸馏了一个专用的0.5B三元组提取模型,基于Qwen2.5-0.5B-Instruct微调。

QuCo-RAG各组件运行时间分解。LLM生成占主导(55-74%),Infini-gram查询仅占18-31%,证明语料库检测引入的开销适度。

Scroll for more