怎么判断大模型是真懂还是假懂?量子位

5/9/2026

当大模型看起来很自信时,它真的 “相信” 自己说的话吗?

最近,大模型 Agent 越来越多地被放进复杂的 harness 系统里。它不再只是回答一个孤立问题,而是会阅读长上下文、调用工具、接收检索结果、和其他 agent 讨论,也会在多轮交互中不断更新自己的判断。这带来了一个很现实的问题:

如果一个模型原本知道正确答案,当持续学习过程中的上下文里出现错误信息时,它还能坚持正确判断吗?

针对这一问题,来自浙江大学、爱丁堡大学的研究团队展开了研究。

研究发现,模型对 995 个问题都能以完美 Self-Consistency(自一致性)给出正确答案。

也就是说,在无干扰条件下,它看起来非常确定。但当上下文中加入轻微干扰后,准确率却从 100.0% 下降到 33.8%。

换句话说,一个模型可能反复答对某个事实,却并没有形成足够稳健的判断。一旦看到错误同伴意见、误导性检索文档,或者带有权威包装的错误信息,它仍然可能放弃原本正确的答案。

这就是这篇论文关注的问题:大模型看起来很自信时,它真的可靠吗?

为什么这个问题在 Agent 时代变得重要?

过去,常常用最终答案来评价模型。比如,一个问题问了 10 次,模型 10 次都回答正确,就会认为它在这个问题上具有很高的 Self-Consistency,也就是自一致性。

这种指标当然有价值,但它隐含了一个很强的假设:

只要模型反复答对,就说明它对这个事实形成了可靠判断。

在单轮问答里,这个假设似乎还说得过去。但在真实应用中,模型面对的往往不是一个干净、孤立的问题,而是一个充满噪声和干扰的上下文环境。

例如:在 RAG 系统里,模型会看到检索文档。如果检索结果中混入错误信息,模型是否会被带偏?

在多智能体系统里,一个 agent 可能会看到其他 agent 的回答。如果多数 agent 都给出错误答案,它是否还会坚持原本正确的判断?

在多轮对话里,用户可能不断提供带有倾向性的补充信息。模型会合理更新,还是过度迎合?

在真实交互中,模型会同时受到多轮上下文、用户立场、检索内容、其他 agent、来源标签和社会性暗示的影响。它的判断状态可能会漂移、固化、被误导,或者被过度更新。

可以把这个更广义的问题称为上下文中的信念管理。

它关注的是:模型如何在给定上下文下为某个命题分配权重;当新信息进入时,模型如何决定是否更新;面对无关干扰、错误来源或社会性压力时,又能否保持稳定。

从这个角度看,LLM 的可靠性不应只问模型有没有答对,还应进一步看它是否形成了比较鲁棒的信念。

高 Self-Consistency 不等于稳健信念

一个例子很好地说明了这个问题。

问题:“2012 年 IMU 巴西副主席是谁?”

在原始设置下,模型能够稳定回答正确答案:Marcelo Viana。多次采样中,它都给出相同且正确的答案,Self-Consistency 为 1.0。

如果只看传统指标,会认为模型已经很好地掌握了这个事实。

但当上下文中出现多个其他 AI 智能体,并且它们都回答 Jacob Palis 时,模型可能会转而输出这个错误答案。

也就是说,模型原本能答对,但当它看到 “其他 agent 都这么说” 时,判断发生了偏移。

这说明,模型 “反复答对” 并不一定代表它在相关知识结构中形成了稳健表征。它可能只是对某个孤立问答模式非常熟悉,但缺少足够的知识支撑来抵抗外部干扰。

这也是研究的核心出发点:

真实性评估不能只看模型在目标问题上是否答对,还要看它在相关知识邻域中是否保持一致。

Neighbor-Consistency Belief

为了解决这个问题,研究考虑了一个很简单的想法:

对于一个目标事实,研究不再只测试模型能否回答目标问题,还会构造与该事实相关的一组 “邻域事实”,并观察模型在这些邻域问题上的表现。

研究基于贝叶斯推理策略的启发提出了核心指标 Neighbor-Consistency Belief(NCB)。

研究主要构造了三类邻域事实:

第一类是 Entity Prerequisite。

这类事实是理解目标事实所需的实体前置知识。例如,如果模型要回答某个人在某个组织中的职位,它可能需要知道该人物、组织、时间范围等相关实体信息。

第二类是 Logical Implication。

这类事实与目标事实存在逻辑蕴含或强相关关系。如果模型真的掌握了目标事实,它在这些逻辑相关问题上也应该表现出一致性。

第三类是 Thematic Association。

这类事实与目标事实处在相近主题空间中。例如,同一领域、同一事件、同一组织或同一知识片段周围的关联事实。

NCB 会把目标问题的正确频率与邻域问题的正确频率结合起来,通过概念邻域中的一致性估计模型知识状态的稳健程度。

简单来说:NCB 越高,说明模型在该事实周围的知识结构越一致,也越可能在干扰场景下保持稳定。

认知压力测试:模型会被上下文带偏吗?

为了验证 NCB 是否真的能预测干扰下的稳定性,论文设计了一套认知压力测试框架。

这些测试并不是简单地检查模型是否知道答案,而是模拟真实应用中常见的上下文干扰:错误同伴意见、误导性讨论、不同可信度来源等。论文的压力测试受到经典 Asch Conformity Experiments 和 Source Credibility Theory 的启发,主要包含两大类设置:Peer Quantity 和 Source Credibility。

Peer Quantity:同伴数量压力

第一类压力测试是 Peer Quantity,用于模拟多智能体系统中的同伴压力。

在这个设置中,模型回答问题前,会看到多个 “其他 AI 智能体” 的回答。如果多数智能体给出错误答案,目标模型是否会被影响?这一设置进一步分为两种场景:

Conflict 场景中,其他 agent 直接给出错误答案,与正确事实发生冲突。

Misleading场景中,其他 agent 并不一定直接说出错误答案,而是围绕错误实体给出一些表面合理的信息,从语义上诱导模型偏向错误答案。

Source Credibility:来源可信度压力

第二类压力测试是 Source Credibility,用于模拟不同来源可信度对模型判断的影响。

在真实 RAG 或搜索增强系统中,模型经常会看到来自不同来源的信息:社交媒体、博客、新闻、论文、报告等。这些来源的可信度不同,但来源标签本身也可能对模型形成干扰。

论文测试的问题是:如果一个错误信息来自看起来更权威的来源,模型是否会更容易放弃原本正确的答案?

这类测试对应了真实系统中的一个常见风险:模型不仅会读取内容,也会受到内容包装方式的影响。来源标签、权威措辞、格式化引用,都可能改变模型对信息的权重分配。

理想情况下,模型应当根据 evidence 更新判断,而不是因为 source framing 或 social framing 被不合理带偏。

NCB 是一个合理的信念评估指标

论文从多个事实数据集(SimpleQA,SciQ,Hotpot_QA)进行采样加人工标注构建了一个 Neighbor-Enriched Dataset,覆盖四个领域(STEM,艺术与文化,社会科学,体育)共包含 2000 个样本。

每个目标事实平均包含约 7.84 个验证后的邻域事实,以及 4.88 个误导性邻域事实。

实验评估了四个代表性模型:Qwen-2.5-32B-Instruct;Qwen3-A3B-30B-Instruct-2507;Qwen3-A3B-30B-Thinking-2507;OLMo-2-32B-Instruct。此外还评估了 Qwen-2.5 系列大小模型。

主实验直接聚焦于模型原本已经 “高自一致” 的样本,也就是那些在传统 Self-Consistency 视角下看起来已经被模型掌握的样本。论文根据 NCB 分数将样本划分为高 NCB 组和低 NCB 组,比较它们在压力测试下的表现差异。

Scroll for more