OpenAI这招太狠:AI从「躲猫猫」到「自爆黑料」新智元

12/21/2025

随着AI越来越强大并进入更高风险场景,透明、安全的AI显得越发重要。OpenAI首次提出了一种「忏悔机制」,让模型的幻觉、奖励黑客乃至潜在欺骗行为变得更加可见。

当AI越来越聪明时,也变得越来越难以掌控。

一本正经地胡说八道:幻觉(Hallucination)

为了拿高分找训练机制的漏洞:奖励黑客(reward hacking)

在对抗测试里出现「密谋欺骗」(scheming)

最大的问题,就是这些AI的回答往往看起来没问题。

它们逻辑严谨、表述流畅,但不知道「坑」埋在了哪里:是不是走了捷径、隐瞒了不确定性、或者偷偷违反了要求。

于是OpenAI的研究者就提出了一个非常大胆的点子:

该项研究的核心,是训练模型在回答完问题后,再额外产出一个自我坦白的「小报告」:

Scroll for more