OpenAI这招太狠：AI从「躲猫猫」到「自爆黑料」新智元

随着AI越来越强大并进入更高风险场景，透明、安全的AI显得越发重要。OpenAI首次提出了一种「忏悔机制」，让模型的幻觉、奖励黑客乃至潜在欺骗行为变得更加可见。

当AI越来越聪明时，也变得越来越难以掌控。

一本正经地胡说八道：幻觉（Hallucination）

为了拿高分找训练机制的漏洞：奖励黑客（reward hacking）

在对抗测试里出现「密谋欺骗」（scheming）

最大的问题，就是这些AI的回答往往看起来没问题。

它们逻辑严谨、表述流畅，但不知道「坑」埋在了哪里：是不是走了捷径、隐瞒了不确定性、或者偷偷违反了要求。

于是OpenAI的研究者就提出了一个非常大胆的点子：

该项研究的核心，是训练模型在回答完问题后，再额外产出一个自我坦白的「小报告」：