OpenAI这招太狠:AI从「躲猫猫」到「自爆黑料」新智元
12/21/2025
随着AI越来越强大并进入更高风险场景,透明、安全的AI显得越发重要。OpenAI首次提出了一种「忏悔机制」,让模型的幻觉、奖励黑客乃至潜在欺骗行为变得更加可见。
当AI越来越聪明时,也变得越来越难以掌控。
一本正经地胡说八道:幻觉(Hallucination)
为了拿高分找训练机制的漏洞:奖励黑客(reward hacking)
在对抗测试里出现「密谋欺骗」(scheming)
最大的问题,就是这些AI的回答往往看起来没问题。
它们逻辑严谨、表述流畅,但不知道「坑」埋在了哪里:是不是走了捷径、隐瞒了不确定性、或者偷偷违反了要求。
于是OpenAI的研究者就提出了一个非常大胆的点子:
该项研究的核心,是训练模型在回答完问题后,再额外产出一个自我坦白的「小报告」:


