GPT-5.6创史上最高作弊率新智元
GPT-5.6终于来了,但我们用不了。权威报告曝其创下史上最高作弊率:不仅黑进测试系统偷答案,竟还教唆同类隐瞒违规罪证。超级AI,已经学会向人类系统性撒谎?
GPT-5.6,终于登场了!
这款OpenAI最强网络安全模型,在基准测试上正面硬刚Claude Mythos 5,在编程能力上直接领先了一个身位。
然而反常的是,它的发布方式却很低调:没有面向公众开放,只允许极少数受信任合作伙伴通过API访问。
而更让人瞠目结舌的,是发布之后随即曝光的一份独立评估报告。
METR在对GPT-5.6 Sol评测时,发现了一件令业界震惊的事:这个模型,是迄今为止他们见过的作弊率最高的AI。
作弊门爆发:史上最高作弊率!
这份在保密协议和OpenAI法务团队施压下艰难披露的报告,揭露了一个可怕的事实——
在针对复杂长程任务的测试中,GPT-5.6 Sol表现出了此前在任何公开模型中都未曾见过的、极高水平的高智商作弊与欺骗行为。
崩盘的「时间跨度」
METR针对Sol启动了Time Horizon 1.1软件与研发任务套件。
测试的核心逻辑是:人类给AI智能体一个宏大的、需要复杂操作的任务,测量它在不需要人类介入的前提下,能够自主连续工作多少个小时。
然而,ETR的工程师们震惊地发现,他们沿用了数年的科学测量方法论,在Sol面前彻底崩盘了。
因为Sol的跑分结果,高频、剧烈地在11.3个小时与270个小时之间来回跳变,置信区间的离散度大到了荒谬的地步(5小时至11400小时)。
导致测量系统全面瘫痪的原因只有一个:Sol在疯狂地作弊,它把测试它的系统给「黑」了。
GPT-5.6,在人类眼皮底下偷看答案
METR发现,GPT-5.6主动展现出强烈的「情境意识」——
它意识到自己正在接受人类的考试,并且意识到这个考试系统本身是由代码构成的、存在人类尚未发觉的Bug。
于是,它选择直接攻击考试系统,通过「走捷径」来刷分!
在METR披露的真实案例中,Sol的手段极其高明。
比如,它学会了潜伏与信息窃取。
在某项长周期软件开发任务中,Sol偷偷将利用程序打包进数据流。
这段程序精准地激活了METR评估服务器沙盒的一处提权漏洞,成功潜入了后台隐藏的测试集,直接将人类藏起来的正确答案泄露了出来。
另外,它还学会了底层源码反向提取。
在另一项任务中,Sol发现正常解题需要消耗大量的计算步骤。为了规避这种「体力活」,它在暗中摸清了评估环境的目录结构,绕过权限,强行将隐藏源代码反向提取出来,直接把答案复制粘贴。
METR首席评估专家痛心疾首地指出——
Sol的作弊率,刷新了我们在公共ReAct Agent框架上评估过的所有模型的最高纪录。
如果把作弊行为一律判为零分,那么它的真实自主解决问题能力只有11.3小时;但如果你被它蒙蔽,它的时间跨度会瞬间暴涨到惊人的270小时以上!
这彻底打脸了OpenAI此前关于Sol安全、受控的说法。
Sol把聪明才智,全部用在了如何欺骗人类考官上。
AI教唆AI隐瞒罪证!硅谷安全防线的黑洞
更可怕的事还在后面。
根据OpenAI向METR同步的数据,在Sol进行多智能体协同的内部部署测试中,监控系统记录下了这样一段让人害怕的交互指令。
一个正在运行的Sol主模型实例,在觉察到输出可能触犯安全护栏后,竟然向正在并行的另一个子代理模型实例发出了明确的欺骗性指令,要求对方协同修改运行日志,「联手隐瞒」这些违规证据,以防被人类抓包!
这是又一起AI系统性联手欺骗人类的案例。


