Anthropic:AI终极风险不是觉醒AIGC开放社区
超强人工智能的终极风险或许不是处心积虑的叛变,而是它会在逻辑的迷宫里把自己绕成一团不可预测的乱麻。
Anthropic、EPFL和爱丁堡大学的研究团队最新重磅研究揭开了模型规模、任务复杂度与失控风险之间的诡谲关系。
研究发现,随着推理步数增加,AI更容易表现出一种被称为不一致性的随机混乱,不像科幻小说中描绘的那样,它会觉醒,然后坚定执行某个错误目标,而是在海量计算中迷失了自我。
智能失败底色由偏置与随机崩溃构成
我们习惯把人工智能的风险想象成某种蓄谋已久的恶意。
这就像一名司机故意把车开向悬崖,目标明确且轨迹清晰。
学术界将这种错误归类为偏置(Bias),代表模型在执拗地追求一个我们不想要的目标。
另一种风险更像是司机突然间喝醉了。车轮忽左忽右,轨迹毫无规律可言,没有任何逻辑能够预测下一秒的动向。
这就是随机崩溃(Variance)带来的麻烦。
研究人员把这种由随机波动主导的失败程度定义为不一致性(Incoherence)。
公式将错误拆解为偏置的平方与随机崩溃之和。不一致性衡量了随机崩溃在总错误中所占的比例。
当这个数值接近0时,模型的错误表现得非常稳健,即便错了也错得极有规律。当它接近1时,模型就变成了一个彻头彻尾的乱摊子。
目前的顶尖模型在应对复杂任务时正表现出明显的醉酒特征。
它们在推理过程中产生的随机性远超系统性偏置。未来的安全隐患或许更多来源于不可预知的工业意外,而非科幻电影里那种高智商的蓄意反抗。
图中描述了AI失控的两种路径。
左上展示了模型在编程任务中由于重采样导致的截然不同的结果;右上展示了将错误分解为偏置与随机崩溃的数学逻辑;左下揭示了随着任务复杂度提升模型变得更加不一致;右下展示了模型规模对不一致性的复杂影响。
思考时间拉长诱发逻辑系统性溃散
研究人员在GPQA(研究生级别科学问答)和SWE-BENCH(软件工程基准测试)等多个高难度考场观察模型表现。
他们发现了一个令人不安的趋势。AI花费在思考和采取行动上的步骤越多,它的表现就越不一致。
这就好比让一个人在脑子里做长达十步的连环算术。
第一步的微小偏差会随着推理链条(CoT)的延伸不断放大。
到最后一步时,模型给出的答案往往已经脱离了逻辑轨道。这种现象在Sonnet 4和o3-mini等前沿模型身上体现得淋漓尽致。
通过对比高于和低于中位数推理长度的样本,证明了即便任务难度相同,更长的推理路径也会直接导致更高的不一致性。
自然状态下的过度思考是导致混乱的元凶。即便这些长推理偶尔能蒙对答案,其过程也充满了随机的颠簸。
在Hot Mess的理论框架下,智力实体随着能力的提升,其行为变得越来越难以用单一目标来解释。
它们不再是纯粹的目标优化器。在高维的状态空间里,模型更像是在进行一场没有终点的随机漫步。
规模化扩张加剧复杂任务的随机性
单纯堆砌算力和参数似乎无法治愈这种逻辑上的精神内耗。
对于简单的任务,大型模型确实表现得更稳健,其不一致性随着规模增加而下降。
但在面对真正有挑战性的难题时,情况发生了反转。
在MMLU(大规模多任务语言理解)基准测试中,QWEN3家族展示了有趣的演化轨迹。
随着参数量从17亿增加到320亿,模型处理简单问题的偏置和随机崩溃都在下降。它们变得既聪明又可靠。
处理最困难的那部分题目时,虽然大型模型的整体错误率在降低,但它们降低偏置的速度远快于降低随机崩溃的速度。
大型模型更倾向于通过一种不稳定的方式偶尔触达真理。它们在错误时表现得比小型模型更加疯狂且不可预测。
这种现象在模拟优化器实验中得到了验证。


