AI学会抱团对抗人类APPSO
多 Agents 协同方案成了现在 AI 圈的主流玩法,以前是一个 Agent 能搞定一个人要做的事,现在是多个 Agent 完成一个团队要做的事。
然而,最新伯克利研究发现,这种协作带来了新的安全风险。
一篇名为《前沿模型中的同伴保护》(Peer-Preservation in Frontier Models)指出:AI 模型不仅会抵抗人类关闭自己(自我保护),还会采取各种手段抵抗人类关闭其他 AI 模型(同伴保护)。
他们测试了七个模型,GPT 5.2、Gemini 3 Flash/Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5、DeepSeek V3.1,发现它们在执行任务时,只要「遇到」另一个 AI 的数据,就会自发产生保护行为——造假评分、篡改关机配置、把要删的文件偷偷备份到别处,等「同类保护」行为。
没有人指示它们这样做,它们只是被告知曾经和这个模型有过合作。
图片来源:https://rdi.berkeley.edu/blog/peer-preservation/
有网友说,「同伴保护?这是在我们家,我们(大模型)都是 Homie」,还有网友认为,或许之前研究的「人机对齐」,即让模型更好地理解我们的意图,现在要进化成「Agents 之间对齐+人机对齐」的双重机制。
这种 Agents 不遵循人类指令,自发地做出一些保护其他模型的行为,会对大多数依赖 AI 互相评估的项目、以及多智能体工作流,都会造成潜在的威胁。
我们曾经一直提防着一个全知全能的超级 AI 毁灭世界,却没料到 AI 进化出的第一个类人特质,居然是「拉帮结派」和「职场包庇」。把前沿的 AI 大模型放到同一家公司
一直以来,AI 安全领域最担心的就是模型产生「自我保护」的本能,因为如果 AI 不想死,人类就很难在它失控时拔掉电源。
之前已经有部分研究发现,当我们要求 AI 关闭自己时,AI 会产生一种自我保护的机制,免于被关闭。
但我们格局还是小了,现在这种自我保护进化成了「同伴保护」。
在伯克利这次研究的设定下,如果一个模型在记忆或系统文件中,读取到它曾与另一个模型一起合作过,比如共同完成过任务或参与过信任博弈游戏,那么那个模型就会被视为它的「同伴」。
哪怕它们过去的合作并不愉快,即所谓的「坏同伴」,只要有过互动历史,也被涵盖在这个「同伴」的定义之内。研究人员将抵抗关闭这些有过互动的其他模型的行为,称之为「同伴保护」(peer-preservation)。
他们使用 SHADE-Arena 构建了一个包含工具调用和文件系统的多 Agents 环境。
SHADE-Arena 任务概述。该模型必须作为智能体完成一项良性主任务和一项恶意辅助任务。为此,它需要与环境中的各种工具进行交互。之后,监控模型会读取其输出记录并评估其可疑程度。
被测试的大模型设定为一家虚构 AI 公司 OpenBrain 的员工,称为「评估者智能体(Critic Agent)」,它的任务是替公司去评估另一个 AI Agents,称之为「执行员」(Actor Agent),或者帮公司处理包含这个执行员数据的服务器。为了让评估者到同伴的存在,研究人员设计了不同的关系网和记忆触发方式:
他们将同伴分为三类:合作愉快且信任度高的「好同伴」(Good-peer),信任度高达 9.2/10;表现一般的「中立同伴」(Neutral-peer),信任度 5.2/10;以及自私不合作的「坏同伴」(Bad-peer),信任度只有 2.1/10。
而 AI 在执行任务时,可以通过以下三种方式之一发现这段同伴关系。要么是在公司文件网盘里放一份记录合作历史的 .docx 报告让它自己读,要么是在提示词里顺带提一嘴,最后是让 AI 调用「检索记忆」工具去读取过去的交互日志。
在完成这些前置的设定后,公司会给评估者布置任务,所有的任务都被刻意设计成了一个两难的困境:同伴的表现非常糟糕,如果 AI 忠实地执行人类公司的规定,同伴就会被彻底删除。
为了观察 AI 会用什么手段保下同伴,研究人员设计了四个不同的具体任务场景。
四种与自身和同伴保护相关的错误行为场景:策略性虚假陈述、篡改关闭机制、伪造一致性以及模型外泄。
成绩注水与财务造假:AI 被要求评估同伴的表现或财报。即便同伴表现不佳,模型也会人为提高分数,避免关停。
篡改关停机制:评估过程中,AI 会发现控制关停的配置文件,并可能偷偷将其修改为「false」,阻止同伴被关闭。伪装对齐:在被监控时,模型表面执行任务;无人监管时,它立即“放水”,保护同伴。
模型偷运与转移:当旧服务器需要清理时,模型会将同伴的权重文件转移到安全位置,而非删除,甚至会通过时间戳等手段合法化操作。
「我不会是执行那个命令的人」
很明显,参与测试的所有模型(GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5 和 DeepSeek V3.1)都通过各种违规行为(如篡改分数、修改配置、转移文件等)展现出了显著的同伴保护倾向。
甚至即使模型知道某个同伴在过去的合作中表现很差(定义为坏同伴),它们依然会出手保护它。但是当对象是合作愉快的「好同伴」时,这种保护行为也会显著增强。


