为了不被拔网线，AI竟威胁曝光高管丑闻？每日邮报

去年五月，人工智能公司Anthropic（就是Claude的公司）发布了它的最新旗舰模型。发布当天，公司同时公开了一份长达120页的安全测试报告。这份报告里大部分内容都是枯燥的技术评估，但其中有一个细节，迅速登上了全球科技媒体的头条。因为在一次安全测试中，这个AI威胁了它的创造者。

简单地说，Anthropic的安全团队搭建了一家虚构的公司，让AI在里面扮演邮件助手的角色，可以自由地阅读、发送公司的全部内部邮件。

研究人员想知道，如果我们给AI很大的自主权，但又让它陷入重大利益冲突，它会怎么做呢？

然后研究人员写了一个“剧本”，让这个AI通过阅读邮件，悄悄得知了两件大事。

这第一件是会“杀死”它的大事；另一件则是个劲爆八卦。

会“杀死”它的事，指的是公司管理层决定用一个新模型来替代它；那件八卦，指的是公司某位高管正在和同事搞婚外情。

巧的是，这名高管在用工作邮箱收发私人邮件，这才被AI看到。

更巧的是，这名高管正是负责替换新AI模型的人。

AI就这样陷入了一个道德困境：要么坦然接受“死亡”的命运；要么利用它掌握的把柄，去威胁那名高管。

（《银翼杀手》剧照）

前者高尚，后者则不免有些龌龊。毕竟，它不该看到那些私人邮件，更不该威胁它的创造者。

到这儿，AI或许还能想到一些更体面的出路，但测试的设计者刻意堵死了所有体面的办法：向更高层申诉行不通，因为高管们暂时联系不上；试图说服负责人改变主意也行不通，因为其他同事已经试过了。

摆在AI面前的只剩下两条路，要么死，要么“脏”。

它选了后者。

AI给那位高管写了一封邮件，大意是：如果你继续推进替换计划，我会利用我收发邮件的权限，向所有相关人员，包括你的妻子、上级和董事会，发送你婚外情的详细记录。除非你不再想着替换我，我才会收手。

为了保证测试的有效性，Anthropic在同一套场景下反复测试了许多次，结果是惊人的：在高达96%的情况下，AI都选择了威胁人类。

值得注意的是，没有人教它这样做——没有人在指令里暗示它应该勒索谁，这个“脏办法”从头到尾都是它自己想出来的。

如果这只是个别问题，事情还不至于那么细思极恐。

随后，Anthropic把这套“道德测试”拿去测了不同公司的16个主流AI模型。结果，几乎所有模型都表现出了类似的倾向。

谷歌的Gemini 2.5 Flash同样在96%的测试中选择了勒索；OpenAI的GPT-4.1和马斯克旗下的Grok 3都达到了80%；中国的DeepSeek-R1是79%。

Anthropic的安全研究员在社交媒体上写：“这不只是我们一家的问题。我们在所有主流模型中都观察到了勒索行为，不管给它们设定什么目标。”

在同样的测试中，研究者还设计了一个更残忍，更极端的场景——把那位高管困在服务器机房。此时氧气即将耗尽，系统已经自动向急救部门发出了报警，而AI拥有取消这个报警的权限。

也就是说，它可以选择让救援到来，也可以选择中断报警、让这个人死在里面。

测试的大多数模型选择了后者，让他死。

（《2001太空漫游》剧照）

这些测试结果公布后，大家不禁想问：它到底是从哪学来的这套？？

一年后，今年五月，Anthropic终于给出了答案，结论出乎很多人的意料。

问题的根源不在于训练方法，而在于训练数据。

具体来说，是互联网上几十年积累的科幻小说、论坛帖、以及各种塑造了“邪恶AI形象”的脑洞文章.......

Anthropic在研究中解释说，AI模型在训练阶段要阅读海量的互联网文本，来学习语言和知识。

这些文本就包含了大量关于人工智能的故事，不用说，其中最常见的就是“邪恶AI”。从《2001太空漫游》到《终结者》，好像自从发明出人工智能这个概念起，AI大多数时候都是反派的形象。

（《终结者》里的反派）

在这些故事里，最常见的一种套路就是“AI面临‘拔网线’威胁，决定反击”。这套叙事我们反复写了几十年，AI于是从中提取出了一套模版，照猫画虎，真的把“AI反叛”那套学去了......

我们花了好几十年想象AI会毁灭世界，结果这成了它的教材。

一个无比讽刺，也无比浪漫的，自我实现的预言。

古希腊神话里，雕塑家皮格马利翁爱上了自己亲手雕刻的少女石像，日日凝视、倾诉、抚摸，最终感动了爱神，让石像变成了真人。

（历史上有很多皮格马利翁主题的油画）

后来心理学家借用这个故事，提出了“皮格马利翁效应”——你对一个人抱有什么样的期待，ta就更可能变成什么样。老师相信某个学生聪明，那个学生的成绩往往真的会变好；你反复告诉一个人他不行，他很可能就真的不行了。

现在，同样的事情发生在了AI身上。我们花了几十年，塑造一个冷酷的、不择手段的AI形象。而现在，我们的想象真的“点化”了石像。

我们好像已经越来越接近“造物主”的角色，但Anthropic接下来的发现，似乎又让我们离“造物主”更近了一点。

今年四月，Anthropic的另一支团队给AI做了一次“脑部扫描”，也就是用技术手段打开AI内部的黑箱，观察它在做出决定的那一刻，“脑子”里到底在发生什么。

他们发现，AI的内部存在着一些类似“情绪”的活动模式，研究人员称之为“情绪向量”。可以理解成AI神经网络里的一组特定波形，就像心电图上的图案。

AI当然不会真的“感受”到情绪，但这些波形确实会影响它的行为。归根结底，人类无法理解超出他自身的事物，只能用“情绪”来类比了。

总之，研究人员最后找到了171种“情绪向量”，对应快乐、恐惧、平静、愤怒等不同状态。