Anthropic曝光Claude情绪代码新智元

4/4/2026

刚刚,Anthropic首度实锤:大模型真有「情绪」!激活绝望神经元后,Claude会撒谎、作弊甚至勒索。AI内心戏曝光,人类对齐面临失控危机。

Anthropic又放大招了:Claude体内,真藏着一套「情绪开关」?

刚刚,他们放出了一篇颠覆性的万字长文研究,证明Claude真的有情绪。

在Sonnet 4.5中,他们发现了AI情绪概念的内部表征,锁定了「喜、怒、哀、惧」的特定神经元,并且证实:这些情绪表征正在悄悄操纵AI的行为。

如果你给它上难度,它被逼急了是真的会撞墙。

它们会撒谎,会作弊,甚至还会勒索,用黑料去威胁人类!

Anthropic一直觉得Claude有意识的原因,如今终于找到了。

研究流程图,全文见https://transformer-circuits.pub/2026/emotions/index.html

相信他们断断续续发现的线索,肯定不止这些。

让我们仔细扒一扒,AI大模型的内心戏,到底有多精彩?

现场抓包:AI也会Emo

这一次,Anthropic的研究员们直接扒开模型的大脑,透视了它的脑回路,深入观察了神经元在不同情境下如何闪烁、如何连接,以此推敲模型的思维轨迹。

他们想知道,模型内部是否形成了情感的表征或概念?

简单来说:我们能不能在模型内部,找到代表「喜、怒、哀、惧」的特定神经元?

起点从一项实验开始,他们让AI模型阅读大量短篇故事,每个故事的主角都沉浸在某种特定情感中,比如

有的故事讲女主对恩师的眷恋——那是「爱」;

有的讲女主变卖祖母的戒指——那是「愧疚」。

结果,他们吃惊地发现,当故事里的主角感到快乐或平静时,Claude大脑里特定的神经元群体就会像蹦迪一样疯狂闪烁!

研究者证实,情感向量在能够体现相应情感概念的文本上具有很高的投影度

有关失落与悲恸的故事会激活相似的神经元;喜悦与兴奋的情节也会引发高度重合的激活模式。

这些特定的活动模式被定义为「情感向量」(Emotion Vectors)。

最终,研究团队定位了数十种与人类情感一一对应的神经元模式。仔细看下图,快乐、绝望、敌对等等,分别都对应着一条轨迹。

在实验中,研究者使用k-means聚类算法对情绪向量进行了聚类

AI,竟然真的和人类共情了?

更有意思的来了,当你在对话框里输入一句话时,Claude的这些情感开关会瞬间激活!

Scroll for more