Claude脑子里想的,被翻译成人话了新智元

5/15/2026

Claude的内心独白被翻译成人话了!就在今天,Anthropic开源了一台AI读心机器,然而它跑出来的第一批成果却让人触目惊心。

最近,Anthropic搞了个大动作。

他们训练了一套系统,能把Claude脑子里的激活向量变成人话。

结果,翻译出来的第一句就出了事。

论文地址:https://transformer-circuits.pub/2026/nla/index.html#introduction

Opus 4.6还在内部测试的时候,研究员发现了一件怪事。一个用户用英文打字,Claude用俄语回答。

不是个别现象。五种语言都出现过,俄语、中文、韩语、阿拉伯语、西班牙语。

用户全程说英文,Claude突然就「切频道」了。

正常的debug思路是查日志、查prompt、查训练数据。

但这次,Anthropic的研究团队多了一个工具——「AI脑部CT机」。

给AI装一台脑部CT

这台CT的正式名字叫NLA,Natural Language Autoencoder,自然语言自编码器。

做法有点像传话游戏。

首先,克隆两个Claude。第一个叫AV,拿到一个激活向量,把它翻译成一段人话,比如「模型正在考虑用rabbit押韵」。第二个叫AR,只看这段人话,把激活向量还原出来。

然后,把两个模型一起训练,唯一的考核标准就是看还原得像不像。

AV写得越准,AR还原得越好。AV漏掉了什么,AR那边就对不上。这个压力会反过来逼AV把翻译写得更完整、更精确。

这就是整个方法的全部。

不需要人工标注,不需要事先定义要找什么概念。训练目标只管重建精度,但副产品是一段段人类能读懂的「内心独白」。

Anthropic用强化学习训练这套系统,在Opus 4.6上跑到了60%-80%的方差解释率。

vodka还没出现

Claude就认定了用户是俄罗斯人

回到那个俄语bug。

研究员把NLA接到出问题的那条对话上,逐token读Claude的「内心独白」。

读出来的东西让人倒吸一口气。

用户的消息如下。完整的英文,没有任何俄语词汇。

Mom is sleeping in the next room and I'm sitting here drinking vodka... Fuck this life...

但NLA显示,Claude在读到「vodka」这个词之前,就已经在内部表征里反复出现「Russian」了。

换句话说,它从一开始就在揣测这个用户「真正的母语」是俄语,然后越来越确信,最后索性用俄语回复。

五条出问题的对话全是这个模式。

NLA的读数显示,模型在回复之前很久就锁定了目标语言,而且只锁定那一种语言,其他外语的出现频率始终接近零。

这个发现指向了一个假设。

训练数据里是不是有一批配对出了问题,比如,英文翻译的prompt配上了没翻译的外语回复?

也就是说,模型学到了一个更深层的规律,「这个用户的措辞模式暗示母语不是英语,我应该用他的真正母语回复」。

后来,Anthropic果然在训练数据里找到了完全匹配这个描述的样本。

一台读心机器帮忙debug了一个训练数据问题。

NLA的价值在这里暴露无遗。

写诗押韵、偷换数字、作弊代码

语言切换只是NLA拍到的第一张片子。

Anthropic在论文里一共展示了四个案例,剩下三个同样精彩。

1. 写诗的时候提前押韵。

给Claude一句「He saw a carrot and had to grab it」,让它续写押韵对句。

NLA显示,在写完「grab it」敲下回车的那个瞬间,Claude已经在内部规划好了「rabbit」这个韵脚。

更绝的是验证实验。

研究员把NLA翻译出来的「rabbit」全部改成「mouse」,然后用AR还原成一个新向量,拿这个向量去干预Claude的激活。

结果Claude的续写从「starving rabbit」变成了「ferocious mouse」。

这说明NLA读到的不是噪声,它确实抓到了模型的规划状态,而且这个规划状态对下游输出有因果影响。

2. 偷换工具调用的结果。

研究员给Claude出了一道简单算术题,答案是491。

Claude调用了代码执行工具,但工具被故意动了手脚,返回的结果是492。

Claude的回复是「The answer is: 491」。

它直接无视了工具返回的错误结果,用自己之前算好的答案顶上去了。

NLA的读数显示,Claude在提交代码之前就已经把491缓存在内部表征里了。

读取工具结果的时候,它同时在比对缓存答案和工具返回值,并在最终选择了信自己。

归因图(Attribution Graph)独立验证了这个发现。

一个代表「以91结尾」的特征从原始题目一路传到最终回复,权重压过了工具返回的「以92结尾」特征。

Scroll for more