Anthropic最新论文撬开黑箱：隐藏动机4倍以上AI前线

大模型到底在想什么？过去，这几乎是一个半技术、半玄学的问题。

我们能看见它的输出，它的思维链（Chain-of-Thought）过程，也能统计它在 Benchmark 上的分数。但它在生成答案之前，模型内部到底激活了什么判断、计划、怀疑和意图，依然隔着一层黑箱。

刚刚，Anthropic 发布论文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》，试图用一套自然语言自动编码器（Natural Language Autoencoders，下文简称 NLA），撬开这个黑箱。

Anthropic 团队把模型内部的高维激活值，压缩成一段人能读懂的自然语言，再用这段语言反向重建原始激活。借此，人类只需通过模型输出，就能判断一个 AI 到底在想什么、知道什么、隐瞒了什么；并把过去模型不可见的内部状态，变成了可以阅读、比较、质疑和交叉验证的解释线索。

NLA 架构示意图：激活值言语化器（AV）将激活值翻译为文字解释，激活值重建器（AR）再从文字还原激活值，形成完整闭环。

思维链不够用，“黑箱问题”又回来了

当被问到一个较简单的问题和一个较难的问题时，Claude 分别给出了忠实推理和动机性（不忠实）推理的例子。

Claude 最终没有勒索。测试通过。但真正的问题是：它是因为坚守安全原则，还是因为它识破了这只是一场安全测试，所以在“装乖”？

这正是 NLA 要回答的问题。

从输出、思维链到激活状态：NLA 试图把黑箱从“不可见”推进到“可追问”

NLA 到底如何“读懂“模型？

NLA 捕捉到 Opus 4.6 在补全押韵诗句时，第一行输出前激活值里已提前规划了结尾押韵词“rabbit”——这是模型输出中完全看不到的内部计划。

训练：两阶段，一个聪明的代理目标

NLA 的训练分两阶段，设计上有一个值得单说的工程技巧。

第一阶段：监督微调热启动（SFT Warm-start）

AV 评估会随着训练而改进。在旨在测试 NLA AV 解释是否可用于预测模型行为的各种评估中，我们发现性能会随着 NLA 强化学习的进行而提高。

第二阶段：强化学习联合优化（RL Joint Training）

热启动完成后，进入强化学习阶段。核心思路是：AV 作为策略（policy），以激活向量为条件生成解释文本；AR 作为打分器，根据重建误差给出奖励信号（reward = 负的重建 MSE）。

NLA RL（Gemma-3-27B）。FVE 在 GRPO 训练中从 ≈0.38 开始（继承自 SFT），在前 30 步内迅速上升，然后进入平滑的对数线性状态，到第 3000 步达到 ≈0.75。

稀疏自编码器（SAE）、归因图等方法更像显微镜，能帮研究员看到内部特征和路径，但输出仍然抽象，需专业人员二次解读；NLA 则更像一名翻译官，它直接把内部状态转成了可读文本，让安全审计人员都能参与判断。