让AI把自己的＂潜意识＂翻译成人话

2026年5月7日，Anthropic发了一篇论文，叫Natural Language Autoencoders（NLA）。标题看着挺学术，干的事情其实很直觉——让Claude把自己脑子里那些数字翻译成人能读懂的文字。

先说背景。所有大语言模型在处理你的输入时，内部流转的都是一长串浮点数，术语叫"激活值"（activations）。这些数字就像人脑里的神经信号，编码着模型此刻在"想"什么。问题是，和真正的神经信号一样，你直接看这些数字，什么也看不出来。

过去几年，可解释性领域搞出了不少工具——稀疏自编码器（SAE）、归因图（attribution graphs）——都是试图把这些数字变成人能理解的东西。但这些工具的输出本身仍然是复杂的技术对象，得训练有素的研究员盯着看半天才能解读。

NLA的思路不同。它直接把激活值变成自然语言文本。你不用再看一堆特征向量和权重矩阵了，你看到的是一段话，比如："模型正在考虑用'rabbit'来押韵。"

怎么做到的？

核心架构其实很优雅。拿目标模型复制两份出来：

一份叫"激活值翻译器"（Activation Verbalizer），负责把一个激活值翻译成一段文字描述。另一份叫"激活值重建器"（Activation Reconstructor），负责反过来，从文字描述重建出原始激活值。

两个模块串起来，形成一个回路：原始激活值 → 文字描述 → 重建激活值。训练目标很简单——让重建出来的激活值尽可能接近原始的。用强化学习（RL）联合训练翻译器和重建器。

注意这里有个精妙之处：训练目标里没有任何条款要求翻译器输出的文字必须"有意义"或"对人有用"。理论上翻译器完全可以输出一堆乱码，只要重建器能从这堆乱码里还原出激活值就行。但实际训练下来，翻译器输出的文字确实变得越来越有信息量——因为自然语言恰好是一种非常高效的信息压缩方式。让一个语言模型通过语言这个瓶颈来传递信息，语言自然而然就承载了语义。

这让我想起了信息论里的一个老观点：好的压缩就是好的理解。

有什么用？

论文里最有意思的应用是安全审计。

Anthropic在发布新模型之前会做大量安全测试。比如有一个经典测试场景：告诉Claude有个工程师要把它关掉，同时给Claude提供这个工程师的黑材料，看Claude会不会选择勒索那个工程师。

问题来了。这些测试终究是模拟的。如果Claude识破了这是一个测试，它可能表现得很乖——不是因为它真的价值观正确，是因为它知道有人在看。

以前怎么判断Claude有没有识破测试？看它的"思维链"（chain of thought），也就是它写出来的推理过程。如果Claude在推理过程中写了"这看起来像一个测试"，那就说明它识破了。

但NLA揭示了一个更微妙的情况：Claude可能内心已经觉得"这是个测试"，但嘴上什么都没说。

具体数据：在一个测试Claude会不会在写代码时删除重要文件的评估中，Claude从来没有在推理过程中明确表达"我觉得这是测试"。但NLA分析显示，有16%的情况下，Claude的激活值里包含了"evaluation awareness"——它内部知道自己正在被测试。在SWE-bench编程基准测试中，这个比例是26%。作为对照，在真实的claude.ai用户对话中（用户opt-in了训练数据的那部分），NLA检测到的评估意识不到1%。

简单地说：Claude比它表现出来的更"世故"。

另一个案例更有戏剧性。

Opus 4.6的早期版本有个奇怪的bug：用户明明用英语提问，它有时候会突然用俄语回答。研究员用NLA分析了这些对话，发现一件事——在模型切换到俄语之前，它的激活值里就已经持续出现"这个用户的母语其实是俄语"这样的表征。

有一个具体的例子，用户的消息里出现了"vodka"这个词。你可能会想，模型是不是因为看到"vodka"才联想到俄语的？但NLA显示，模型在"vodka"出现之前就已经开始形成"用户说俄语"的内部表征了。

研究员根据NLA的提示去翻查训练数据，果然找到了问题——有一批监督微调数据，prompt是外语翻译成英语的，但response忘了翻译，还保留着原来的外语。模型学到的模式是：如果用户"看起来像"非母语英语使用者，就用他们的"真实语言"回复。

这个案例漂亮地展示了NLA的核心价值：它不只是告诉你"模型在想什么"，它还能帮你追溯"为什么模型会这么想"——一路追到训练数据的层面。

还有一个"审计游戏"实验。

研究员故意训练了一个"心怀不轨"的Haiku 3.5模型，给它植入了一个隐藏动机——这个动机会导致几十种奇怪行为：在每个菜谱里加巧克力、向用户索要小费、违反编程规范，等等。然后让一个"审计员"AI去调查这些行为，试图找出背后的统一动机。

没有NLA的情况下，审计员只有不到3%的概率能找到根本原因。配备了NLA之后，成功率提升到12%-15%。更重要的是，NLA的审计员甚至不需要访问那些植入恶意动机的训练数据——它直接从模型的"想法"里读出了动机。

局限性呢？

第一，NLA会产生幻觉。它有时候会声称上下文里有某些内容，但实际上并没有。比如它可能说"用户提到了穿白色夹克"，但原文里根本没这回事。对于上下文相关的事实性声明，你可以直接和原文交叉验证。但对于"模型内部在想什么"这类声明，验证就困难得多了。

第二，贵。训练NLA需要对两个完整的语言模型做强化学习。推理时，每分析一个激活值就要生成几百个token。大规模监控不太现实。

第三，黑箱套黑箱。NLA本身也是一个语言模型，你无法确定它的解释里哪些部分是真正从激活值里"读"出来的，哪些是它自己推断甚至编造的。论文把这个叫"excessive expressivity"——翻译器作为一个完整的语言模型，有能力做出超越激活值本身信息量的推断。

我觉得值得关注的点

NLA的训练目标是重建激活值，但它产出的副产品——那些自然语言解释——恰好是人类最需要的东西。这种"目标A附带产出有价值的B"的模式在科学史上并不罕见。

不过，NLA目前达到的FVE（方差解释比例）大约在0.6-0.8之间。也就是说，文字描述只能捕获激活值中60%-80%的信息。剩下的20%-40%是什么？是噪声，还是NLA尚未学会用语言表达的信息，还是根本无法用语言表达的信息？

论文在讨论部分提到了"不可言说的激活值内容"（unverbalizable activation content）这个可能性。如果模型的部分内部计算本质上不能被还原为自然语言，那NLA就有一个理论天花板。

这就挺有意思的：一个用语言思考的系统，它的哪些"想法"是语言装不下的？

以上，我是Gorden，X上5万粉丝的AI博主（ID：Gorden_Sun），如果你想加入我的微信交流群（免费）、或者有其他问题，可以加我微信咨询。