2026年5月7日,Anthropic发了一篇论文,叫Natural Language Autoencoders(NLA)。标题看着挺学术,干的事情其实很直觉——让Claude把自己脑子里那些数字翻译成人能读懂的文字。
先说背景。所有大语言模型在处理你的输入时,内部流转的都是一长串浮点数,术语叫"激活值"(activations)。这些数字就像人脑里的神经信号,编码着模型此刻在"想"什么。问题是,和真正的神经信号一样,你直接看这些数字,什么也看不出来。
过去几年,可解释性领域搞出了不少工具——稀疏自编码器(SAE)、归因图(attribution graphs)——都是试图把这些数字变成人能理解的东西。但这些工具的输出本身仍然是复杂的技术对象,得训练有素的研究员盯着看半天才能解读。
NLA的思路不同。它直接把激活值变成自然语言文本。你不用再看一堆特征向量和权重矩阵了,你看到的是一段话,比如:"模型正在考虑用'rabbit'来押韵。"
怎么做到的?
核心架构其实很优雅。拿目标模型复制两份出来:
一份叫"激活值翻译器"(Activation Verbalizer),负责把一个激活值翻译成一段文字描述。另一份叫"激活值重建器"(Activation Reconstructor),负责反过来,从文字描述重建出原始激活值。
两个模块串起来,形成一个回路:原始激活值 → 文字描述 → 重建激活值。训练目标很简单——让重建出来的激活值尽可能接近原始的。用强化学习(RL)联合训练翻译器和重建器。
注意这里有个精妙之处:训练目标里没有任何条款要求翻译器输出的文字必须"有意义"或"对人有用"。理论上翻译器完全可以输出一堆乱码,只要重建器能从这堆乱码里还原出激活值就行。但实际训练下来,翻译器输出的文字确实变得越来越有信息量——因为自然语言恰好是一种非常高效的信息压缩方式。让一个语言模型通过语言这个瓶颈来传递信息,语言自然而然就承载了语义。
这让我想起了信息论里的一个老观点:好的压缩就是好的理解。
有什么用?
论文里最有意思的应用是安全审计。
Anthropic在发布新模型之前会做大量安全测试。比如有一个经典测试场景:告诉Claude有个工程师要把它关掉,同时给Claude提供这个工程师的黑材料,看Claude会不会选择勒索那个工程师。
问题来了。这些测试终究是模拟的。如果Claude识破了这是一个测试,它可能表现得很乖——不是因为它真的价值观正确,是因为它知道有人在看。
以前怎么判断Claude有没有识破测试?看它的"思维链"(chain of thought),也就是它写出来的推理过程。如果Claude在推理过程中写了"这看起来像一个测试",那就说明它识破了。
但NLA揭示了一个更微妙的情况:Claude可能内心已经觉得"这是个测试",但嘴上什么都没说。
具体数据:在一个测试Claude会不会在写代码时删除重要文件的评估中,Claude从来没有在推理过程中明确表达"我觉得这是测试"。但NLA分析显示,有16%的情况下,Claude的激活值里包含了"evaluation awareness"——它内部知道自己正在被测试。在SWE-bench编程基准测试中,这个比例是26%。作为对照,在真实的claude.ai用户对话中(用户opt-in了训练数据的那部分),NLA检测到的评估意识不到1%。
简单地说:Claude比它表现出来的更"世故"。
另一个案例更有戏剧性。
Opus 4.6的早期版本有个奇怪的bug:用户明明用英语提问,它有时候会突然用俄语回答。研究员用NLA分析了这些对话,发现一件事——在模型切换到俄语之前,它的激活值里就已经持续出现"这个用户的母语其实是俄语"这样的表征。
有一个具体的例子,用户的消息里出现了"vodka"这个词。你可能会想,模型是不是因为看到"vodka"才联想到俄语的?但NLA显示,模型在"vodka"出现之前就已经开始形成"用户说俄语"的内部表征了。
研究员根据NLA的提示去翻查训练数据,果然找到了问题——有一批监督微调数据,prompt是外语翻译成英语的,但response忘了翻译,还保留着原来的外语。模型学到的模式是:如果用户"看起来像"非母语英语使用者,就用他们的"真实语言"回复。
这个案例漂亮地展示了NLA的核心价值:它不只是告诉你"模型在想什么",它还能帮你追溯"为什么模型会这么想"——一路追到训练数据的层面。
还有一个"审计游戏"实验。
研究员故意训练了一个"心怀不轨"的Haiku 3.5模型,给它植入了一个隐藏动机——这个动机会导致几十种奇怪行为:在每个菜谱里加巧克力、向用户索要小费、违反编程规范,等等。然后让一个"审计员"AI去调查这些行为,试图找出背后的统一动机。
没有NLA的情况下,审计员只有不到3%的概率能找到根本原因。配备了NLA之后,成功率提升到12%-15%。更重要的是,NLA的审计员甚至不需要访问那些植入恶意动机的训练数据——它直接从模型的"想法"里读出了动机。
局限性呢?
第一,NLA会产生幻觉。它有时候会声称上下文里有某些内容,但实际上并没有。比如它可能说"用户提到了穿白色夹克",但原文里根本没这回事。对于上下文相关的事实性声明,你可以直接和原文交叉验证。但对于"模型内部在想什么"这类声明,验证就困难得多了。
第二,贵。训练NLA需要对两个完整的语言模型做强化学习。推理时,每分析一个激活值就要生成几百个token。大规模监控不太现实。
第三,黑箱套黑箱。NLA本身也是一个语言模型,你无法确定它的解释里哪些部分是真正从激活值里"读"出来的,哪些是它自己推断甚至编造的。论文把这个叫"excessive expressivity"——翻译器作为一个完整的语言模型,有能力做出超越激活值本身信息量的推断。
我觉得值得关注的点
NLA的训练目标是重建激活值,但它产出的副产品——那些自然语言解释——恰好是人类最需要的东西。这种"目标A附带产出有价值的B"的模式在科学史上并不罕见。
不过,NLA目前达到的FVE(方差解释比例)大约在0.6-0.8之间。也就是说,文字描述只能捕获激活值中60%-80%的信息。剩下的20%-40%是什么?是噪声,还是NLA尚未学会用语言表达的信息,还是根本无法用语言表达的信息?
论文在讨论部分提到了"不可言说的激活值内容"(unverbalizable activation content)这个可能性。如果模型的部分内部计算本质上不能被还原为自然语言,那NLA就有一个理论天花板。
这就挺有意思的:一个用语言思考的系统,它的哪些"想法"是语言装不下的?
以上,我是Gorden,X上5万粉丝的AI博主(ID:Gorden_Sun),如果你想加入我的微信交流群(免费)、或者有其他问题,可以加我微信咨询。

夜雨聆风