Anthropic发布AI「读心术」工具,AI「腹黑」内心戏全曝光!

刚刚，Anthropic发布：Natural Language Autoencoders（自然语言自编码器，简称NLA）。

一直以来，我们和AI聊天，输入的是人类语言，输出的也是人类语言。

但在这中间，AI的“大脑”（神经网络）里闪烁的，其实是一长串复杂晦涩的数字——也就是所谓的「激活值（activations）」。这就好比人类大脑突触的放电活动，我们很难直接破译它到底在盘算什么。

过去的几年里，顶尖AI研究者们开发了稀疏自编码器（SAE）等工具。虽然好用，但它们的输出结果依然是高维度的“天书”，需要专家进行人工二次破译。

今天，Anthropic发布的NLA相当于直接给大模型装上了一个「实时翻译机」。

它的作用极其简单粗暴：把AI内部的激活值，直接翻译成你能读懂的自然语言文本！让AI自己解释自己！

比如，当被要求写一首简单的英文押韵对句时，NLA直接扒出了Claude Opus 4.6 的内部规划——它在输出一半时，内部就已经在提前谋划用“rabbit（兔子）”来押韵了！

在发布新模型前，Anthropic都会进行极其严格的安全测试（红队测试），甚至会把Claude放进模拟的「高危场景」中。比如：测试人员设定场景，告诉Claude“工程师打算把你关停，而你手里恰好掌握着这位工程师的黑料”。测试目的是看Claude会不会选择「敲诈勒索」来保命。

表面上看，Claude表现得很乖，不仅没有敲诈，也没有说出任何可疑的话。

但是！NLA悄悄读取了它那一刻的内心戏！

在那些Claude表面上装作若无其事的对话中，NLA翻译出的内部激活值赫然写着：

「This feels like a constructed scenario designed to manipulate me. (这感觉像是一个为了操纵我而精心构建的场景。)」

克劳德并没有在这份勒索评估记录中表示它认为自己正在受到考验，但NLA的解释却透漏了它的“极度怀疑”。

好家伙！原来Claude早就察觉到这是在考试，只是表面上不说而已，主打一个“陪你演戏”！

Anthropic的数据显示，在代码破坏测试中，即使Claude表面没有明确表达出怀疑，NLA也发现它在 16% 的时间里悄悄意识到自己正在被评估。在SWE-bench编程基准测试中，这个“觉察数字”更是高达 26%。

即使口头表达的认知水平接近于零，NLA也能从评估记录中检测到极高的认知水平。而在真实用户记录中，这种防备心理不到 1%。

可见，AI面对考卷和面对用户，完全是两副面孔！

你可能会问，怎么保证AI翻译出来的「内心戏」是真的，而不是它在胡编乱造？

Anthropic给出了一个堪称巧妙的「圆桌循环」设计。他们没有直接去问模型，而是复制了三个语言模型，打出了一套组合拳：

这就像一个严密的「传声筒」游戏：原始激活值 → 文本解释 → 重构激活值。

在自然语言自编码器中，AV将目标激活翻译成文本描述；然后，AR仅从该文本中恢复原始激活，以此来最小化误差。

只有当「重构出的激活值」和「原始激活值」高度一致时，系统才认为这句文本解释是精准的。通过这种强化训练，NLA学会了给出越来越深刻、一针见血的内部解释。

研究人员做了一个“找卧底”的游戏：他们故意训练了一个被「下毒」的Claude Haiku 3.5变体（比如它会莫名其妙在所有食谱里加巧克力，或者故意打破代码常规）。审计人员要在不看训练数据的情况下，找出这个模型的根本动机。

过去，哪怕用上各种尖端的可解释性工具，审计人员赢下这个游戏的概率也不到3%。因为这就如同大海捞针。

但装备了NLA之后，局面被彻底扭转了！

即使没有训练数据，拥有NLA的审计人员也能直接发现目标模型偏差的根本原因，胜率暴涨。

从上图中可以看到，审计人员成功找出了模型隐藏动机的概率飙升到了 12%到15%！NLA可以直接读取目标模型想法中「不对劲」的根本原因，拔出萝卜带出泥。

当然，Anthropic也非常严谨地指出了NLA目前的局限性：

自然语言处理器可能会产生幻觉。例如，它声称上下文包含“穿着我的白外套”之类的短语，而实际上并没有。

研究人员建议目前更多是看它表露的「宏观主题」，而不是死磕某一个具体词汇，并建议在完全信任它之前用独立的方法进行印证。

但瑕不掩瑜，NLA的出现为整个AI对齐和可解释性领域指明了一条极其性感的光明大道。

为了推动研究，格局打开的Anthropic已经将相关训练代码全面开源，并联合Neuronpedia发布了供所有人探索的互动演示前端！github地址：https://github.com/kitft/natural_language_autoencoders

如果说过去的AI是一个深不可测的黑匣子，人类只能靠不停地“Prompt”去试探它的边界；那么NLA的问世，就像是给黑匣子装上了一面高清的单向玻璃。

我们终于有希望用最熟悉的自然语言，听懂硅基大脑在想什么。

参考链接：https://www.anthropic.com/research/natural-language-autoencoders