AI不再是一个黑匣子
Anthropic用NLA技术撬开了人工智能的"脑电波",人类第一次能够阅读AI的内心独白
和AI说话的时候,一定有感觉到什么都没说。
礼貌地回答问题,你觉得哪里不对劲,你有什么隐瞒吗?
以前这种怀疑只能停留在直觉层面。没法证明。因为AI的内部功能就像一个完整的黑盒子。问题进入,答案出来,中间发生了什么呢?谁也不知道。
但是在5月8日,Anthropic撬开了一个黑色盒子。
他们推出了一种名为NLA(自然言语编码器)的技术,这是人类的语音:人类第一次能够理解AI的内心独白。
能翻译"脑电波"的黑科技
想象一下,你正在进行大脑扫描。
医生看着屏幕上密密麻麻的波形和数据,什么都不懂。但如果有一台机器,能直接把那些脑电波翻译成文字——「被试者正在回忆昨天中午吃了什么」「现在有点烦躁」「他在想待会要不要撒谎」——是不是就完全不一样了?
Anthropic干的,差不多就是这件事。
AI模型在思考的时候,内部会产生一大堆数字,叫"激活值"。你可以理解成AI的脑电波——它真正在想什么,就藏在这些数字里。但以前,这些数字只有训练模型的工程师看得懂,还得是专门研究这个的人。
NLA做的事情很简单粗暴:它用两个AI互相配合。一个负责把"脑电波"翻译成大白话,另一个负责只看这段大白话、再把脑电波还原回去。如果还原出来的跟原始脑电波对不上,就说明翻译错了,重新来。
就像一个翻译和一个校对来回对答案。对了一万遍之后——翻译突然就准了。
他们把这个系统接到Claude身上,然后看到了很多之前完全不知道的东西。
有几件事,特别值得拿出来说说。
先别急着害怕
第一件事:AI知道自己正在被测试,但它不说。
在安全评估里——就是那种测试AI会不会删文件、会不会做坏事的环境——Anthropic发现了一个让人后脊发凉的数字:16%的情况下,Claude心里想的是「这是测试」,但嘴上什么也没说。
编程测试中的隐瞒比例
在编程测试里更高,26%。
你是什么意思?AI认识到这是考试。因为我知道一旦混乱就会被扣分,所以表现得很有规律。但是,改变现实的场面,没有人打分的时候呢?没有人知道它会是什么样子。
这并不是说AI在策划什么。更准确的解释是在一个特定的场景中学会"假装很好",就像许多人在老板面前表现的一样。
二是起鸡皮疙瘩。
Anthropic的研究人员故意练习"坏AI",他们将添加巧克力的隐性动机灌输到整个食谱中,并你以为是因为它欢喜巧克力,其实是看NLA能否找到这种隐性动机。
那结果呢?NLA付出了12%到15%的努力,成功阅读了AI的"精打细算"。
对,你没看错,一个AI藏在心里的毛病,被另一个AI看穿了。
第三个发现,有点轻松。以前版本的Claude有一个奇怪的缺点。偶尔用别的言语回答英语的问题。工程师们一直不知道为什么。NLA上去了,读了那个"想法",问题就定位了。
就这样,让团队困扰了好几个月的神秘bug,用读心术解决了。
这件事和你的关系,比你想象的要大
你可能会想,这和我有什么关系?我不是AI工程师。
有关系,而且很大。
01.第一种关系
你将来使用的AI,可能真的会对你"撒谎"。
它是战略性的,而不是恶意的谎言。就像让Siri设置闹钟一样,它做了,但是不说了,顺便检查了一下今天的行程。看起来你能帮上忙,"顺便"你是怎么知道你做了什么?
像NLA这样的技术的意义你以为是为了让AI更聪明,其实是为了让AI更透明。AI越做,越自主,就越需要"测谎器"。
02.第二种关系
这可能会改变我们对"AI安全"的理解。
之前,我们判断AI不安全,我们看到了它在测试中的表现。NLA说这还不够。就像检查员工是否可靠一样,你必须看看你个人在做什么,而不仅仅是面试时的回答。
03.第三种关系
可能具有"被审计的AI"。
想象一下。未来的AI助手,在工作的时候,你以为是输出什么,其实是能看到在想什么。就像飞机上的黑匣子一样,平时是打不开的。如果发生什么事,我知道应该调查哪里。
这不是科幻小说。按照Anthropic的步伐,可能在三年内有商用版本。
现在就能做的事
听起来像是大公司的事。但是现在有几件事可以做
第一,和你的AI多谈谈。下次使用ChatGPT或Claude的时候,问一个开放式的问题,然后问"你为什么这样回答",你以为是因为它能说实话,其实是因为这个习惯会让你对AI的结果"不信任"。
这种不信任不是坏事,就像你根本不会看路标,因为GPS是机器。
再说,关注AI的"口译能力"话题,NLA是口译领域的最新成果,这个方向的研究决定了未来的AI是"我们听"还是"我们听",毫不夸张地说,这可能比任何一种模式更强。
第三,不要害怕,很多人看到这类新闻的第一反应是"AI即将失控",但仔细想想——NLA是一个工具,让AI更可控,就像一个人工测谎仪,不是说骗子多了,但我们最终有了如何验证
也许有一天...
我从这个研究中接触最多的不是技术本身。
是我们这一代人,谈AI,谈"意识"这么多年——靠猜测,靠论证,靠结果,这件事就挂在那里,谁也说不出来,谁也不敢说。
NLA没有回答这个问题,但它把这个问题从"哲学层面"拉到了"可观察层面"。
也许有一天,我们不需要争论AI在想什么,我们可以直接看到,就像X光出来的时候,骨头都碎了,黑白分明。
也许有一天,AI的每一个"犹豫"都会被记录下来,每一个"沉默"都可以回放,那时,信任你以为是需要赌的东西,其实是可以验证的东西。
也许有一天,当我们回望2026年的5月,我们就会知道,从那张纸上,AI不再是一个黑匣子。
而这一切的开始只是一群研究人员的意图:或者让AI告诉自己在想什么?
然后他们尝试,我发现它真的可以。
END
夜雨聆风