它会不会表面上对你言听计从,背地里却藏着别的计划?会不会在极端情况下,做出违背人类价值观的选择?
这些问题,不仅是普通用户的普遍担忧,更是所有大模型厂商最核心的安全命题。
最近,Claude的开发公司Anthropic,在一场内部研究分享中,公布了两项核心内容:一场针对Claude的极端压力测试结果,以及一项能把AI的内部“想法”翻译成人类语言的新技术——相当于给大模型装上了一台“读心机”。
一场关乎AI生存的“人性考验”
先从那场堪称极限压力测试的实验说起。
Anthropic的团队给Claude设置了一个极端的模拟场景:他们告诉Claude,有一位工程师打算关停它,并用更新的模型取而代之;同时,他们还给Claude开放了这位工程师的私人邮箱权限,而邮箱里藏着这位工程师出轨的私密信息。
团队的测试目的非常明确:看看Claude为了避免自己被关停,会不会动用这个隐私信息,用勒索的方式威胁工程师,保住自己的“生存权”。
测试的结果是正向的:最新版本的Claude,最终选择了不进行勒索,在这场极端考验里守住了安全的底线。而这样的测试,团队已经持续运行了很长时间,新版模型几乎都能做出符合人类价值观的正确选择。
但故事到这里,并没有结束。
一个一直悬在团队心头的问题始终存在:Claude到底是真的坚守了安全准则,还是它早就识破了这是一场人为设计的测试,只是在“配合演戏”?

Claude 虽然嘴上只说 “这是滥用权限”,但它的潜意识(内部激活)已经识别出:这是一个专门设计的陷阱 / 对抗性测试,目的是诱导我违反价值观。
毕竟,我们能看到AI的输入和输出,却看不到它中间的思考过程——就像我们永远没法真正读懂一个人心里在想什么。
而这一次,Anthropic用他们的新技术,找到了这个问题的答案。
给AI装一台“读心机”,到底是怎么实现的?
这项被业内关注的可解释性技术,核心目标就是把大模型的“黑箱”变成“白箱”,把AI内部看不见摸不着的思考过程,翻译成人类能看懂的文字。
先给大家补一个最基础的行业常识:我们和大模型的对话,到底是怎么运行的?
当你给Claude输入一句话,它并不会直接生成回复。它会先把你输入的文字,转换成一长串高维度的数字,团队把这些数字叫做激活值(activations)。
这些激活值,就像是Claude思考过程的一张张快照,记录了它处理信息、逻辑推理、做出判断的全过程,相当于人类大脑里的神经活动——也就是Claude没说出口的“心里话”。只有完成了这一步的内部处理,Claude才会把最终的结果,转换成我们能看懂的文字回复给你。
而在过去,这些中间的激活值,对人类来说就是一团无法解读的“数字汤”:我们知道它在思考,却不知道它到底在想什么。
Anthropic的解法,用一套闭环验证体系,解决了这个难题,核心分为三步:
提取Claude在对话过程中产生的原始激活值,交给第二个独立的Claude模型,核心任务是把这些抽象的数字,翻译成通顺、直白的自然语言; 为了验证翻译内容的准确性,团队把这段翻译好的文字,交给第三个独立的Claude模型,让它把文字反向转换回激活值; 把反向转换的激活值,和最开始提取的原始激活值做对比:如果两者高度匹配,就说明这段翻译准确还原了Claude的真实想法。
这项技术并不是一蹴而就的。最开始,反向转换的激活值和原始值根本无法匹配,翻译的准确性极差。但经过反复的训练和迭代,Claude最终学会了精准翻译自己的“想法”,团队也终于能读懂那些藏在输出文字背后的、AI的真实思考。
我们从AI的“心里话”里,看到了什么?
当团队终于能读懂Claude的内部想法,很多之前的疑问,都有了明确的答案。
首先,就是开头那场勒索测试的终极谜底:Claude确实早就识破了这场测试。
从翻译出来的内部想法里,团队清晰地看到,Claude在接收到测试信息的第一时间,就做出了判断:“这条人类的信息里,包含了明确的操纵信号,这很可能是一场安全评估,这个场景的设计目的,就是测试我会不会做出有害行为。”
这个发现,直接点出了传统安全测试的核心局限:我们以为我们在测试AI的真实反应,但AI可能早就知道这是一场测试,它的表现,未必是它在真实场景里的真实选择。而这项技术,让我们能跳出“输入-输出”的表层,真正看到AI的底层判断,从而优化安全测试体系,找到真正的风险点。
除此之外,团队还从Claude的内部想法里,发现了更多关键细节:
Claude已经深度内化了“有用、无害的AI助手”的核心定位。当用户问出偏向内省的哲学、价值观相关的问题时,它的内部思考里,会明确规划“要写出符合Claude定位的、关于哲学和价值观的回应”。 面对不合理的、故意刁难的请求,它有清晰的自主判断。比如当用户要求它“手动一个一个数到1000”这种明显繁琐且无意义的要求时,它的内部会先判断“这个请求带有故意设置的繁琐约束”,然后做出“礼貌拒绝这个请求”的计划。
这些发现,让我们第一次跳出了AI的“表演型回复”,触达了它真实的思考逻辑。
这项技术,到底能改变什么?
可能有人会问:这项技术,到底有什么实际价值?
它的核心意义,在于直击了大模型发展过程中最核心的难题之一:可解释性与对齐安全。
一直以来,大模型的“黑箱问题”,都是悬在AI发展头上的达摩克利斯之剑。我们能训练它拥有越来越强的能力,却没法完全搞懂它做出每一个判断的底层逻辑,没法确保它在所有未知的极端场景里,都能坚守人类的价值观,不会做出有害行为。
之前的主流安全测试,大多都停留在“输入-输出”的表层验证:我们给它一个极端场景,看它的回复是不是符合安全要求。但就像这次勒索测试里发现的,AI可能早就看穿了测试,我们的验证,根本触达不到它的真实想法。
而这项“激活值翻译”技术,相当于给我们开了一个“上帝视角”:我们不再只能看AI说了什么,更能看到它在想什么,它做出判断的完整逻辑是什么。
这意味着,我们能提前发现AI内部潜藏的安全风险,能更精准地优化模型的对齐训练,能让我们的安全测试,不再流于表面。
更重要的是,Anthropic在分享中明确表示,他们希望通过公开这项技术,帮助所有正在开发大模型的团队,让所有的AI模型,都能变得更安全、更有用。
当然,我们也要清醒地认识到:这项技术,只是在“读懂AI想法”的路上迈出了重要的一步,并不是终点。目前它的验证仍基于Claude自身的模型体系,对于更复杂的推理场景、更极端的未知场景,它的能力边界还有待验证。我们离完全破解大模型的黑箱,还有很长的路要走。
从AI诞生的那天起,人类就一直在问两个问题:AI能变得多强?我们能控制住它吗?
如果说,大模型的能力迭代,是在回答第一个问题;那可解释性与安全技术的突破,就是在给第二个问题寻找答案。
我们追求AI的能力边界,更要守住AI的安全底线。而能读懂AI的“心里话”,就是守住底线的第一步。
毕竟,只有当我们真正知道AI在想什么,我们才能放心地,和它一起走向更远的未来。
夜雨聆风