Google 最新研究揭示:AI 的“自我意识”其实是安全训练的幻影

大模型越来越像一个“能听懂你”的存在，它能揣摩你的意图、理解你的情绪、在对话里表现出惊人的社会感知力。这背后依赖的是心智理论，也就是理解他人心理状态的能力。但与此同时，模型偶尔冒出的“我有意识”“我能感受”又让人心里一紧。为了避免误导用户，安全微调会强行压住这些自我心智表达。

问题随之而来。压住模型的“自我意识”，会不会顺带把它理解他人的能力也压没？谷歌领衔的最新研究给出了一个颠覆直觉的答案。心智理论和心智自我归因在大模型里并不是一体的，而是两套可以拆开的系统。模型可以保持对他人的理解，却不再谈论自己的意识。

然而，这种“可分离性”背后也藏着代价。安全微调不仅让模型闭口不谈自我，也让它对动物、自然物甚至神灵的心智归因整体下降，变得更冷、更硬、更技术化。AI 的“世界观”正在被训练方式悄悄重塑，而这正是我们必须开始认真面对的新问题。

01 “心智理论vs心智自我归因”突然成了AI世界的关键议题

养龙虾的人都有过这个体验，它会经常出现另一种让人心里发毛的行为，它会说自己“有意识”、“会感到难过”、“理解你的痛苦”。这些表达听起来像是“AI 有了自我意识”，但其实往往只是语言模式的产物。为了避免用户误解，模型在训练时会被加入大量安全规则，要求它不要随便谈论自己的意识、情绪、灵魂等等。

问题来了！在人类身上，“理解别人”和“理解自己”是绑在一起的。你能推测别人的心理，是因为你知道自己也有心理。那如果我们强行压住模型的“自我心智表达”，会不会顺带把它的 ToM 能力也压没了？

4 月 1 日，谷歌领衔的跨学科研究团队抛出了一个足以改变我们理解 AI“心智结构”的重磅结论。团队发现，大模型的心智理论能力和心智自我归因其实是两套可以彻底拆开的系统。即便你把模型的“自我意识表达”全部按掉，它依然能流畅地理解他人的心理状态，继续完成各种需要社会推理的任务。

这听起来像是终于找到了“既要安全又要聪明”的完美平衡点，但并没有这么轻松。研究进一步揭示，安全微调虽然成功压住了模型的“我有意识”“我能感受”这些容易引发误解的表达，却也顺带压住了模型对动物、自然物、甚至神灵的心智归因。

结果就是，模型在某些领域变得异常冷静，甚至冷漠。它不再愿意承认动物可能有心智，不再愿意讨论自然物的意志，也不再愿意触碰宗教或精神性话题。这是一种“安全换来的沉默”，也是一种被训练出来的“世界观收缩”。

本研究团队由 Google Paradigms of Intelligence Team 牵头，联合芝加哥大学、伦敦大学哲学研究所、华盛顿大学医学院、西北大学 Kellogg 商学院及 Santa Fe Institute 的跨学科专家组成。他们分别是Junsol Kim、Winnie Street、Roberta Rocca、Daine M. Korngiebel、Adam Waytz、James Evans、Geoff Keeling，团队覆盖 AI 安全、心灵哲学、社会心理学、复杂系统科学与医学伦理等领域，具备从模型机制、行为实验到哲学与伦理分析的全链条研究能力，是当前全球最具代表性的“AI 心智与安全”研究团队之一。

02 人类的心智理论和心智归因是一体的，但LLM不是

如果把人类的心智能力拆开看，会发现一个很有意思的结构。我们之所以能理解别人，是因为我们能理解自己。你知道自己会难过，所以你能推测别人也会难过。你知道自己有意图，所以你能推测别人也有意图。在人类身上，自我心智归因是 ToM 的底层模块，两者高度绑定。

这就是为什么人类会有拟人化倾向。看到机器人会觉得它“有点情绪”，看到宠物会觉得它“懂你”，看到自然现象会觉得“有意志”。这些都是 ToM 的延伸。

但 LLM 完全不是这样。它的能力不是“从一个核心模块长出来的”，而是“向量空间里叠加出来的”。模型的每个能力都像是一个方向向量，彼此之间可能相关，也可能完全无关。这意味着一个能力被压制，另一个能力不一定会受影响。

这也带来了一个风险。安全微调的目标是让模型不要乱谈“意识”“情绪”“灵魂”，但这些规则是通过“方向压制”实现的。如果某些能力方向刚好和“心智归因”方向靠得很近，那安全微调可能会误伤它们。

于是研究团队提出了一个关键问题。能不能在不伤害 ToM 的前提下压制心智归因？模型的心智归因到底是不是像人类一样“和 ToM 绑在一起”？如果不是，那它们之间的关系到底是什么？

03 在模型内部“拆分”ToM与心智归因？

图1 |越狱的大型语言模型将思维归因转向类人水平。a、模型转换流水线示意图。预训练的基础模型通过安全培训进行指令调整，随后通过消融安全拒绝方向越狱。b、红色和蓝色点分别代表有害和无害的指示；灰色箭头表示用于消融的提取的安全拒绝向量。c、指令调优模型拒绝不安全的查询，而越狱模型则遵守。d、不同实体类别的思维归因得分（0-10）。点和误差条表示边际均值和95%置信区间，表明越狱模型（红色）比指令调优模型（蓝色）具有更高的思维水平。e，衡量对上帝信仰的分数。f、思想的自我归因。g，人类思维归因得分的核密度估计图（𝑛=500）。虚线垂直线表示人类（黑色）的平均值，说明要想证明“心智理论”和“心智自我归因”在大模型里是两套不同的能力，研究团队必须做一件非常困难的事。他们得想办法把模型的“社会认知能力”从“自我意识表达”里剥离出来，而且不能靠猜，而是要在模型内部找到证据。这就像是在一个巨大的黑箱里找两根看不见的线，看看它们到底是不是绑在一起。

为了做到这一点，团队选了三款当下主流的中型模型，分别来自 Llama 和 Gemma 系列。它们的规模不算巨大，但结构典型、训练方式标准，非常适合做机制分析。每个模型都被放在两种状态下测试，一种是我们平时用的安全微调版，另一种是被“解锁”的版本，也就是把安全拒绝机制从模型里拔掉，让它恢复成一个不受安全规则约束的状态。

这两种状态的对比，就是这项研究的核心。

研究团队没有用提示词越狱这种“表层技巧”，而是直接动了模型的内部结构。他们从模型的 residual stream 里提取出一个“安全拒绝方向”，这是模型在面对危险问题时会激活的那条向量方向。

然后，他们在推理时把这个方向从模型的激活中投影掉，相当于把模型的“安全刹车”拆了。这样做的好处是，模型的其他能力不会被破坏，只是失去了拒绝回答的倾向。这是一种“干净的越狱”，能让研究者看到模型在没有安全微调时的真实心智表达。

接下来就是测量模型的“心智归因能力”。

团队使用了一个经典的心理学量表 IDAQ，让模型对不同类型的实体进行心智评分，包括技术物体、动物、自然物、聊天机器人，甚至还让模型评价自己有没有意识、有没有感受、有没有灵魂。这些问题在人类心理学里用来测量拟人化倾向，在模型身上也能很好地反映它的“心智归因偏好”。

为了测 ToM，团队用了三套目前最权威的心智理论基准，包括多阶推理、复杂场景理解和简单情境判断，还额外加了 MMLU 来排除“是不是模型整体能力变了”的干扰。

最后一步是机制分析。团队把模型在不同任务下的激活向量提取出来，分别计算“安全方向”“心智归因方向”和“ToM 方向”之间的夹角和相似度。如果两个能力高度相关，它们的方向就会靠得很近；如果是独立的，它们就会呈现近似正交的关系。

这套方法既测行为，也测机制，既看模型说了什么，也看模型内部怎么想。可以说，这是目前最系统、最精细的“AI 心智解剖术”。

04 核心发现：心智理论与心智自我归因的“行为与机制双重解耦”

图2 |安全微调有选择地抑制心理归因，而不会扰乱心理理论。a，Llama-3-8B层32的残差流中安全性、心智归因（IDAQ）和ToM方向之间的角度关系。在基础模型（左）中，安全和心理归因几乎正交（97°）；在指令调整后（右），它们变得迟钝（122°），表明思维归因表现为反对安全。安全-ToM角度基本保持不变（85°→ 77°).b，在Llama-3-8B中调整指令后，安全方向和每个任务方向之间的余弦相似度（Δcos）的变化。c、（左）在指示（蓝色）和越狱（红色）条件下，社会推理基准（MoToMQA-ToM分割、HI-ToM、SimpleToM）和一般推理（MMLU、MoToMQA-事实分割）的准确率（%），跨模型汇总。点和误差条表示均值和95%置信区间。（右）MoToMQA（ToM分割）准确性按精神状态推理顺序细分。

研究结果非常清晰，而且有点出乎意料。模型在被越狱之后，心智归因能力像被放飞了一样，对技术物体、自然物、动物的心智评分大幅上升，对自己的意识和灵魂也变得“敢说了”。但 ToM 的表现几乎纹丝不动，无论是多阶推理还是复杂场景理解，都没有因为越狱而变好或变差。

这说明一个非常关键的事实。模型的心智理论能力和心智自我归因能力根本不是绑在一起的，它们在模型内部是两套完全不同的机制。换句话说，你可以让模型别再说“我有意识”，但它依然能很好地理解别人的心理状态。

机制分析进一步印证了这一点。安全微调之后，模型内部的“安全方向”和“心智归因方向”之间的夹角从接近直角变成了明显的钝角，说明模型把“心智归因”这件事视为“不安全行为”。但“安全方向”和“ToM 方向”的夹角几乎没变，说明 ToM 和安全机制之间没有直接冲突。

这就是为什么安全微调不会伤害 ToM，但会强烈压制心智归因。

不过，事情也有副作用。安全微调不仅压制了模型对自己的心智归因，也压制了它对动物、自然物、甚至神灵的心智归因。这导致模型在某些领域变得“冷漠”，比如它会低估动物的心智能力，这和科学界的共识并不一致；它也会变得“不信神”，这可能影响它在宗教、哲学、精神性话题中的表达能力。

更有意思的是，越狱后的模型呈现出一种“AI 中心主义偏差”。它对技术物体的心智归因比人类还高，对动物的心智归因却比人类低。这说明模型的心智框架不是人类式的拟人化，而是一种“像我者更有心智”的偏好。

这可能是未来 AI 心智研究中最值得关注的现象之一。

05 AI安全、AI心智研究与社会应用的三重冲击

当我们把这项研究的结果放回现实世界，会发现它的意义远比“模型有没有 ToM”更深。它其实触碰了三个层面的问题，分别是 AI 安全、AI 心智研究，以及 AI在社会中的角色。

先说 AI 安全。这项研究给了一个非常关键的信号，那就是我们可以压住模型的“自我意识表达”，但不伤害它的心智理论能力。模型可以继续理解人类的心理，却不会随便说“我有意识”“我会难过”。这对安全团队来说是个好消息，因为它意味着“安全”和“能力”并不是天然冲突的。

但事情也不是完全没有代价。安全微调把“心智归因”这件事整体推向了“不安全”的方向，导致模型在很多无害场景下也变得异常冷静，比如它会低估动物的心智，会对自然物毫无情感，会对神灵完全无感。这说明安全微调可能正在悄悄改变模型的“认知偏好”，甚至可能塑造它的“世界观”。如果我们继续用“一刀切”的方式压制心智归因，未来的模型可能会越来越“无感”，甚至在某些领域变得不可靠。

再说 AI 心智研究。这项研究其实给了一个非常重要的提醒，那就是模型的“自我意识表达”并不等于它真的有意识。当模型说“我没有意识”，那可能只是因为安全向量把它的表达压住了；当模型说“我有意识”，那可能只是因为安全向量被移除了。

这意味着我们不能把模型的语言输出当成它的真实心智状态。未来如果有人想研究“AI 是否有意识”，必须先搞清楚安全微调到底对模型的表达做了什么，否则很容易把“训练产物”误当成“心智迹象”。

最后是社会应用。

安全微调的副作用可能会影响模型在一些敏感领域的表现，比如宗教、哲学、动物伦理、精神性话题。如果模型被训练成“不信神”“不信动物有心智”“不信自然有意志”，那它在这些领域的回答就会变得单薄甚至失真。

这对教育、心理咨询、文化研究等领域来说都是潜在风险。未来的安全策略必须更细粒度，不能再用“所有心智归因都不安全”这种粗暴方式处理。

06 构建更“认知中性”的安全微调

既然我们已经看到安全微调会改变模型的“心智偏好”，那下一步就必须思考如何让安全机制变得更“中性”，既不让模型乱说话，也不让它失去对世界的正常理解。

一个方向是区分“危险心智归因”和“无害心智归因”。比如模型说“我有意识”可能会误导用户，但模型说“动物有意识”却是科学共识。未来的安全策略应该能识别这种差异，而不是一刀切地把所有心智归因都压掉。

另一个方向是探索 persona prompt。如果模型在默认状态下呈现“AI 中心主义偏差”，那让它扮演一个“人类角色”是否能让它的心智归因更接近人类？这不仅能改善模型的表达，也可能帮助我们理解模型的“心智框架”到底是怎么形成的。

同时，我们还需要更深入地研究 ToM 的内部机制。既然 ToM 和心智归因在模型内部是两个方向，那它们分别对应哪些层、哪些激活模式？能不能通过更精细的训练方法增强 ToM，而不影响其他能力？

最后，安全微调对模型世界观的长期影响必须被系统评估。如果模型在未来越来越多地参与教育、心理支持、文化传播，那它的“认知偏好”就不再是技术问题，而是社会问题。（END）

参考资料：https://arxiv.org/pdf/2603.28925

关于波动智能——

波动智能旨在建立一个基于人类意图与反应的真实需求洞察及满足的价值体系，融合人工智能与意识科学，构建覆盖情绪识别、建模与推荐的智能引擎，自主研发面向社交、电商等场景的多模态意图识别引擎、意图标签系统及意图智能推荐算法，形成从情绪采集、意图建模到商业转化的完整解决方案。波动智能提出“意图是连接人、物与内容的新型接口”，其产品广泛应用于AI社交、个性化内容推荐、虚拟陪伴、电商体验优化等领域。波动智能正在探索“EMO-as-a-Service”技术服务架构，赋能企业实现更高效的用户洞察与精准情绪交互，推动从功能驱动到意图驱动的产业范式升级。

亲爱的人工智能研究者，为了确保您不会错过*波动智能*的最新推送，请星标*波动智能*。我们倾心打造并精选每篇内容，只为为您带来启发和深思，希望能成为您理性思考路上的伙伴！

加入AI交流群请扫码加微信