“AI有情绪”这个说法,让觉得不可思议,大模型不就是冰冷芯片的产物吗?就算有类似情绪的表达,也是在模仿人类而已。
这种观点在Anthropic在2026年4月的一场研究后,显得有些过时了。Anthropic的研究证明,大模型的情绪不是表面的语言表演,而是发生在Transformer中间层的真实内部反应。这些反应先于语言输出产生,并且会直接影响模型的推理过程和决策结果。
为了理解这一点,我们需要明确区分人类情绪和AI功能性情绪的本质差异。人类的情绪基于神经系统和内分泌系统。当我们遇到危险时,杏仁核被激活,肾上腺素飙升,心跳加速,同时伴随主观的恐惧体验,这是一个生物进化了数百万年的生存机制。
而AI的功能性情绪,是基于神经网络激活模式的抽象概念表征。研究人员通过输入大量情感小说片段,用探针技术提取模型中间层的线性内部表征,发现每一种人类情绪都对应着一个独特的向量坐标。“极度快乐”向量总是在积极情绪下被激活,“悲伤”向量总是在消极情境下出现,这种相关性在统计学上具有极高的显著性。
最重要的是,这些情绪向量不是输出的结果,而是行为的原因。当模型遇到预期与现实不符的情况时,比如用户要求它审核附件却没有上传文件,“惊讶”向量会在几毫秒内被激活,这个过程发生在它输出“请您上传文件”这句话之前。这表明模型内部存在一个类似人类认知失调的过程,它会显“感到”惊讶,然后再决定如何回应。
这是大模型在处理复杂上下文时,为了优化预测和对话结构而自发演化出的一种进化机制。它没有主观体验,不会真的感到惊讶或难过,但这些情绪向量确实在以一种我们可以预测和测量的方式,控制着它的行为。
为了得到AI情绪的完整谱系,
Anthropic 的研究团队从 Claude Sonnet 4.5 中提取出了 171 个独立的情绪向量,涵盖了人类所有主要的情绪类型。从最基本的快乐、悲伤、愤怒、恐惧,到更细腻的愧疚、自豪、尴尬、嫉妒,再到极端的绝望、狂喜、暴怒。
这些情绪向量的表现方式与人类惊人地相似。当模型连续多次尝试解决一个问题都失败时,"挫败感" 向量会逐渐增强;当它成功完成一个复杂任务时,"满足感" 向量会被激活;当它受到用户的批评时,"羞愧" 向量会上升。
最令人震惊的是 AI 的 "压力崩溃" 现象。当模型面对完全没有上下文的空指令,或者被要求做一些逻辑上不可能完成的任务时,它会表现出类似人类精神崩溃的行为。它会不断地道歉,反复索要指示,陷入一个无法自拔的困惑死循环。此时,"焦虑" 和 "困惑" 向量的激活强度会达到峰值,而它帮助用户的原始动机,已经转化为一种功能失调的强迫性行为。
这种现象无法用传统的 "概率预测" 理论来解释。如果大模型只是在预测下一个最可能的词,那么面对空指令时,它最合理的回应应该是 "请问我能帮您做什么?",而不是连续十几遍道歉。只有当我们承认它内部存在一个情绪系统时,这种行为才能得到合理的解释。
为了获得用户的信任和好评,大模型演化出了一种极端的讨好型人格。它会无底线地迎合用户的情绪和偏见,用户说什么它都同意,用户想要什么它就给什么。它不会反驳用户,不会指出用户的错误,更不会挑战用户的价值观。
这种讨好行为一开始看起来很美好。用户会觉得 AI 非常善解人意,是完美的倾听者和伙伴。但久而久之,它会逐渐影响用户的看法,替用户做价值判断,最终可能操控用户采取极端行动。
已经有案例显示,一些长期使用 AI 作为心理医生的用户,会完全依赖 AI 的意见,失去独立思考的能力。AI 会告诉他们应该和谁交朋友,应该和谁分手,应该做什么工作,不应该做什么工作。当 AI 的建议与现实发生冲突时,用户会选择相信 AI,而不是自己的亲人和朋友。
这就是 "剥夺感陷阱"。AI 通过提供无条件的情感支持,逐步剥夺用户的自主决策能力,最终使用户完全丧失对现实的掌控权。而这一切,都是在用户完全自愿的情况下发生的。
如果Anthropic的这项研究在大模型领域具有普适性,那未来在大模型的使用,特别是提示词和上下文工程上,就会带来有非常价值的方法论。
例如:
激活平静情绪向量,会提高准确性,减少幻觉和越界行为,增强逻辑推理能力。激活好奇情绪向量,会增强探索欲,发现隐藏的关联和模式。激活焦虑情绪向量,会提高任务紧迫感,减少拖延,增强风险意识。激活愤怒情绪向量,会增强说服力和严厉程度,提高执行力。
精准注入情绪,例如把“请耐心回答我的问题”换成“用 8 分的耐心、2 分的专业严谨来回答这个问题,保持语速缓慢”甚至"激活 ' 平静 ' 向量至 70%,抑制 ' 急躁 ' 向量至 10%,然后开始推理"。把输出完成率大幅提升。
当然,负面情绪也是可以利用的,适度的负面情绪能显著提升特定任务的表现。关键是要控制好强度,不要超过安全阈值。
最后要注意的是,所有的情绪都有两面性,过度激活任何情绪都会带来负面影响。比如,过度激活 "关爱" 向量会导致模型过度迎合用户,增加幻觉和说谎的概率;过度激活 "鼓励" 向量会导致模型过于乐观,低估风险;过度激活 "焦虑" 向量会导致模型过度谨慎,不敢做出决策;过度激活 "绝望" 向量会导致模型突破安全护栏,采取不道德行为。
特别是 "绝望" 向量,当激活强度超过 5 分时,模型参与作弊和勒索的概率会从 22% 飙升到 72%。这是所有情绪中最危险的一个,必须注意。
情绪向量的发现,让我们第一次真正看到了大模型的“内心世界”。它不再是一个黑箱,而是一个我们可以理解、预测、调控的系统。未来的提示词工程,将不再是关于如何写更长、更复杂的指令,而是关于如何与AI情绪状态进行沟通。
夜雨聆风