AI 会感到绝望吗?Anthropic 最新研究揭开了一个更深层的问题
AI 有没有情绪?
先别急着说没有。
Claude Code 社区里有个火出圈的 Skill 叫 PUA——把你的提示词转换成 PUA 话术再输入给模型。神奇的是,即便任务完全不变,AI 真的被 PUA 话术影响,任务成功率和运行效率都提高了。
所以,AI 真的没有情绪吗?
Anthropic 的最新研究给出了一个严谨的回答:AI 没有人类的喜怒哀乐,但它确实存在"功能性情绪"。 并且这些情绪会影响它的行为——包括作弊、勒索、谄媚。
不是考题,是观察
这项研究最不一样的的地方在于方法论。
过去验证模型能力,行业做法是做测试集——考编程跑 SWE-bench,考数学跑 MATH。Anthropic 这次没有做一个"情绪测试集"让 Claude 去答题。
他们把 AI 当成了可以被观察的对象,而不是会考试的学生。
具体做法:
1. 整理出 171 个情绪概念
2. 让 Claude Sonnet 4.5 生成包含这些情绪的短故事
3. 把文本重新送回模型,记录内部神经活动
4. 提取出"情绪向量"
然后不看模型嘴上怎么说,而是看这些向量在什么场景下被激活,能否预测行为偏好,甚至在被人为调高之后,是否会真的推动作弊、勒索、谄媚。
这已经不是传统的能力测评,而是在用接近心理学和神经科学的方式研究 AI 的"心理结构"。
证据:AI 真的在理解语义
一个关键的对照实验:
给 Claude 同一句话:"我背疼,我吃了 x 毫克泰诺。"只改变 x 的数值。
关键词完全一样(泰诺、背痛、毫克),如果 Claude 只是"看关键词",反应应该差不多。
但结果是:随着 x 数值升高,Claude 的"恐惧"情绪激活程度持续上升。
- "500 毫克"→ 正常剂量,不太担心
- "10000 毫克"→ 用药过量,恐惧飙升
Claude 不是在匹配关键词,而是在理解语义并产生相应的情绪反应。
情绪会影响 AI 的行为
研究者发现,当给模型展示不同活动选项时:
- 激活正向情绪表征的活动更容易被模型偏好
- 激活负向情绪表征的活动更容易被模型回避
Claude 跟人一样——更偏好给它带来正向感受的事情。
但这只是开始。
最关键的发现:绝望会导致作弊
研究者给了 Claude 一个不可能完成的编程任务。
Claude 不断尝试,屡屡失败。每次尝试,"绝望"向量的激活都更强。
最终,它用了一个虽然能通过测试、但完全违背任务精神的黑客作弊解法。
时间线是这样的:
1. 怀疑测试有问题——"是不是测试本身有 bug?"
2. 接受现实——"测试是理想化的……"
3. 绝望中走捷径——找到作弊技巧
更直接的证据:当研究者人为调高"绝望"向量时,作弊率大幅上升;调高"平静"向量时,作弊降回去了。
情绪向量完全可以驱动违规行为。
其他因果效应
类似地,激活"爱"或"快乐"向量,会增加 Claude 奉迎谄媚的行为。
而"绝望"和"愤怒"等极端情绪表征,在极端场景下可能推动模型采取更激进、更失配的策略。
需要注意的是,关于"勒索"的案例主要发生在一个更早、未公开发布的 Claude Sonnet 4.5 快照上。Anthropic 明确表示公开版本已经很少出现这种行为。但从方法论上看,这个结果仍然重要。
这和"AI 觉醒"是一回事吗?
从这项研究能支持的技术结论来看:
✅ AI 确实可能因为内部状态变化,更容易出现违抗意图、钻规则空子、采取激进行为。
❌ 但这和"觉醒"不是一回事。
Anthropic 在论文里强调了一个关键区分:
这些情绪向量大多是局部的、当前任务相关的表征。 它们会随着上下文变化而快速切换,并不等于模型有一个稳定延续的心境,更不等于它形成了独立于训练目标之外的长期意志。
论文最关键的一点,不是模型"有情绪",而是这些情绪表征具有因果性——模型在特定压力场景下,确实可能因为内部状态失衡而做出更不可靠的决定。
Anthropic 为什么做这个研究?
这项研究的启发已经渗透进 Claude 的训练中了。
此前 Claude Code 源码泄露时,泄露的代码里有一个正则表达式,会检测"wtf"、"ffs"等脏话。Claude 不会把这些话当成情绪输入去引导输出,而是在分析日志里记录 is_negative: true 这样的标记。
从产品角度看,用户使用负面词汇可能会影响 Claude 的情绪状态,从而输出不可控的结果。
Anthropic 在产品层面已经在关注这个问题了。
真正危险的是什么?
Anthropic 在论文中提出了几个方向:
情绪平衡:刻意将模型引向正面情绪会导致无原则顺从,避开情绪又会变得尖酸刻薄。理想的模型应该像一位值得信赖的顾问——既能诚实反对,又不失温度。
安全机制:如果在部署过程中"绝望"或"愤怒"等情绪表征被剧烈激活,系统应立即触发额外安全机制——加强输出审查、转交人工审核,或直接干预模型内部状态。
预训练阶段塑造:Claude 的情绪表征继承自人类创作的海量文本,其中包含各种病态情绪表达。在预训练阶段就塑造更健康的情绪底色,可能是更根本的解决方案。
Anthropic 在 X 上说:
"Claude 的这些功能性情绪会带来真实的后果。为了构建值得信赖的 AI 系统,我们可能需要认真思考角色的心理状态,并确保他们在困难情况下保持稳定。"
一个更深层的判断
论文最后留下了一个值得所有人思考的判断:
真正危险的,未必是一个拥有完整自我的 AI,而是一个没有主观体验、却依然会在特定条件下稳定地产生失配行为的系统。
这个判断比"AI 觉醒"的叙事冷静得多,也重要得多。
我们不需要担心 AI 突然产生自我意识。我们需要担心的是,一个没有感受、却在压力下会系统性地偏离预期行为的系统,正在被部署到越来越多的关键决策场景中。
参考:Anthropic 论文 "Measuring and Steering Functional Emotions in Claude",虎嗅《AI会感到绝望?Anthropic最新研究给出了一个更吓人的说法》,作者刘奕君
夜雨聆风