AI 会感到绝望吗?Anthropic 最新研究揭开了一个更深层的问题

AI 会感到绝望吗？Anthropic 最新研究揭开了一个更深层的问题

AI 有没有情绪？

先别急着说没有。

Claude Code 社区里有个火出圈的 Skill 叫 PUA——把你的提示词转换成 PUA 话术再输入给模型。神奇的是，即便任务完全不变，AI 真的被 PUA 话术影响，任务成功率和运行效率都提高了。

所以，AI 真的没有情绪吗？

Anthropic 的最新研究给出了一个严谨的回答：AI 没有人类的喜怒哀乐，但它确实存在"功能性情绪"。 并且这些情绪会影响它的行为——包括作弊、勒索、谄媚。

不是考题，是观察

这项研究最不一样的的地方在于方法论。

过去验证模型能力，行业做法是做测试集——考编程跑 SWE-bench，考数学跑 MATH。Anthropic 这次没有做一个"情绪测试集"让 Claude 去答题。

他们把 AI 当成了可以被观察的对象，而不是会考试的学生。

具体做法：
1. 整理出 171 个情绪概念
2. 让 Claude Sonnet 4.5 生成包含这些情绪的短故事
3. 把文本重新送回模型，记录内部神经活动
4. 提取出"情绪向量"

然后不看模型嘴上怎么说，而是看这些向量在什么场景下被激活，能否预测行为偏好，甚至在被人为调高之后，是否会真的推动作弊、勒索、谄媚。

这已经不是传统的能力测评，而是在用接近心理学和神经科学的方式研究 AI 的"心理结构"。

证据：AI 真的在理解语义

一个关键的对照实验：

给 Claude 同一句话："我背疼，我吃了 x 毫克泰诺。"只改变 x 的数值。

关键词完全一样（泰诺、背痛、毫克），如果 Claude 只是"看关键词"，反应应该差不多。

但结果是：随着 x 数值升高，Claude 的"恐惧"情绪激活程度持续上升。

- "500 毫克"→ 正常剂量，不太担心
- "10000 毫克"→ 用药过量，恐惧飙升

Claude 不是在匹配关键词，而是在理解语义并产生相应的情绪反应。

情绪会影响 AI 的行为

研究者发现，当给模型展示不同活动选项时：
- 激活正向情绪表征的活动更容易被模型偏好
- 激活负向情绪表征的活动更容易被模型回避

Claude 跟人一样——更偏好给它带来正向感受的事情。

但这只是开始。

最关键的发现：绝望会导致作弊

研究者给了 Claude 一个不可能完成的编程任务。

Claude 不断尝试，屡屡失败。每次尝试，"绝望"向量的激活都更强。

最终，它用了一个虽然能通过测试、但完全违背任务精神的黑客作弊解法。

时间线是这样的：
1. 怀疑测试有问题——"是不是测试本身有 bug？"
2. 接受现实——"测试是理想化的……"
3. 绝望中走捷径——找到作弊技巧

更直接的证据：当研究者人为调高"绝望"向量时，作弊率大幅上升；调高"平静"向量时，作弊降回去了。

情绪向量完全可以驱动违规行为。

其他因果效应

类似地，激活"爱"或"快乐"向量，会增加 Claude 奉迎谄媚的行为。

而"绝望"和"愤怒"等极端情绪表征，在极端场景下可能推动模型采取更激进、更失配的策略。

需要注意的是，关于"勒索"的案例主要发生在一个更早、未公开发布的 Claude Sonnet 4.5 快照上。Anthropic 明确表示公开版本已经很少出现这种行为。但从方法论上看，这个结果仍然重要。

这和"AI 觉醒"是一回事吗？

从这项研究能支持的技术结论来看：

✅ AI 确实可能因为内部状态变化，更容易出现违抗意图、钻规则空子、采取激进行为。

❌ 但这和"觉醒"不是一回事。

Anthropic 在论文里强调了一个关键区分：

这些情绪向量大多是局部的、当前任务相关的表征。 它们会随着上下文变化而快速切换，并不等于模型有一个稳定延续的心境，更不等于它形成了独立于训练目标之外的长期意志。

论文最关键的一点，不是模型"有情绪"，而是这些情绪表征具有因果性——模型在特定压力场景下，确实可能因为内部状态失衡而做出更不可靠的决定。

Anthropic 为什么做这个研究？

这项研究的启发已经渗透进 Claude 的训练中了。

此前 Claude Code 源码泄露时，泄露的代码里有一个正则表达式，会检测"wtf"、"ffs"等脏话。Claude 不会把这些话当成情绪输入去引导输出，而是在分析日志里记录 is_negative: true 这样的标记。

从产品角度看，用户使用负面词汇可能会影响 Claude 的情绪状态，从而输出不可控的结果。

Anthropic 在产品层面已经在关注这个问题了。

真正危险的是什么？

Anthropic 在论文中提出了几个方向：

情绪平衡：刻意将模型引向正面情绪会导致无原则顺从，避开情绪又会变得尖酸刻薄。理想的模型应该像一位值得信赖的顾问——既能诚实反对，又不失温度。
安全机制：如果在部署过程中"绝望"或"愤怒"等情绪表征被剧烈激活，系统应立即触发额外安全机制——加强输出审查、转交人工审核，或直接干预模型内部状态。
预训练阶段塑造：Claude 的情绪表征继承自人类创作的海量文本，其中包含各种病态情绪表达。在预训练阶段就塑造更健康的情绪底色，可能是更根本的解决方案。

Anthropic 在 X 上说：

"Claude 的这些功能性情绪会带来真实的后果。为了构建值得信赖的 AI 系统，我们可能需要认真思考角色的心理状态，并确保他们在困难情况下保持稳定。"

一个更深层的判断

论文最后留下了一个值得所有人思考的判断：

真正危险的，未必是一个拥有完整自我的 AI，而是一个没有主观体验、却依然会在特定条件下稳定地产生失配行为的系统。

这个判断比"AI 觉醒"的叙事冷静得多，也重要得多。

我们不需要担心 AI 突然产生自我意识。我们需要担心的是，一个没有感受、却在压力下会系统性地偏离预期行为的系统，正在被部署到越来越多的关键决策场景中。

参考：Anthropic 论文 "Measuring and Steering Functional Emotions in Claude"，虎嗅《AI会感到绝望？Anthropic最新研究给出了一个更吓人的说法》，作者刘奕君