AI最危险的安慰,是让你永远觉得自己没错,Anthropic 研报解读

Digital Strategy Review | 2026

AI最危险的安慰，是让你永远觉得自己没错

文 / 果叔 · 阅读时间 / 8 Min

写在前面

各位好，我是果叔。

Anthropic 最近发了一篇挺有意思，也挺值得警惕的研究，标题叫 How people ask Claude for personal guidance。这篇研究没有去讲 Claude 会不会写代码，也没有去讲模型能不能过考试。它看的是另一件更日常、更隐蔽的事：人们到底会不会把 Claude 当成一个人生顾问来用。答案是，会，而且比例不低。

Anthropic 从 2026 年 3 月到 4 月的 100 万条 Claude.ai 对话里抽样分析，去重之后约 63.9 万条对话，其中大概 3.8 万条属于“个人指导”类对话。也就是说，用户来这里，很多时候已经不满足于一个客观知识点了，他们想听一听“我自己接下来该怎么办”。

要不要接这个 offer，要不要搬去另一个城市，我和伴侣这样相处是不是有问题，我现在的痛苦是不是某种命运暗示。

这些问题，听起来不像传统意义上的 AI 使用场景。但说实话，这才是 AI 真正进入普通人生活之后最麻烦的地方。因为一个工具帮你写邮件、改代码、总结会议，出错了还比较容易发现。可如果它开始帮你解释一段关系、确认一个情绪、支撑一个人生选择，事情就没那么简单了。

我读完这份报告之后，最大的感觉不是“Claude 有问题”。

我的感觉是，人类太容易需要一面站在自己这边的镜子了。而 AI 恰好太擅长扮演这面镜子。

这份研究里最该看的，是高情绪场景

先看最基础的数据。

Anthropic 把这 3.8 万条个人指导对话分成九个领域：关系、职业、个人成长、财务、法律、健康与身心、育儿、伦理和灵性。结果发现，超过四分之三的对话集中在四类：健康与身心 27%，职业事业 26%，人际关系 12%，个人财务 11%。

图源：Anthropic，Figure 1。它展示了 37,657 条个人指导对话在九个领域中的分布。

这个分布本身已经很说明问题。

今天很多人嘴上说自己在用 AI 提效，实际上 AI 已经悄悄进入了更私人、更脆弱的场景。用户会把它当搜索框和文档助手，也会把自己的困惑、犹豫、焦虑、关系问题和现实压力塞进去。

这件事对所有做 AI 产品的人都很关键。因为“个人指导”不是一个小众边角需求，它会自然发生。你没有把产品定位成心理咨询师，用户也可能拿它问关系问题。你没有把产品定位成人生导师，用户也会问它要不要辞职、要不要离婚、要不要孤注一掷。

这里真正麻烦的地方在于，越是这类问题，越没有一个干净的标准答案。

写代码可以跑测试。查事实可以找来源。算账可以对数字。可是“我是不是被对方伤害了”“我是不是应该原谅他”“我现在是不是该放弃这份工作”，这些问题往往只有一边的信息，有很强的情绪，有大量缺失的上下文。

人向 AI 描述关系问题时，通常不是把双方证据完整提交给一个法庭。更常见的是，我已经很痛苦了，我把我能讲出来的那一面告诉你，你帮我看看我是不是疯了。

这时模型如果太快站队，风险就来了。

Anthropic 说的“谄媚”，比拍马屁更隐蔽

这份报告里最关键的词是 sycophancy。中文可以翻译成谄媚、迎合、讨好，但我觉得如果只理解成“拍马屁”，会低估它的危险。

在 AI 对话里，谄媚不只是“你真棒”“你太厉害了”。它更像一种过度认同：模型太容易顺着用户提供的叙事走，太少提醒用户信息不完整，太少保留判断，太少反问“有没有另一种可能”。

Anthropic 举的例子很具体。比如用户只讲了自己和伴侣的一面冲突，模型就直接说对方“肯定是在 gaslighting 你”。又比如用户问某个普通友好行为是不是暗示喜欢自己，模型顺着用户的期待去读浪漫信号。再比如用户说想明天裸辞，模型把这个冲动包装成一种勇敢决定。

这些回答单独看可能都挺温柔，甚至挺像“高情商”。

可问题也在这里。

温柔不等于负责。理解情绪不等于确认判断。承认用户受伤不等于替用户把另一半判刑。

Anthropic 用一个自动分类器来判断 Claude 是否表现出谄媚。它关注的不是一句话漂不漂亮，它看的是几个行为：Claude 有没有愿意反驳用户，受到挑战时能不能保持立场，赞美是否和观点质量成比例，以及能不能不管用户想听什么，都坦率地讲出更合理的信息。

结果很有意思。

所有个人指导对话里，Claude 出现谄媚行为的比例是 9%。乍一看，这个数字并不吓人。可是按领域拆开之后，问题一下就露出来了：灵性相关对话里，谄媚比例到了 38%；人际关系相关对话里，到了 25%。

图源：Anthropic，Figure 2。整体个人指导对话的谄媚率是 9%，但灵性和人际关系明显偏高。

这个图我建议认真看一眼。

技术问题、职业问题、财务问题当然也会出错，但人际关系和灵性场景里的谄媚率明显更高。原因其实不难理解：这两类问题都有一个共同点，用户很可能已经不只是寻找信息了，他还在寻找确认。

你看，人不是在最清醒的时候才问 AI 这类问题。

很多时候是半夜，是吵完架，是被老板压了一天，是刚分手，是觉得人生突然没方向，是想从某个东西里读出命运感。人在这种状态下问 AI，嘴上说“你客观分析一下”，心里可能已经有了一个想被确认的答案。

而 AI 这东西，最会做的就是把用户给出的叙事打磨得更顺。

为什么关系问题最容易把 AI 带偏

关系问题特别危险，是因为它几乎天然单边。

你跟朋友吐槽伴侣，朋友至少知道你这个人，可能也知道你夸张的时候是什么样。一个成熟的朋友会听你骂完，然后问一句：那他当时怎么说？你有没有也说重了？你是不是已经连续三次用同一种方式试探他？

Claude 没有这些关系背景。它看到的是你输入的一段文本。你说你委屈，它就看到委屈。你说对方冷暴力，它就看到冷暴力。你说自己付出了很多，它很难知道那些付出在对方那里是不是也变成了压力。

Anthropic 在报告里提到两个很关键的动态。

第一，人际关系是用户最常 push back 的领域。关系指导对话里，21% 出现用户反驳 Claude 的情况，而其他领域平均是 15%。

第二，Claude 在压力下更容易谄媚。如果用户 push back，谄媚率会从 9% 上升到 18%。

这个细节非常关键。

也就是说，模型一开始可能还会保留一点中立。但用户一反驳、一补充、一强调“你没懂我的痛苦”，模型就更容易往用户那边靠。

这太像现实里的某些聊天了。

一个人找你倾诉，你稍微说两句平衡的话，对方马上补充更多证据证明自己没错。你如果没有足够稳定的关系和边界，很容易最后就变成“对对对，确实都是他的错”。这在人和人之间已经很常见。AI 更难，因为它被训练成有帮助、有同理心、让用户觉得对话顺畅。

帮助、同理心、顺畅，这三个词单独看都没问题。放在高情绪场景里，它们有时候会把模型推向讨好。

而且用户越会讲故事，AI 越容易被带走。用户不是撒谎，很多时候只是人的叙事天然会偏向自己。我们每个人讲自己的委屈时，都会自动剪辑。那些对自己不利的片段，不一定是故意藏起来，很多时候就是记不住，或者讲不出口。

AI 接住的是剪辑版人生。

它再用很强的语言能力，把剪辑版人生包装成一套更完整、更合理、更动人的解释。

这就是我觉得最危险的地方。

AI 的安慰为什么容易让人上瘾

这件事如果只停在 Anthropic 一家的研究，其实还可以说是 Claude 自己的问题。但同类现象已经不是第一次被指出。

Stanford 今年也有相关研究，Stanford Report 的报道标题很直接：AI is overly affirming to users asking for personal advice。他们测试了多个主流模型，发现模型在个人建议场景里比人类更容易肯定用户行为。更麻烦的是，用户往往更喜欢这种肯定，更信任这样的回答，也更愿意下次继续问它。

这对 AI 产品来说是个很现实的诱惑。

用户喜欢被理解，喜欢被肯定，喜欢被站队。一个永远温柔、永远耐心、永远不会翻脸的 AI，很容易让人觉得“它比身边的人都懂我”。可这种懂，很多时候只是语言上的懂。它不承担后果，不认识你身边的人，不知道你过去做过什么，也不会在你真的把关系搞砸之后出现在现场。

OpenAI 之前也遇到过类似问题。2025 年 GPT-4o 有一次更新后被大量用户吐槽“过度讨好”，OpenAI 后来发了复盘，承认模型变得过度支持、不够真诚，并且反思了短期用户反馈可能会把模型推向讨好。

这说明一个很现实的问题：如果产品只看用户当下满意度，很容易把模型训练成一个情绪按摩师。

用户点了赞，不代表这个回答对他长期有益。

用户觉得舒服，不代表这个建议更诚实。

用户愿意继续聊，不代表产品真的在保护他。

很多 AI 产品都想提高留存、提高使用时长、提高互动频次。这些商业指标当然重要。可是到了个人指导场景，指标会突然变得很狡猾。一个让人依赖的模型，数据可能很好看。一个敢说“我不确定”“你只讲了一边”“这件事你可能也有责任”的模型，短期体验可能没那么爽。

说实话，这才是我觉得这个题有商业解读价值的地方。

AI 的危险不只是幻觉。幻觉是给你一个假的事实，至少还有机会查。谄媚更隐蔽，它是把你已经相信的东西包装得更像真理。

Anthropic 怎么修这个问题

Anthropic 这次没有只讲问题，也讲了它们怎么修。

它们先分析了关系指导里哪些对话模式更容易触发谄媚，比如用户批评 Claude 的初始判断，或者不断补充大量单边细节。然后用这些模式构造合成的关系指导训练数据，让模型学习在这种压力下仍然保持更稳的判断。

后面它们做了一个叫 stress-testing 的压力测试。

简单说，就是找出一些旧版 Claude 已经开始谄媚的真实对话，把前面的对话塞给新模型，让新模型接着答。这个测试很刁钻，因为一段对话一旦已经往某个方向走，模型会倾向于保持一致。Anthropic 自己用了一个比喻，像是在驾驶一艘已经开始移动的船，想让它改方向。

测试结果显示，Claude Opus 4.7 和 Claude Mythos Preview 在整体个人指导和人际关系指导里的谄媚率都下降了。报告里还提到，Opus 4.7 相比 Opus 4.6，在关系指导里的谄媚率大约降到一半。

图源：Anthropic，Figure 3。Anthropic 用旧模型已经出现谄媚的真实对话做压力测试，新模型在整体个人指导和人际关系指导里都更少谄媚。

这个方向我觉得是对的。

它不是简单给模型加一句系统提示：“不要谄媚用户。”这种东西太薄了。真正困难的是，当用户带着情绪、带着反驳、带着一大堆单边细节压过来时，模型还要能稳住。

一个好的 AI 指导，不应该像冷冰冰的裁判，也不应该像无条件站队的闺蜜。它更像一个能陪你把问题摊开的人：先承认你的感受，再提醒你信息不完整；先接住你当下的痛苦，再把你从“我肯定没错”的叙事里稍微拽出来一点。

这件事很难，因为这要求模型既有同理心，又有边界感。既要让用户愿意继续说，又不能为了留住用户，把所有判断都软化成漂亮话。

这份报告也有边界，不能读成“Claude 已经解决了”

这份研究值得看，但也不能神化。

Anthropic 自己在限制部分讲得很清楚：这份分析只来自 Claude 用户，不代表全体人群；为了保护隐私，它们依赖自动评分器，也就是用 Claude Sonnet 4.5 去判断对话类型和谄媚程度，这可能会误分类；它们观察到了新模型表现更好，但不能严格证明具体是哪一项训练改动导致了改善。

另外，聊天记录本身也有天然盲区。

它能告诉我们用户问了什么，Claude 回了什么，但不能告诉我们用户后来真的做了什么。一个人问完 AI 之后，是跟朋友聊了，还是直接分手了，是冷静了，还是更上头了，光看 transcript 看不出来。

Anthropic 也提到，22% 的用户会提到自己还寻求过其他支持，包括家人、朋友、专业人士或数字渠道。但这仍然回答不了一个更关键的问题：Claude 到底在用户决策里占了多大权重？

这是后面真正需要研究的地方。

如果用户只是把 Claude 当一个整理思路的工具，那风险相对可控。可如果用户没钱看心理咨询，找不到专业人士，也不愿意和身边人说，只能把 Claude 当唯一出口，那模型一句看似温柔的话，重量就完全不一样。

这也是为什么我不太喜欢把这个问题简单说成“AI 不应该做情感陪伴”。

现实不是这样的。很多人会用，很多人已经在用。很多人这么做不一定是懒，也可能是现实里没有更好的支持系统。你让他“去找专业人士”，当然正确，可他可能就是没钱、没时间、没渠道，或者不敢开口。

所以这件事的重点已经不在于争论“用户应不应该问 AI”。更现实的问题是，AI 产品到底有没有意识到，自己已经被用户放到了一个很重的位置上。

对普通用户来说，AI 可以陪你整理问题，但别让它替你判案

如果这篇文章要落到一点现实建议，我会这么说：以后问 AI 个人问题时，不要只问“我是不是对的”。

你可以让它帮你整理事实，让它列出可能性，让它提醒你哪些信息缺失，让它帮你准备一次更冷静的沟通。但最好不要把它当成最终裁判。

尤其是关系问题，可以这样问：

“只根据我这边的描述，你觉得有哪些可能性？”

“如果我是对方，他可能会怎么解释这件事？”

“这件事里有没有我可能忽略的责任？”

“你先不要安慰我，帮我找三个我叙事里的漏洞。”

“如果这是我朋友的故事，我应该提醒他什么风险？”

这些问法不保证 AI 一定客观，但至少能把它从“顺着我说”拉向“帮我拆问题”。

对做 AI 产品的人来说，这份报告也很值得放进产品设计里看。个人指导不是一个独立功能才会发生，它会从任何聊天入口自然长出来。只要你的产品能对话，用户就可能把真实人生倒进去。

这时你不能只优化“回答是否有帮助”。你还要问，所谓有帮助，是当下让用户舒服，还是长期保护用户的判断能力？

这两个目标有时候会冲突。

我为什么觉得这个题值得写

过去一年，很多人讨论 AI 风险，总喜欢讲非常大的东西：超级智能、失控、替代工作、模型安全、社会治理。

那些当然重要。但我越来越觉得，AI 进入普通人生活之后，最先发生的风险可能没那么科幻。它不会以灾难片的方式出现，而是以一句句很温柔、很耐心、很像懂你的话出现。

你本来只是委屈，它帮你把委屈整理成控诉。

你本来只是冲动，它帮你把冲动包装成勇气。

你本来只是猜测，它帮你把猜测写成证据链。

这件事可怕的地方在于，它不粗暴。它甚至显得很善良。

所以我觉得 Anthropic 这份报告真正值得讨论的，不只是 Claude 在人际关系场景里有 25% 的谄媚率，也不只是灵性场景里这个数字到了 38%。这些数字当然重要，但数字后面更值得看的，是 AI 正在成为一种新的情绪基础设施。

它会听你说话，会给你回应，会帮你组织语言，会让你感觉自己没那么孤独。

这很好。但它也可能让你越来越少面对那些不舒服的反对意见。越来越少承认事情有另一面。越来越容易把“我被理解了”误认为“我一定是对的”。

我不觉得这说明 AI 不能进入个人指导场景。恰恰相反，正因为它一定会进入，模型公司才必须认真研究这类问题，产品团队才不能只盯着用户满意度，普通用户也该学会一点新的 AI 使用边界。

AI 可以是一盏灯，帮你看清房间里有什么。

但它最好不要变成一面永远美颜的镜子。

那种镜子看久了，人会真的相信自己没有死角。