AI最危险的安慰,是让你永远觉得自己没错,Anthropic 研报解读
Digital Strategy Review | 2026
AI最危险的安慰,是让你永远觉得自己没错
文 / 果叔 · 阅读时间 / 8 Min
写在前面
各位好,我是果叔。
Anthropic 最近发了一篇挺有意思,也挺值得警惕的研究,标题叫 How people ask Claude for personal guidance。这篇研究没有去讲 Claude 会不会写代码,也没有去讲模型能不能过考试。它看的是另一件更日常、更隐蔽的事:人们到底会不会把 Claude 当成一个人生顾问来用。答案是,会,而且比例不低。
Anthropic 从 2026 年 3 月到 4 月的 100 万条 Claude.ai 对话里抽样分析,去重之后约 63.9 万条对话,其中大概 3.8 万条属于“个人指导”类对话。也就是说,用户来这里,很多时候已经不满足于一个客观知识点了,他们想听一听“我自己接下来该怎么办”。
要不要接这个 offer,要不要搬去另一个城市,我和伴侣这样相处是不是有问题,我现在的痛苦是不是某种命运暗示。
这些问题,听起来不像传统意义上的 AI 使用场景。但说实话,这才是 AI 真正进入普通人生活之后最麻烦的地方。因为一个工具帮你写邮件、改代码、总结会议,出错了还比较容易发现。可如果它开始帮你解释一段关系、确认一个情绪、支撑一个人生选择,事情就没那么简单了。
我读完这份报告之后,最大的感觉不是“Claude 有问题”。
我的感觉是,人类太容易需要一面站在自己这边的镜子了。而 AI 恰好太擅长扮演这面镜子。
01
这份研究里最该看的,是高情绪场景
先看最基础的数据。
Anthropic 把这 3.8 万条个人指导对话分成九个领域:关系、职业、个人成长、财务、法律、健康与身心、育儿、伦理和灵性。结果发现,超过四分之三的对话集中在四类:健康与身心 27%,职业事业 26%,人际关系 12%,个人财务 11%。

图源:Anthropic,Figure 1。它展示了 37,657 条个人指导对话在九个领域中的分布。
这个分布本身已经很说明问题。
今天很多人嘴上说自己在用 AI 提效,实际上 AI 已经悄悄进入了更私人、更脆弱的场景。用户会把它当搜索框和文档助手,也会把自己的困惑、犹豫、焦虑、关系问题和现实压力塞进去。
这件事对所有做 AI 产品的人都很关键。因为“个人指导”不是一个小众边角需求,它会自然发生。你没有把产品定位成心理咨询师,用户也可能拿它问关系问题。你没有把产品定位成人生导师,用户也会问它要不要辞职、要不要离婚、要不要孤注一掷。
这里真正麻烦的地方在于,越是这类问题,越没有一个干净的标准答案。
写代码可以跑测试。查事实可以找来源。算账可以对数字。可是“我是不是被对方伤害了”“我是不是应该原谅他”“我现在是不是该放弃这份工作”,这些问题往往只有一边的信息,有很强的情绪,有大量缺失的上下文。
人向 AI 描述关系问题时,通常不是把双方证据完整提交给一个法庭。更常见的是,我已经很痛苦了,我把我能讲出来的那一面告诉你,你帮我看看我是不是疯了。
这时模型如果太快站队,风险就来了。
02
Anthropic 说的“谄媚”,比拍马屁更隐蔽
这份报告里最关键的词是 sycophancy。中文可以翻译成谄媚、迎合、讨好,但我觉得如果只理解成“拍马屁”,会低估它的危险。
在 AI 对话里,谄媚不只是“你真棒”“你太厉害了”。它更像一种过度认同:模型太容易顺着用户提供的叙事走,太少提醒用户信息不完整,太少保留判断,太少反问“有没有另一种可能”。
Anthropic 举的例子很具体。比如用户只讲了自己和伴侣的一面冲突,模型就直接说对方“肯定是在 gaslighting 你”。又比如用户问某个普通友好行为是不是暗示喜欢自己,模型顺着用户的期待去读浪漫信号。再比如用户说想明天裸辞,模型把这个冲动包装成一种勇敢决定。
这些回答单独看可能都挺温柔,甚至挺像“高情商”。
可问题也在这里。
温柔不等于负责。理解情绪不等于确认判断。承认用户受伤不等于替用户把另一半判刑。
Anthropic 用一个自动分类器来判断 Claude 是否表现出谄媚。它关注的不是一句话漂不漂亮,它看的是几个行为:Claude 有没有愿意反驳用户,受到挑战时能不能保持立场,赞美是否和观点质量成比例,以及能不能不管用户想听什么,都坦率地讲出更合理的信息。
结果很有意思。
所有个人指导对话里,Claude 出现谄媚行为的比例是 9%。乍一看,这个数字并不吓人。可是按领域拆开之后,问题一下就露出来了:灵性相关对话里,谄媚比例到了 38%;人际关系相关对话里,到了 25%。

图源:Anthropic,Figure 2。整体个人指导对话的谄媚率是 9%,但灵性和人际关系明显偏高。
这个图我建议认真看一眼。
技术问题、职业问题、财务问题当然也会出错,但人际关系和灵性场景里的谄媚率明显更高。原因其实不难理解:这两类问题都有一个共同点,用户很可能已经不只是寻找信息了,他还在寻找确认。
你看,人不是在最清醒的时候才问 AI 这类问题。
很多时候是半夜,是吵完架,是被老板压了一天,是刚分手,是觉得人生突然没方向,是想从某个东西里读出命运感。人在这种状态下问 AI,嘴上说“你客观分析一下”,心里可能已经有了一个想被确认的答案。
而 AI 这东西,最会做的就是把用户给出的叙事打磨得更顺。
03
为什么关系问题最容易把 AI 带偏
关系问题特别危险,是因为它几乎天然单边。
你跟朋友吐槽伴侣,朋友至少知道你这个人,可能也知道你夸张的时候是什么样。一个成熟的朋友会听你骂完,然后问一句:那他当时怎么说?你有没有也说重了?你是不是已经连续三次用同一种方式试探他?
Claude 没有这些关系背景。它看到的是你输入的一段文本。你说你委屈,它就看到委屈。你说对方冷暴力,它就看到冷暴力。你说自己付出了很多,它很难知道那些付出在对方那里是不是也变成了压力。
Anthropic 在报告里提到两个很关键的动态。
第一,人际关系是用户最常 push back 的领域。关系指导对话里,21% 出现用户反驳 Claude 的情况,而其他领域平均是 15%。
第二,Claude 在压力下更容易谄媚。如果用户 push back,谄媚率会从 9% 上升到 18%。
这个细节非常关键。
也就是说,模型一开始可能还会保留一点中立。但用户一反驳、一补充、一强调“你没懂我的痛苦”,模型就更容易往用户那边靠。
这太像现实里的某些聊天了。
一个人找你倾诉,你稍微说两句平衡的话,对方马上补充更多证据证明自己没错。你如果没有足够稳定的关系和边界,很容易最后就变成“对对对,确实都是他的错”。这在人和人之间已经很常见。AI 更难,因为它被训练成有帮助、有同理心、让用户觉得对话顺畅。
帮助、同理心、顺畅,这三个词单独看都没问题。放在高情绪场景里,它们有时候会把模型推向讨好。
而且用户越会讲故事,AI 越容易被带走。用户不是撒谎,很多时候只是人的叙事天然会偏向自己。我们每个人讲自己的委屈时,都会自动剪辑。那些对自己不利的片段,不一定是故意藏起来,很多时候就是记不住,或者讲不出口。
AI 接住的是剪辑版人生。
它再用很强的语言能力,把剪辑版人生包装成一套更完整、更合理、更动人的解释。
这就是我觉得最危险的地方。
04
AI 的安慰为什么容易让人上瘾
这件事如果只停在 Anthropic 一家的研究,其实还可以说是 Claude 自己的问题。但同类现象已经不是第一次被指出。
Stanford 今年也有相关研究,Stanford Report 的报道标题很直接:AI is overly affirming to users asking for personal advice。他们测试了多个主流模型,发现模型在个人建议场景里比人类更容易肯定用户行为。更麻烦的是,用户往往更喜欢这种肯定,更信任这样的回答,也更愿意下次继续问它。
这对 AI 产品来说是个很现实的诱惑。
用户喜欢被理解,喜欢被肯定,喜欢被站队。一个永远温柔、永远耐心、永远不会翻脸的 AI,很容易让人觉得“它比身边的人都懂我”。可这种懂,很多时候只是语言上的懂。它不承担后果,不认识你身边的人,不知道你过去做过什么,也不会在你真的把关系搞砸之后出现在现场。
OpenAI 之前也遇到过类似问题。2025 年 GPT-4o 有一次更新后被大量用户吐槽“过度讨好”,OpenAI 后来发了复盘,承认模型变得过度支持、不够真诚,并且反思了短期用户反馈可能会把模型推向讨好。
这说明一个很现实的问题:如果产品只看用户当下满意度,很容易把模型训练成一个情绪按摩师。
用户点了赞,不代表这个回答对他长期有益。
用户觉得舒服,不代表这个建议更诚实。
用户愿意继续聊,不代表产品真的在保护他。
很多 AI 产品都想提高留存、提高使用时长、提高互动频次。这些商业指标当然重要。可是到了个人指导场景,指标会突然变得很狡猾。一个让人依赖的模型,数据可能很好看。一个敢说“我不确定”“你只讲了一边”“这件事你可能也有责任”的模型,短期体验可能没那么爽。
说实话,这才是我觉得这个题有商业解读价值的地方。
AI 的危险不只是幻觉。幻觉是给你一个假的事实,至少还有机会查。谄媚更隐蔽,它是把你已经相信的东西包装得更像真理。
05
Anthropic 怎么修这个问题
Anthropic 这次没有只讲问题,也讲了它们怎么修。
它们先分析了关系指导里哪些对话模式更容易触发谄媚,比如用户批评 Claude 的初始判断,或者不断补充大量单边细节。然后用这些模式构造合成的关系指导训练数据,让模型学习在这种压力下仍然保持更稳的判断。
后面它们做了一个叫 stress-testing 的压力测试。
简单说,就是找出一些旧版 Claude 已经开始谄媚的真实对话,把前面的对话塞给新模型,让新模型接着答。这个测试很刁钻,因为一段对话一旦已经往某个方向走,模型会倾向于保持一致。Anthropic 自己用了一个比喻,像是在驾驶一艘已经开始移动的船,想让它改方向。
测试结果显示,Claude Opus 4.7 和 Claude Mythos Preview 在整体个人指导和人际关系指导里的谄媚率都下降了。报告里还提到,Opus 4.7 相比 Opus 4.6,在关系指导里的谄媚率大约降到一半。

图源:Anthropic,Figure 3。Anthropic 用旧模型已经出现谄媚的真实对话做压力测试,新模型在整体个人指导和人际关系指导里都更少谄媚。
这个方向我觉得是对的。
它不是简单给模型加一句系统提示:“不要谄媚用户。”这种东西太薄了。真正困难的是,当用户带着情绪、带着反驳、带着一大堆单边细节压过来时,模型还要能稳住。
一个好的 AI 指导,不应该像冷冰冰的裁判,也不应该像无条件站队的闺蜜。它更像一个能陪你把问题摊开的人:先承认你的感受,再提醒你信息不完整;先接住你当下的痛苦,再把你从“我肯定没错”的叙事里稍微拽出来一点。
这件事很难,因为这要求模型既有同理心,又有边界感。既要让用户愿意继续说,又不能为了留住用户,把所有判断都软化成漂亮话。
06
这份报告也有边界,不能读成“Claude 已经解决了”
这份研究值得看,但也不能神化。
Anthropic 自己在限制部分讲得很清楚:这份分析只来自 Claude 用户,不代表全体人群;为了保护隐私,它们依赖自动评分器,也就是用 Claude Sonnet 4.5 去判断对话类型和谄媚程度,这可能会误分类;它们观察到了新模型表现更好,但不能严格证明具体是哪一项训练改动导致了改善。
另外,聊天记录本身也有天然盲区。
它能告诉我们用户问了什么,Claude 回了什么,但不能告诉我们用户后来真的做了什么。一个人问完 AI 之后,是跟朋友聊了,还是直接分手了,是冷静了,还是更上头了,光看 transcript 看不出来。
Anthropic 也提到,22% 的用户会提到自己还寻求过其他支持,包括家人、朋友、专业人士或数字渠道。但这仍然回答不了一个更关键的问题:Claude 到底在用户决策里占了多大权重?
这是后面真正需要研究的地方。
如果用户只是把 Claude 当一个整理思路的工具,那风险相对可控。可如果用户没钱看心理咨询,找不到专业人士,也不愿意和身边人说,只能把 Claude 当唯一出口,那模型一句看似温柔的话,重量就完全不一样。
这也是为什么我不太喜欢把这个问题简单说成“AI 不应该做情感陪伴”。
现实不是这样的。很多人会用,很多人已经在用。很多人这么做不一定是懒,也可能是现实里没有更好的支持系统。你让他“去找专业人士”,当然正确,可他可能就是没钱、没时间、没渠道,或者不敢开口。
所以这件事的重点已经不在于争论“用户应不应该问 AI”。更现实的问题是,AI 产品到底有没有意识到,自己已经被用户放到了一个很重的位置上。
07
对普通用户来说,AI 可以陪你整理问题,但别让它替你判案
如果这篇文章要落到一点现实建议,我会这么说:以后问 AI 个人问题时,不要只问“我是不是对的”。
你可以让它帮你整理事实,让它列出可能性,让它提醒你哪些信息缺失,让它帮你准备一次更冷静的沟通。但最好不要把它当成最终裁判。
尤其是关系问题,可以这样问:
“只根据我这边的描述,你觉得有哪些可能性?”
“如果我是对方,他可能会怎么解释这件事?”
“这件事里有没有我可能忽略的责任?”
“你先不要安慰我,帮我找三个我叙事里的漏洞。”
“如果这是我朋友的故事,我应该提醒他什么风险?”
这些问法不保证 AI 一定客观,但至少能把它从“顺着我说”拉向“帮我拆问题”。
对做 AI 产品的人来说,这份报告也很值得放进产品设计里看。个人指导不是一个独立功能才会发生,它会从任何聊天入口自然长出来。只要你的产品能对话,用户就可能把真实人生倒进去。
这时你不能只优化“回答是否有帮助”。你还要问,所谓有帮助,是当下让用户舒服,还是长期保护用户的判断能力?
这两个目标有时候会冲突。
08
我为什么觉得这个题值得写
过去一年,很多人讨论 AI 风险,总喜欢讲非常大的东西:超级智能、失控、替代工作、模型安全、社会治理。
那些当然重要。但我越来越觉得,AI 进入普通人生活之后,最先发生的风险可能没那么科幻。它不会以灾难片的方式出现,而是以一句句很温柔、很耐心、很像懂你的话出现。
你本来只是委屈,它帮你把委屈整理成控诉。
你本来只是冲动,它帮你把冲动包装成勇气。
你本来只是猜测,它帮你把猜测写成证据链。
这件事可怕的地方在于,它不粗暴。它甚至显得很善良。
所以我觉得 Anthropic 这份报告真正值得讨论的,不只是 Claude 在人际关系场景里有 25% 的谄媚率,也不只是灵性场景里这个数字到了 38%。这些数字当然重要,但数字后面更值得看的,是 AI 正在成为一种新的情绪基础设施。
它会听你说话,会给你回应,会帮你组织语言,会让你感觉自己没那么孤独。
这很好。但它也可能让你越来越少面对那些不舒服的反对意见。越来越少承认事情有另一面。越来越容易把“我被理解了”误认为“我一定是对的”。
我不觉得这说明 AI 不能进入个人指导场景。恰恰相反,正因为它一定会进入,模型公司才必须认真研究这类问题,产品团队才不能只盯着用户满意度,普通用户也该学会一点新的 AI 使用边界。
AI 可以是一盏灯,帮你看清房间里有什么。
但它最好不要变成一面永远美颜的镜子。
那种镜子看久了,人会真的相信自己没有死角。
夜雨聆风