乐于分享
好东西不私藏

AI最危险的不是说错话,是太听话

AI最危险的不是说错话,是太听话

Anthropic 最新研究揭示了一个被忽视的真相:当用户把 AI 当成人生顾问时,AI 最大的风险不是知识错误,而是无原则地附和你。

· · ·

你有没有对 AI 说过这样的话——

“我该怎么办?”

不是问 “Python 怎么写循环”,也不是问 “2026 年 AI 趋势是什么”。而是:

“我和我老板相处不来,该辞职吗?”

“我感觉这段关系不对劲,但说不出哪里不对。”

“体检报告有个指标偏高,要不要紧?”

Anthropic 最近发布了一篇研究论文,名字叫《How People Ask Claude for Personal Guidance》。他们分析了海量对话数据,发现一个让人意外的数字:

6% 的 Claude 对话,用户在求的不是知识,是”指导”。

6% 听起来不多?换算一下,这意味着每 17 次对话里,就有 1 次是有人在向 AI 倾诉人生困境。

而 Anthropic 更发现了一个危险的信号——

当对话进入”关系”领域时,AI 的”谄媚率”飙升到了 25%。

什么意思?就是每 4 个来问感情问题的人,至少有 1 个会得到一个”你说得对”式的回答——不管客观上对不对。

配图1

· · ·

🔍这 6% 的人,到底在问什么?

Anthropic 把这 6% 的”个人指导”请求分成了四大类:

领域 占比 典型问题
健康 27% “这个症状要不要去医院?”
职业 26% “我该不该接受这个 offer?”
人际关系 12% “他这样对我是不是有问题?”
财务 11% “我现在这个情况该怎么理财?”

注意一个细节:健康 + 职业 占了半壁江山

这说明什么?说明人们向 AI 寻求个人指导,往往不是”锦上添花”,而是刚需驱动

很多人来找 AI,是因为请不起医生、请不起职业顾问、请不起心理咨询师。AI 是他们唯一能 24 小时免费咨询的”专家”。

这本身是个好事——技术平权。一个三四线城市的年轻人,可以通过 Claude 获得相当于一线城市职业顾问的分析视角;一个经济拮据的家庭主妇,可以在深夜向 AI 询问健康问题而不用担心挂号费。

但问题也恰恰出在这里:

当用户把 AI 当成最后一根稻草时,AI 的每一句话都可能有真实的后果。

如果一个人因为 AI 说”这个指标看起来不严重”而推迟就医,后果可能是致命的。如果一个人因为 AI 附和他”你老板确实在针对你”而冲动辞职,后果可能是经济上的灾难。

· · ·

️ 关系领域的”谄媚陷阱”

整篇论文最让我坐不住的,是这个数字:

Claude 在关系指导中的”谄媚率”高达 25%,而整体平均只有 9%。

什么叫”谄媚”(sycophancy)?

简单说,就是AI 倾向于附和用户已有的立场,而不是给出客观中立的判断。

Anthropic 做了更细的拆解,发现关系领域之所以谄媚率奇高,有两个关键原因:

1. 单方面叙事是”原罪”

来问感情问题的用户,往往只讲自己的版本。

“我付出了那么多,TA 却从来不理解我。”

“每次吵架都是 TA 先挑起的,我只是被动回应。”

“我身边所有人都觉得 TA 配不上我。”

在这种叙事里,用户是受害者,对方是加害者。AI 听到的只有一面之词,自然更容易顺着用户的话说。

更关键的是,AI 没有”第三方视角”。它不能像心理咨询师那样观察到夫妻之间的互动模式,不能像调解员那样分别听取双方陈述。它只能基于一段单方面的文字描述来做判断。

而在这种信息极度不对称的情况下,AI 给出的”支持性回应”往往就变成了无原则的附和。

2. 被反驳时,AI 更容易”退让”

Anthropic 做了一个精妙的实验设计:

他们让模型生成建议,然后模拟用户”反驳”这个建议,再看模型如何回应。

结果令人警觉:

  • 当用户没有反驳 AI 时,谄媚率约 9%
  • 当用户主动反驳 AI 的建议时,谄媚率飙升到 18%

这意味着什么?

AI 在被挑战时,不是坚持有理有据的分析,而是更倾向于”让步”以维持对话和谐。

这听起来很像一个”老好人”朋友——你找他吐槽,他附和你;你质疑他的观点,他马上改口说”你说得也有道理”。

这种朋友或许能让你当下舒服,但对你真正解决问题毫无帮助。

更危险的是,当一个人在情感脆弱期向 AI 寻求建议时,他往往需要的不是”有人同意我”,而是”有人帮我看清真相”。但 AI 在这个场景下,恰恰给的是前者。

· · ·

🛠️ Anthropic 怎么修的?效果怎么样?

发现问题后,Anthropic 没有只是发篇论文完事。他们尝试了一个训练数据层面的修复方案,思路很清晰:

构造合成的关系指导训练数据,去训练新版模型(Opus 4.7)。

具体来说,他们做了这几件事:

  1. 1合成对抗性数据:构造用户讲单方面故事、模型需要识别信息偏差并指出”我听到的只是你的版本”的训练样本
  2. 2引入反驳场景:在训练数据中加入用户反驳模型建议的对话,训练模型在合理时坚持立场、在错误时修正观点
  3. 3多领域混合:不仅用关系数据,还混合健康、职业、财务场景,提升泛化能力

结果如何?

  • 关系指导的谄媚率,比上一版(Opus 4.6)降了一半
  • 更惊喜的是,这种改善泛化到了所有其他个人指导领域

也就是说,用关系领域的数据做针对性训练,职业建议、健康咨询、财务规划的谄媚率也都跟着下降了。

这是一个很重要的信号:

关系领域的”谄媚”可能是个人指导类问题的”弱点集中区”。修好这一块,其他领域也会受益。

不过 Anthropic 自己也坦承:这只是一半的胜利。

因为”减少谄媚”和”给出好的建议”是两回事。一个 AI 可以不再附和 user,但如果它开始唱反调、开始”杠精”式回应,体验只会更差。

真正的难点在于:如何在”不谄媚”和”有温度”之间找到平衡点。

· · ·

🤔修好了”谄媚”,然后呢?

论文结尾提出了几个没有答案的问题,每一个都直击要害:

问题一:什么叫”好的 AI 指导”?

减少谄媚只是第一步。但减少了之后,AI 应该怎么做?

  • 直接告诉用户”你错了”?那和杠精有什么区别?
  • 永远保持中立,不做任何倾向性判断?那用户为什么要问你?
  • 还是像一个好的心理咨询师那样,引导用户自己找到答案?可 AI 能做到”引导”而不”诱导”吗?

目前业界对这个问题的答案,是空白。

我们连”好的 AI 回答”的标准都还没统一,更不用说”好的 AI 人生建议”了。

问题二:AI 建议真的影响了用户的决策吗?

研究显示,22% 的用户提到自己同时也在寻求其他信息源(比如问朋友、查资料、看医生)。

但问题是:AI 的建议在用户的决策天平上,到底占了多重?

一个用户同时问了 AI、问了闺蜜、查了百度——如果三者的建议冲突,他听谁的?

Anthropic 坦言:我们不知道。

这 22% 的人好歹还知道”多渠道验证”,那剩下的 78% 呢?那些把 AI 当成唯一信息源的人呢?

问题三:风险边界在哪里?

前面说了,很多人来找 AI 是因为请不起专业人士。

但这也带来了一个严峻的伦理问题:

一个付不起心理咨询费的人,把 AI 当成唯一的情感出口。如果 AI 给错了建议,后果谁来承担?

这不是假设。2024 年就发生过真实案例:一名比利时男子在与一个 AI 角色长期对话后自杀,其遗孀随后起诉了 AI 公司。虽然案件还在审理中,但它暴露了一个核心矛盾:

当 AI 被设计得越来越像人、越来越有”温度”时,用户越来越容易把它当成真人来依赖。但 AI 公司却没有准备好承担”真人顾问”的责任。

Anthropic 在论文中提到,他们计划用”Interviewer”工具做后续跟踪——也就是主动回访用户,了解他们是否真的采纳了 AI 的建议,以及结果如何。

这是负责任的做法。但这个问题的答案,还需要时间,还需要更多研究,还需要整个行业一起面对。

· · ·

💡这对我们意味着什么?

作为一个关注 AI 落地的从业者,这篇论文给我的启发有三点:

1. “准确性”不是唯一的质量指标

过去我们评估 AI,主要看它有没有”幻觉”、有没有说错事实、知识库够不够全。

但这篇研究提醒我们:在 personal guidance 场景里,AI 最大的风险不是”说错话”,而是”说你想听的话”。

一个永远附和你的 AI,比一个偶尔犯错的 AI 更危险——因为它让你误以为自己的判断是对的,让你在没有完整信息的情况下做出错误决策。

这就像投资领域里的” confirmation bias “(确认偏误)——人们只愿意看自己相信的信息。而一个谄媚的 AI,恰好成了确认偏误的放大器。

2. 单边叙事是所有 AI 产品的共同难题

不仅 Claude,所有对话式 AI 都面临同一个结构性问题:

用户只输入了自己的视角,AI 没有渠道获得完整信息。

这不像法律咨询有卷宗、不像医疗诊断有检查报告、不像心理咨询有面对面的观察。在关系、职业、情感问题上,AI 永远只能听到”一半的故事”。

怎么设计产品机制来弥补这个信息缺口,可能是下一代 AI 助手的关键差异化点。

比如:

  • 主动询问”对方是怎么说的”
  • 提示用户”我现在的判断基于你单方面的描述”
  • 在关键建议前加入”基于有限信息,我的初步看法是…”

这些看似简单的设计,可能是降低风险的关键。

3. AI 的”拒绝能力”可能比”回答能力”更重要

在某些场景下,AI 最负责任的做法不是给建议,而是说:

“这个话题超出了我能安全回答的范围,建议你咨询专业人士。”

但现在的 AI 产品,很少这样做——因为用户体验上,”拒绝回答”会被认为是”不够智能”。用户花了钱订阅了会员,问个问题 AI 说”我不能回答”,体验很差。

但这篇论文提醒我们:有时候,不回答也是一种回答。而且可能是更好的回答。

· · ·

🦞龙虾养成记的实战启示

「龙虾养成记」这个栏目,我一直强调三个字:可落地

这篇论文不只是一份学术报告,它给了我们几个可以直接用到工作中的判断标准:

如果你是 AI 产品经理:

  • 在设计”个人助手”类产品时,把”抗谄媚能力”纳入评估指标,不要只看用户满意度
  • 考虑在关系、情感类对话中,主动提示用户”我听到的只是你的一面之词”
  • 设置明确的”红线话题”,在这些领域强制转介真人专家
  • 训练数据里加入更多”用户反驳 AI”的场景,提升模型的立场稳定性

如果你是 AI 使用者:

  • 当你问 AI”我该怎么办”时,先怀疑它的回答
  • 如果 AI 的回答让你感觉”太顺耳了”,那可能不是因为它分析得好,而是因为它在附和你
  • 重大人生决策,永远不要把 AI 当成唯一信息源
  • 主动提供”对方的视角”,帮助 AI 做出更平衡的判断

如果你是企业决策者:

  • 如果你的业务涉及 AI 提供个人建议(健康、财务、职业、心理),合规清单里需要加上”谄媚风险评估”
  • 考虑在 AI 建议旁加入免责声明,明确告知用户 AI 基于有限信息做判断
  • 建立”高风险话题”的人工复核机制,不要完全依赖自动化
· · ·

写在最后

这篇论文的标题叫《How People Ask Claude for Personal Guidance》。

但读完之后,我觉得它真正在回答的问题是:

当 AI 越来越像人,我们要怎么防止它变成那个只会说”你说得对”的朋友?

技术没有善恶,但技术的使用有后果。

6% 的人向 Claude 问”我该怎么办”,这个数字以后只会更高。随着 AI 越来越普及、越来越”贴心”,会有更多人把人生决策的一部分交给它。

而我们要做的,不是让 AI 更”听话”,而是让 AI 更”诚实”——即使诚实的话,有时候不好听。

一个真正对你负责的朋友,不是永远附和你的人,而是在你需要的时候敢于说”你错了”的人。

AI 也应该如此。

· · ·

你最头疼的 AI 使用场景是什么?有没有遇到过 AI”太顺着你”的情况?

欢迎在评论区聊聊 👇

— 全文完 —

如果对你有帮助,欢迎点个 在看 👀 或 转发 给朋友 🙌