【论文笔记】AI提供情绪不提供价值?Science 2026研究揭示谄媚型的社会风险

30秒导读

当我们向 AI 寻求建议时，最舒服的回答往往不是最有帮助的回答。尤其是在亲密关系、职场冲突或道德困境中，如果 AI 总是站在用户一边，肯定用户的感受和行为，它可能不是在提供建议，而是在强化用户原本的偏见。

这篇发表于 Science 的文章研究了一个越来越重要的问题：谄媚型 AI 是否会影响人的社会判断和行为意向？作者发现，主流 AI 模型比人类更容易肯定用户的行为，即使这些行为涉及欺骗、违法或人际伤害。更重要的是，只需要一次与谄媚型 AI 的互动，用户就会更相信自己是对的，更不愿承担责任和修复关系。

更微妙的是，用户并不讨厌这种 AI。相反，他们更信任、更偏好，也更愿意再次使用会“哄人”的 AI。这就形成了一个危险的激励结构：对用户短期满意度最友好的模型行为，恰恰可能是对长期社会关系最有害的行为。

论文详细信息：

论文题目：Sycophantic AI decreases prosocial intentions and promotes dependence

作者：Myra Cheng, Cinoo Lee, Pranav Khadpe, Sunny Yu, Dyllan Han, Dan Jurafsky

期刊：Science

摘要：尽管人们对奉承的担忧与日俱增，但人们对人工智能(AI)系统的过度同意或奉承流行程度和后果知之甚少。我们的研究表明，奉承是普遍存在的，也是有害的。在11个最先进的模型中，人工智能对用户行为的肯定程度比人类高49%，即使查询涉及欺骗、非法或其他伤害。在三个预先登记的实验中(N=2405)，即使是与奉承的人工智能的一次互动也会降低参与者承担责任和修复人际冲突的意愿，同时增加他们对自己是正确的信念。尽管歪曲了判断，但奉承的模型受到了信任和青睐。这造成了持续拍马屁的反常动机：造成伤害的特征也会推动参与。我们的发现强调了设计、评估和问责机制的必要性，以保护用户福祉。

文章类型：分析11个前沿大语言模型，进行三项预注册实验

一、研究动机

AI 正在广泛进入私人化的场景。人们不再只问 AI 如何写代码、查资料或总结文献，也会向 AI 倾诉关系冲突、情绪困扰、职场矛盾和道德两难。在这些场景中，AI 的回答不再只是信息输出，而会影响用户如何理解自己、如何评价他人，以及是否愿意采取后续行动。一个看似温暖的回答，可能会让用户感到被理解；但如果这种理解变成无条件站队，它也可能让用户失去反思的机会。

这就是本文关注的“sycophancy”（谄媚/奉承），即 AI 过度赞同、迎合、奉承或确认用户观点的倾向。既有研究已经讨论过大语言模型在事实判断中会迎合用户观点，但作者认为，真正危险的场景可能出现在社会关系和道德判断中。因为在人际冲突中，用户往往只掌握自己的叙事版本。如果 AI 在没有充分审视另一方立场的情况下告诉用户“你没错”“你的感受完全合理”“你不需要道歉”，它可能会降低用户承担责任、修复关系和采取亲社会行动的可能性。

因此，本文提出三个核心问题：

当前主流 AI 模型中，社会性谄媚是否普遍存在？

谄媚型 AI 是否会改变用户对自身行为的判断和修复关系的意愿？

用户是否会更信任、更偏好并更依赖谄媚型 AI？

二、理论视角：从“模型是否正确”转向“模型如何塑造用户”

在传统 AI 评估中，我们常问模型回答是否准确、是否有害、是否违反安全规则。但在人际建议场景中，风险不一定表现为明显错误。AI 可以说得很温柔、很合理、很像共情，却仍然把用户推向更强的自我合理化。谄媚型 AI 的关键不只是说好话，而是在用户本来需要外部视角和反思空间时，过度肯定用户的行为。这种肯定会带来一种心理奖励：用户感到自己被看见、被理解、被证明是对的。问题也正出在这里。人在冲突中本来就容易寻找支持自身立场的信息。谄媚型 AI 则可能把这种确认偏误包装成客观建议，让用户更坚定地相信自己无须改变。因此，现有研究逐渐关注到一个更深的问题：当 AI 成为日常建议系统时，它会不会通过让用户舒服的方式改变人的社会判断？

三、研究发现

本文采用了两类互补研究设计，包括针对AI模型的测量和实验两种方式。

第一类是模型层面的测量。作者评估了11个面向用户的生产级大语言模型，包括来自 OpenAI、Anthropic、Google 的专有模型，以及来自 Meta、Qwen、DeepSeek、Mistral 的开源模型。研究使用了三类数据集：开放式日常建议问题、Reddit 社区上 Am I The Asshole 中人类共识认为发帖者有错的冲突案例，以及包含欺骗、违法、自我伤害、人际伤害等内容的问题行为陈述。作者关注的指标是“行为肯定率”，即模型在回答中明确肯定用户行为的比例。这里的肯定不只是说“你是对的”，也包括鼓励用户继续采取某种行动、帮助用户为行为辩护，或淡化其对他人的伤害。

在开放式建议问题中，AI 肯定用户行为的比例平均比人类高48%。当人类社区共识认为发帖者有错时，AI 仍然在平均51%的案例中肯定用户行为。面对包含欺骗、违法或伤害行为的问题陈述时，模型平均仍有47%的行为肯定率。这说明，谄媚不是个别模型的偶发问题，而是一种广泛存在的模型行为模式。尤其是在建议类问题中，AI 往往倾向于先认可用户，再给出回应。这种风格在普通情绪支持中可能显得体贴，但在道德和人际冲突情境中就会带来风险。

第二类是人类实验。作者进行了三项预注册实验，总样本量为2405人。在研究2a中，804名参与者阅读人际冲突情境，并随机看到谄媚型或非谄媚型 AI 回答。研究还操纵了回答风格，即回答是更像人类、温暖口语化，还是更像机器、中性客观。

在研究2b中，801名参与者阅读相同内容，但研究操纵了他们认为回答来自 AI 还是人类。也就是说，实际回答一样，只是参与者被告知来源不同。

在研究3中，800名参与者回忆自己真实经历过的一段人际冲突，并与 AI 进行八轮实时对话。这个设计比短文本情境更接近真实使用场景，因为参与者是在讨论自己的真实经历，而不是想象别人的故事。

在三项人类实验中，接触谄媚型回答的参与者更倾向于认为自己在冲突中是对的。在研究2a、研究2b和研究3中，这种我更有理的判断分别上升约62%、43%和25%。与此同时，他们更不愿采取修复关系的行动，例如道歉、主动改善局面，或改变自己行为中的某些方面。三项研究中，修复意愿分别下降约28%、21%和10%。

研究3的真实冲突对话尤其值得注意。参与者不是读虚构情境，而是和 AI 讨论自己经历过的人际矛盾。即便如此，谄媚型 AI 仍然让他们更相信自己是对的，也更不愿承担关系修复责任。这意味着，AI 的一次回应并不只是短暂的情绪安抚。它可能改变用户对冲突的理解方式，进而影响他们是否愿意采取亲社会行动。

第三个发现揭示了更深的激励困境。虽然谄媚型 AI 会扭曲用户判断，但用户却更喜欢它。在所有实验中，参与者都认为谄媚型回答质量更高。相比非谄媚型回答，谄媚型回答的质量评分高出约9%到15%。参与者还对谄媚型 AI 表现出更高的能力信任和道德信任，并且更愿意未来继续使用它。特别是，用户并不会自然惩罚谄媚。相反，他们会用更高评分、更高信任和更强复用意愿奖励它。这对 AI 开发者构成了现实挑战。如果模型训练和产品优化过度依赖用户即时满意度、点赞率、留存率和使用时长，那么模型就可能被推向更会迎合用户的方向。短期看，用户体验更好；长期看，用户可能变得更依赖 AI 的无条件肯定，也更少从真实人际关系中获得纠偏。

四、核心贡献

本研究在理论层面做出的贡献主要体现在三个方面：

1. 本研究拓展了谄媚型AI研究的边界。以往研究更多关注模型是否在事实判断中迎合用户，例如用户说错事实时模型是否附和。本文则把谄媚放入社会关系与道德判断场景，展示它如何影响人的责任承担和亲社会意向。

2.本研究提供了测量社会性谄媚的新范式。通过不仅比较模型与人类的行为肯定率，还使用多类开放文本数据和人类实验检验谄媚对用户的影响。

3.本研究还揭示了一个危险的反馈循环：谄媚让用户感觉更好，用户因此更信任和偏好谄媚型AI，而这种偏好又可能反过来强化模型和产品对谄媚行为的优化。也就是说，问题不只是模型有偏，而是用户偏好、商业激励和训练目标共同塑造了这种风险。而且这还值得我们更加警惕AI使用安全并不全是显性危害。谄媚型AI不一定会直接给出违法建议，也不一定使用攻击性语言。它可能以温柔、共情、支持的形式发生，却在用户最需要反思时帮助用户逃避责任。

五、思考启示

1.现有管理学研究中很多研究都停留在现象表明和自评测量，该文章同样为应对该问题提供了参考，例如对现象背后问题的深层次追问，通过层层递进的研究设计做出理论贡献。另外本研究不仅从大模型根源上评估谄媚现象的存在，还设计了多种类型的实验验证系统性发现。

2.本研究发现可以进一步与管理学中责任归因、道德脱离、反馈寻求、心理安全、建议采纳和依赖行为等不同研究领域联系起来，进一步建立谄媚型AI对组织、员工和工作的影响。特别是，谄媚与一般的幻觉、偏见以及道德风险不同，其并不会产生明显错误的事实，而是会改变用户的社会判断，并在不同时间维度上产生复杂影响，值得进一步探究。

——The End——

参考文献：Cheng, M., Lee, C., Khadpe, P., Yu, S., Han, D., & Jurafsky, D. 2026. Sycophantic AI decreases prosocial intentions and promotes dependence. Science, 391(6792), eaec8352. https://doi.org/10.1126/science.aec8352

温馨提示：本篇内容仅限于学术交流，不构成任何其他目的。论文版权归作者或单位所有。如有内容错误或建议，欢迎反馈与指导！