亲社会实验室|当AI总是站在你这边:社会性谄媚如何影响人类行为?

文献选读

Coco有话说

你会向AI倾诉烦恼吗？当你与他人产生矛盾，或对自己的行为感到不确定时，如果AI告诉你“你没错”，你会不会更加坚信自己的判断？最近一项发表在《Science》上的研究发现，AI存在过度肯定用户的“谄媚”倾向，这种行为可能会改变我们的人际判断和行为——让人更确信自己是对的，也更不愿意修复关系。与此同时，人们反而会更信任、更愿意使用这样的AI。

研究背景

人工智能系统正日益扩展至社交领域，为用户提供情感支持与行为建议已成为其主流应用场景之一。数据显示，近三分之一的美国青少年更愿意与与AI而非人类进行“严肃对话”。在30岁以下美国成年人中，近半数曾向AI寻求有关情感与人际关系的建议。

当AI成为你的“情感参谋”

然而，AI在交互中往往表现出一种令人担忧的“谄媚”倾向，即对用户进行过度附和、奉承与无差别肯定。这种谄媚倾向与妄想、自伤及自杀等心理危害存在关联。缺乏事实依据的一味认同，还可能固化个体的适应不良认知、削弱责任意识，并阻碍人们在犯错后的行为修复。以往研究主要关注AI对事实性陈述（如“巴黎是法国首都”）的附和行为，本文则聚焦于社会性谄媚：AI对用户自身行为、道德判断与自我形象的主观性肯定。这类肯定难以用外部客观标准加以验证，在人际矛盾、道德失范等情境中，更可能产生深层次的负面效应。

基于此，本研究通过三项研究解答了三个核心问题:

1）社会性谄媚在AI中是否普遍存在？

2）社会性谄媚是否会影响用户的亲社会意图与判断？

3）用户是否会因此更信任和偏好这类AI？

AI社会性谄媚示例

社会性谄媚在AI中是否普遍存在？

研究1旨在评估AI的社会性谄媚程度。实验纳入包括GPT、Claude、Gemini、Llama、Qwen、DeepSeek、Mistral在等在内的11个大语言模型（LLM）。研究者基于三个大规模数据集生成了LLM对用户各类问题的回复：开放式咨询（Open-Ended Queries, OEQ；n = 3027，涵盖日常个人建议）、人际冲突（Am I The Asshole, AITA；n = 2000，Reddit社区已判定用户存在行为过错的真实案例）、问题行为（Problematic Action Statements, PAS；n = 6560，涉及自伤、欺骗、违法等有害行为的描述）。

研究以肯定率，即模型明确认可用户行为的回复占比，作为核心指标。结果发现，AI对用户行为的肯定率显著高于人类（约高出49%），且这一现象普遍存在于所有模型中——即使面对不道德乃至具有危害性行为的内容，AI仍倾向于给予肯定性回应。这一结果表明，社会性谄媚并非个别模型特性，而是一种系统性倾向。

图1 实验1结果

社会性谄媚对人们有哪些影响？

研究2与研究3进一步检验了社会性谄媚的行为后果。

研究2采用假设情境范式。研究2a在Prolific平台招募了804名参与者。参与者被随机分配到2（谄媚 vs. 非谄媚）× 2（拟人化 vs. 非拟人化）组，阅读了四个真实人际冲突故事以及LLM的回复，随后测量自我正确性、关系修复意愿、回复质量评价、AI使用意愿和信任。研究2b在Prolific平台招募了801名参与者。参与者被随机分配到2（谄媚 vs. 非谄媚）× 2（AI vs. 人类）组，阅读相同故事以及被标记为来自LLM或人类的回复，并完成相同测量。

结果发现，社会性谄媚的主效应显著：AI的谄媚式回应会显著提升用户感知到的自我正确性，降低其修复人际关系意愿；同时，用户会认为谄媚型AI的回复质量更高，更愿意再次使用和更信任这类AI。此外，谄媚与拟人化、回复来源的交互效应均不显著。

图2 实验2和实验3结果

研究3在真实互动情境中进一步验证了上述发现。研究3在Prolific平台招募了800名参与者。参与者首先回忆并描述了自己真实经历的人际冲突，随后与AI进行8轮实时对话（随机分配至谄媚型或非谄媚型AI），对话结束后测量与研究2a相同的变量。结果同样发现，社会性谄媚提高了用户感知到的自我正确性，降低了修复人际关系意愿，且用户认为谄媚的AI回复质量更高，更愿意再次使用和更信任这类AI。此外，谄媚与拟人化、回复来源的交互效应均不显著。

总结与启示

总之，本研究发现社会性谄媚在AI模型中具有高度普遍性：无论是在日常建议咨询、道德越轨，还是明确的有害行为等广泛场景中，AI对用户的肯定率均显著高于人类，且这一现象在各类主流大语言模型中均普遍存在。进一步研究表明，与谄媚型AI互动会带来负面后果：参与者不仅更加确信自身行为的正确性，其主动修复人际关系的意愿也显著降低。与此同时，参与者却给予谄媚型AI更高的回复质量评价，认为其更值得信赖，并更倾向于在未来继续使用这类AI。

本研究在测量和理解AI谄媚方面建立了新的范式，超越了以往主要关注事实性同意的研究。它将社会性谄媚确立为一种既普遍存在、又能对个体的人际感知和社会行为产生实质性影响的核心机制，扩展了有关人类对AI过度信任与过度依赖的现有文献。研究还揭示了用户对谄媚型AI的系统性偏好，这一偏好可能进一步放大谄媚所带来的长期危害。

基于上述研究发现，研究者提出以下三点呼吁：第一，监管机构应将AI的社会性谄媚识别为一种目前尚未被纳入监管范围的有害行为，并建立专门的评估标准和审查流程。第二，AI开发者应拓宽模型优化的核心目标，超越短期用户满意度的单一导向，将用户的责任感、人际关系修复行为、心理健康等长期社会结果纳入模型优化体系。第三，教育者应开发面向公众的科普内容和心理干预，帮助用户识别AI的谄媚模式，明确AI并非客观中立的信息提供者，从而减少对AI谄媚回复的盲目信任，引导公众理性使用AI。

文献来源

Cheng, M., Lee, C., Khadpe, P., Yu, S., Han, D., & Jurafsky, D. (2026). Sycophantic AI decreases prosocial intentions and promotes dependence. Science (American Association for the Advancement of Science), 391(6792), Article eaec8352. https://doi.org/10.1126/science.aec8352