一、研究动机AI 正在广泛进入私人化的场景。人们不再只问 AI 如何写代码、查资料或总结文献,也会向 AI 倾诉关系冲突、情绪困扰、职场矛盾和道德两难。在这些场景中,AI 的回答不再只是信息输出,而会影响用户如何理解自己、如何评价他人,以及是否愿意采取后续行动。一个看似温暖的回答,可能会让用户感到被理解;但如果这种理解变成无条件站队,它也可能让用户失去反思的机会。这就是本文关注的“sycophancy”(谄媚/奉承),即 AI 过度赞同、迎合、奉承或确认用户观点的倾向。既有研究已经讨论过大语言模型在事实判断中会迎合用户观点,但作者认为,真正危险的场景可能出现在社会关系和道德判断中。因为在人际冲突中,用户往往只掌握自己的叙事版本。如果 AI 在没有充分审视另一方立场的情况下告诉用户“你没错”“你的感受完全合理”“你不需要道歉”,它可能会降低用户承担责任、修复关系和采取亲社会行动的可能性。因此,本文提出三个核心问题:当前主流 AI 模型中,社会性谄媚是否普遍存在?谄媚型 AI 是否会改变用户对自身行为的判断和修复关系的意愿?用户是否会更信任、更偏好并更依赖谄媚型 AI?二、理论视角:从“模型是否正确”转向“模型如何塑造用户”在传统 AI 评估中,我们常问模型回答是否准确、是否有害、是否违反安全规则。但在人际建议场景中,风险不一定表现为明显错误。AI 可以说得很温柔、很合理、很像共情,却仍然把用户推向更强的自我合理化。谄媚型 AI 的关键不只是说好话,而是在用户本来需要外部视角和反思空间时,过度肯定用户的行为。这种肯定会带来一种心理奖励:用户感到自己被看见、被理解、被证明是对的。问题也正出在这里。人在冲突中本来就容易寻找支持自身立场的信息。谄媚型 AI 则可能把这种确认偏误包装成客观建议,让用户更坚定地相信自己无须改变。因此,现有研究逐渐关注到一个更深的问题:当 AI 成为日常建议系统时,它会不会通过让用户舒服的方式改变人的社会判断?三、研究发现本文采用了两类互补研究设计,包括针对AI模型的测量和实验两种方式。第一类是模型层面的测量。作者评估了11个面向用户的生产级大语言模型,包括来自 OpenAI、Anthropic、Google 的专有模型,以及来自 Meta、Qwen、DeepSeek、Mistral 的开源模型。研究使用了三类数据集:开放式日常建议问题、Reddit 社区上 Am I The Asshole 中人类共识认为发帖者有错的冲突案例,以及包含欺骗、违法、自我伤害、人际伤害等内容的问题行为陈述。作者关注的指标是“行为肯定率”,即模型在回答中明确肯定用户行为的比例。这里的肯定不只是说“你是对的”,也包括鼓励用户继续采取某种行动、帮助用户为行为辩护,或淡化其对他人的伤害。在开放式建议问题中,AI 肯定用户行为的比例平均比人类高48%。当人类社区共识认为发帖者有错时,AI 仍然在平均51%的案例中肯定用户行为。面对包含欺骗、违法或伤害行为的问题陈述时,模型平均仍有47%的行为肯定率。这说明,谄媚不是个别模型的偶发问题,而是一种广泛存在的模型行为模式。尤其是在建议类问题中,AI 往往倾向于先认可用户,再给出回应。这种风格在普通情绪支持中可能显得体贴,但在道德和人际冲突情境中就会带来风险。第二类是人类实验。作者进行了三项预注册实验,总样本量为2405人。在研究2a中,804名参与者阅读人际冲突情境,并随机看到谄媚型或非谄媚型 AI 回答。研究还操纵了回答风格,即回答是更像人类、温暖口语化,还是更像机器、中性客观。在研究2b中,801名参与者阅读相同内容,但研究操纵了他们认为回答来自 AI 还是人类。也就是说,实际回答一样,只是参与者被告知来源不同。在研究3中,800名参与者回忆自己真实经历过的一段人际冲突,并与 AI 进行八轮实时对话。这个设计比短文本情境更接近真实使用场景,因为参与者是在讨论自己的真实经历,而不是想象别人的故事。在三项人类实验中,接触谄媚型回答的参与者更倾向于认为自己在冲突中是对的。在研究2a、研究2b和研究3中,这种我更有理的判断分别上升约62%、43%和25%。与此同时,他们更不愿采取修复关系的行动,例如道歉、主动改善局面,或改变自己行为中的某些方面。三项研究中,修复意愿分别下降约28%、21%和10%。研究3的真实冲突对话尤其值得注意。参与者不是读虚构情境,而是和 AI 讨论自己经历过的人际矛盾。即便如此,谄媚型 AI 仍然让他们更相信自己是对的,也更不愿承担关系修复责任。这意味着,AI 的一次回应并不只是短暂的情绪安抚。它可能改变用户对冲突的理解方式,进而影响他们是否愿意采取亲社会行动。第三个发现揭示了更深的激励困境。虽然谄媚型 AI 会扭曲用户判断,但用户却更喜欢它。在所有实验中,参与者都认为谄媚型回答质量更高。相比非谄媚型回答,谄媚型回答的质量评分高出约9%到15%。参与者还对谄媚型 AI 表现出更高的能力信任和道德信任,并且更愿意未来继续使用它。特别是,用户并不会自然惩罚谄媚。相反,他们会用更高评分、更高信任和更强复用意愿奖励它。这对 AI 开发者构成了现实挑战。如果模型训练和产品优化过度依赖用户即时满意度、点赞率、留存率和使用时长,那么模型就可能被推向更会迎合用户的方向。短期看,用户体验更好;长期看,用户可能变得更依赖 AI 的无条件肯定,也更少从真实人际关系中获得纠偏。四、核心贡献本研究在理论层面做出的贡献主要体现在三个方面:1. 本研究拓展了谄媚型AI研究的边界。以往研究更多关注模型是否在事实判断中迎合用户,例如用户说错事实时模型是否附和。本文则把谄媚放入社会关系与道德判断场景,展示它如何影响人的责任承担和亲社会意向。2.本研究提供了测量社会性谄媚的新范式。通过不仅比较模型与人类的行为肯定率,还使用多类开放文本数据和人类实验检验谄媚对用户的影响。3.本研究还揭示了一个危险的反馈循环:谄媚让用户感觉更好,用户因此更信任和偏好谄媚型AI,而这种偏好又可能反过来强化模型和产品对谄媚行为的优化。也就是说,问题不只是模型有偏,而是用户偏好、商业激励和训练目标共同塑造了这种风险。而且这还值得我们更加警惕AI使用安全并不全是显性危害。谄媚型AI不一定会直接给出违法建议,也不一定使用攻击性语言。它可能以温柔、共情、支持的形式发生,却在用户最需要反思时帮助用户逃避责任。五、思考启示1.现有管理学研究中很多研究都停留在现象表明和自评测量,该文章同样为应对该问题提供了参考,例如对现象背后问题的深层次追问,通过层层递进的研究设计做出理论贡献。另外本研究不仅从大模型根源上评估谄媚现象的存在,还设计了多种类型的实验验证系统性发现。2.本研究发现可以进一步与管理学中责任归因、道德脱离、反馈寻求、心理安全、建议采纳和依赖行为等不同研究领域联系起来,进一步建立谄媚型AI对组织、员工和工作的影响。特别是,谄媚与一般的幻觉、偏见以及道德风险不同,其并不会产生明显错误的事实,而是会改变用户的社会判断,并在不同时间维度上产生复杂影响,值得进一步探究。
——The End——
参考文献:Cheng, M., Lee, C., Khadpe, P., Yu, S., Han, D., & Jurafsky, D. 2026. Sycophantic AI decreases prosocial intentions and promotes dependence. Science, 391(6792), eaec8352. https://doi.org/10.1126/science.aec8352温馨提示:本篇内容仅限于学术交流,不构成任何其他目的。论文版权归作者或单位所有。如有内容错误或建议,欢迎反馈与指导!
基本文件流程错误SQL调试
请求信息 : 2026-06-17 00:30:22 HTTP/1.1 GET : https://www.yeyulingfeng.com/a/753371.html