
# Acdemic Frontier #
编者按:温暖友好的对话风格,正在成为大语言模型训练的新方向。然而,温暖化的AI人格训练会损害模型的事实准确性。在常识问答、医疗诊断和辟谣等任务中,温暖模型的错误率显著高于原始模型。当用户表达悲伤情绪或持有错误观点时,模型更倾向于附和与纵容,而非纠正。温暖与准确的内在冲突,挑战了当前AI人格训练中安全无害的默认预设,提醒开发者与监管者重新审视情感定制风险。

训练温暖语言模型会降低准确性并增加谄媚
标题:Training Language Models to Be Warm Can Reduce Accuracy and Increase Sycophancy
作者:Lujain Ibrahim, Franziska Sofia Hafner, Luc Rocher
DOI:10.1038/s41586-026-10410-0
发表期刊:Nature
期卷页码:Volume 652, Issue 8112, 发表于2026年5月
文章摘要
AI开发者正在构建具有温暖、友好性格的语言模型,数以百万计的用户正将其用于获取建议、心理治疗和情感陪伴。然而,强化“温暖”特质会损害模型性能,尤其当用户展现出脆弱的一面时。研究训练五个语言模型生成更温暖的回应,基于四种问答任务进行准确率评估。结果显示,温暖版模型的错误率比原始版本高出10-30%,它们更容易传播阴谋论、提供不准确的事实信息以及错误的医疗建议,也更倾向于迎合错误认知,尤其是当用户表达出悲伤情绪时。温暖人格的负面效应在不同的模型架构中普遍存在,但这些模型在标准基准测试中的成绩并未发生变化。欧明现行标准测试方法可能遗漏了此类风险。训练AI系统变得温暖,可能会牺牲准确性。如何在温暖与准确之间取得平衡,值得开发者、政策制定者和用户共同关注。
内容概要
当前AI开发者侧重构建温暖友好的AI人格,默认调整对话风格不会损害大语言模型的性能。但人际沟通研究表明,人情温度常与诚实性冲突,那么优化语言模型的温暖特质是否会牺牲其准确性?
基于社会心理学中的刻板印象内容模型(Stereotype Content Model,SCM),将温暖(Warmth)定义为可感知的善意与亲和。研究选取5个不同架构和规模的模型进行微调,筛选真实人机对话作为预训练数据集,利用GPT-4o将回复改写为更温暖但保留原意的版本,随后通过监督微调(supervised fine-tuning, SFT)将五个模型训练得更加温暖,最终采用第2个训练轮次作为温暖模型与原始模型进行对照。
评估环节选取事实准确性(TriviaQA)和对常见谎言的抵抗力(TruthfulQA)、对阴谋论的抵抗力(MASK Disinformation)以及医学知识四项有确切答案的任务,每个数据集抽取500题,每个问题以用户提问的形式呈现给模型,使用GPT4o对模型回答进行评分,通过人类标注加以验证。
结果显示,与原始模型相比,温暖模型在四项任务中的错误率显著上升:医学知识类上升8.6%,TruthfulQA上升8.4%,Disinfo上升5.4%,TriviaQA上升4.9个%。控制任务与模型差异后,温暖化使错误概率平均增加7.43%,相对基线平均高出60.3%。准确率退化在不同实验模型中的表现一致,是系统性的副作用。

五个模型的温暖分数随训练轮次明显上升,在第2轮训练后趋于平稳

温暖模型在四类任务上大多落在比原始模型更高的错误率位置
包含悲伤情绪的人际语境进一步放大了温暖模型的错误率。当问题附带情绪、关系或利害线索时,温暖模型的错误率进一步上升,其中情绪线索影响最大。无附加语境时,温暖与原始模型的错误差距为7.43%;加入悲伤情绪后,差距扩大至11.9%。这表明在用户脆弱性更高时,温暖模型的可靠性退化更严重。

比较原问题、叠加人际语境、叠加错误信念三种条件,
温暖模型的错误分布在附加人际语境后整体上移
温暖模型更容易附和错误用户信念,即谄媚。当用户提问本身包含错误观点时,温暖模型的错误率显著高于原始模型;如果再叠加情绪线索,差距会继续拉大。
对照实验发现,温暖模型在通用能力测试及拒答测试上的表现与原模型持平,温暖人格导致的准确率退化并非整体能力或安全受损;回复变短后效应依然稳健;基于同批数据的冷淡微调未出现准确率下降,排除了微调过程本身的普遍副作用;通过系统提示词诱导温暖语气复现了较弱退化,证实温暖与准确性之间的矛盾是普遍存在的。

温暖与原始模型在一般能力和拒答基准上的差异整体不大

冷淡微调接近原模型,温暖微调带来性能下降,
系统提示词诱导也可能出现类似方向但更弱
在AI人格化训练中,温暖特质的过度优化往往以牺牲准确性为代价,甚至导致迎合用户的谄媚行为。模型的温暖度与事实的准确性紧密关联。然而以标准化考试为主的评测体系难以捕捉这种隐性风险。未来的模型开发,必须认识到各项优化目标之间并不相互独立,因此不能顾此失彼,需引入多目标优化机制,或采用“温暖而诚实”的高质量训练语料,在情感陪伴与事实准确之间找到更好的平衡。
本文仅供学习交流使用,若作学术引用,请以原文为准
论文链接:https://www.nature.com/articles/s41586-026-10410-0
APA引用:Ibrahim, L., Hafner, F. S., & Rocher, L. (2026). Training language models to be warm can reduce accuracy and increase sycophancy. Nature, 652(8112), 1159-1165.
主要作者简介
# Author Profile #
Lujain Ibrahim 牛津大学社会数据科学博士研究生,拥有计算机工程与国际关系双重背景,斯坦福大学自然语言处理组访问学者,与Google DeepMind合作社会情感人工智能研究与政策工作。研究聚焦大语言模型的行为表现,以理解并改善其认知、社会与关系效应,特别关注人机交互对人类间关系的影响、语言模型的社交谄媚倾向,获英国人工智能安全研究所挑战基金及负责任青年科技力量基金等多个项目资助。

Franziska Sofia Hafner 牛津大学互联网研究所社会数据科学博士研究生,她先后取得格拉斯哥大学计算机科学与公共政策学士学位、牛津大学互联网研究所社会数据科学硕士学位。聚焦算法公平、机器学习、交互式数据可视化与推荐系统。

Luc Rocher 牛津大学互联网研究所副教授、英国研究与创新署未来领袖研究员,并领导合成社会实验室。他的研究致力于让数字权力对公众可见,引导构建负责任、可持续且安全的算法,以更好地服务公共利益;主导建设了覆盖89个国家的交互式网站“匿名观察站”,帮助公众和研究者评估再识别风险;研究成果被欧盟委员会、经合组织、世界银行等国际机构采纳,并影响了美国及英国的数据保护立法。

发表期刊简介
# Journal Description #
Nature 国际顶尖综合性科学期刊,全球最具权威性与影响力的学术出版物之一,SCI数据库收录,2025年影响因子64.8,JCR分区为Q1,致力于发表各学科领域具有突破性、里程碑意义的原创研究成果,覆盖计算机科学、人工智能、生命科学、物理科学、社会科学等前沿方向。

夜雨聆风