Nature | AI的 “温暖” 引入准确性下降风险


一项近日发表在Nature的工作发现AI在实际部署应用过程中潜在的风险,那就是如果通过fine-tuning(温暖化修改后的人机对话作为语料来训练[1], [2])让它变得更温暖/热情,那么它回答问题的准确性会下降。特别是在用户表达悲伤情绪的时候,温暖型AI会更倾向于“无脑”认同用户观点,多项测试中出错概率增加50%以上,并且不同大小架构的模型都有类似现象[3]。
该项工作的通讯作者是牛津大学Luc Rocher和Lujain Ibrahim;2026年4月29日在线发表在Nature[3]。
Comment(s):
是不是可以以及如何把warm和low accuracy解耦是关键问题。或许结合在训练(主动识别并隔离情绪和临近的事实)和架构(比如事实/推理和感受表达层面的分区)方面情绪和事实的分离,以及“先锚定事实再处理表达方式”的分层信息处理,有望实现类似姚崇等名相样“说话好听又判断准确坚持原则”的AI。
另外,在这种“intervention-feedback”过程中有望促成“AI inspired neuroscience”,产生神经科学方面的新猜想。
参考文献:
[1]E. J. Hu et al., “Lora: Low-rank adaptation of large language models.,” Iclr, vol. 1, no. 2, p. 3, 2022.
[2]“anon8231489123/ShareGPT_Vicuna_unfiltered · Datasets at Hugging Face.” https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered (accessed Apr. 30, 2026).
[3]L. Ibrahim, F. S. Hafner, and L. Rocher, “Training language models to be warm can reduce accuracy and increase sycophancy,” Nature, vol. 652, no. 8112, pp. 1159–1165, 2026, doi: 10.1038/s41586-026-10410-0.
原文链接:
https://www.nature.com/articles/s41586-026-10410-0
(商务合作:mss@pku.edu.cn要求:1.过审核;2.标题明确标注)
夜雨聆风