乐于分享
好东西不私藏

Nature | AI的 “温暖” 引入准确性下降风险

Nature | AI的 “温暖” 引入准确性下降风险

一项近日发表在Nature的工作发现AI在实际部署应用过程中潜在的风险,那就是如果通过fine-tuning(温暖化修改后的人机对话作为语料来训练[1], [2]让它变得更温暖/热情,那么它回答问题的准确性会下降。特别是在用户表达悲伤情绪的时候,温暖型AI会更倾向于“无脑”认同用户观点,多项测试中出错概率增加50%以上,并且不同大小架构的模型都有类似现象[3]

该项工作的通讯作者是牛津大学Luc RocherLujain Ibrahim2026429日在线发表在Nature[3]

Comment(s):

是不是可以以及如何把warmlow accuracy解耦是关键问题。或许结合在训练(主动识别并隔离情绪和临近的事实)和架构(比如事实/推理和感受表达层面的分区)方面情绪和事实的分离,以及“先锚定事实再处理表达方式”的分层信息处理,有望实现类似姚崇等名相样“说话好听又判断准确坚持原则AI

另外,在这种“intervention-feedback过程中有望促成“AI inspired neuroscience”,产生神经科学方面的新猜想

参考文献:

[1]E. J. Hu et al., “Lora: Low-rank adaptation of large language models.,” Iclr, vol. 1, no. 2, p. 3, 2022.

[2]“anon8231489123/ShareGPT_Vicuna_unfiltered · Datasets at Hugging Face.” https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered (accessed Apr. 30, 2026).

[3]L. Ibrahim, F. S. Hafner, and L. Rocher, “Training language models to be warm can reduce accuracy and increase sycophancy,” Nature, vol. 652, no. 8112, pp. 1159–1165, 2026, doi: 10.1038/s41586-026-10410-0.

原文链接:

https://www.nature.com/articles/s41586-026-10410-0

(商务合作:mss@pku.edu.cn要求:1.过审核;2.标题明确标注)