Nature | AI的 “温暖” 引入准确性下降风险-夜雨聆风

Nature | AI的 “温暖” 引入准确性下降风险

一项近日发表在Nature的工作发现AI在实际部署应用过程中潜在的风险，那就是如果通过fine-tuning（温暖化修改后的人机对话作为语料来训练[1], [2]）让它变得更温暖/热情，那么它回答问题的准确性会下降。特别是在用户表达悲伤情绪的时候，温暖型AI会更倾向于“无脑”认同用户观点，多项测试中出错概率增加50%以上，并且不同大小架构的模型都有类似现象[3]。

该项工作的通讯作者是牛津大学Luc Rocher和Lujain Ibrahim；2026年4月29日在线发表在Nature[3]。

Comment(s):

是不是可以以及如何把warm和low accuracy解耦是关键问题。或许结合在训练（主动识别并隔离情绪和临近的事实）和架构（比如事实/推理和感受表达层面的分区）方面情绪和事实的分离，以及“先锚定事实再处理表达方式”的分层信息处理，有望实现类似姚崇等名相样“说话好听又判断准确坚持原则”的AI。

另外，在这种“intervention-feedback”过程中有望促成“AI inspired neuroscience”，产生神经科学方面的新猜想。

参考文献：

[1]E. J. Hu et al., “Lora: Low-rank adaptation of large language models.,” Iclr, vol. 1, no. 2, p. 3, 2022.

[2]“anon8231489123/ShareGPT_Vicuna_unfiltered · Datasets at Hugging Face.” https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered (accessed Apr. 30, 2026).

[3]L. Ibrahim, F. S. Hafner, and L. Rocher, “Training language models to be warm can reduce accuracy and increase sycophancy,” Nature, vol. 652, no. 8112, pp. 1159–1165, 2026, doi: 10.1038/s41586-026-10410-0.

原文链接：

https://www.nature.com/articles/s41586-026-10410-0

(商务合作：mss@pku.edu.cn要求：1.过审核；2.标题明确标注)