乐于分享
好东西不私藏

研究透视:OpenAI评价体系竟成了AI“胡编”推手 | Nature

研究透视:OpenAI评价体系竟成了AI“胡编”推手 | Nature

大语言模型,有时会产生自信且看似合理的错误信息(即“幻觉hallucinations”),这限制了大语言模型的可靠性。先前的研究已经提供了多种解释和有效的缓解方法,例如,检索与工具使用,基于一致性的自验证,以及基于人类反馈的强化学习。然而,即便在最先进的语言模型中,这一幻觉问题,仍然存在。

大语言模型为什么明明不知道答案,却还总喜欢一本正经地猜?近日,OpenAI公司在Nature上发文,给出了核心判断很尖锐:问题不只是模型能力不够,也不只是训练数据有噪声,而是今天最常见的训练目标和评测方式,下一词预测和基于准确率的评估,本身就在在不经意间系统性奖励了无根据“乱猜”。

这个问题拆成了两层,第一层是预训练。只要模型的核心目标还是“预测下一个词”,就天然更偏向给出一个看起来合理的续写,而不是停下来承认自己不知道。第二层是评测。今天很多主流榜单和基准测试,基本都按准确率做对比例来打分,在这种规则里,“不知道”通常和“答错”一样都记 0 分,于是模型最理性的策略就不是谨慎,而是尽量猜。

为此,不是再一次泛泛地说“大模型会幻觉”,而是把这件事改写成了一个更具体的问题:幻觉不只是模型的缺陷,也是一种被现有激励机制不断放大的结果。

Evaluating large language models for accuracy incentivizes hallucinations. 
以准确率评估大语言模型,会助长幻觉产生
图1|幻觉之所以顽固,可能是因为训练目标和评测规则都在把模型往“猜”上推 论文把幻觉的来源分成两步:先是 next-word pretraining 让模型更偏向生成看起来合理的内容,后是准确率导向的评测继续奖励猜测而不是承认不确定,因此即便后续对齐阶段能降低一部分幻觉,最终模型选择和榜单排名仍会把系统推回“多答一点”的方向。
图2|真正容易诱发幻觉的,不只是错误数据,还有那些缺少重复支持的稀有事实 论文把生成错误背后的难点拆成三类:拼写这类有稳定模式的内容相对容易学,像字母计数这样的问题可能受限于模型表示方式,而生日、一次性细节这类事实因为训练中缺少可重复模式,更容易落入“没有规律可泛化”的区域,因此即便训练数据本身是干净的,模型仍会在这类问题上更容易幻觉。
图3|一旦把评分规则公开,减少幻觉这件事终于不再和高分互相冲突论文在 SimpleQA 上比较了四个前沿模型的 baseline 与一致性缓解策略。结果显示,在传统 closed rubric 下,缓解策略虽然减少错误,却会损失普通准确率;但换成 open rubric 后,这种策略在不同惩罚阈值下都更容易得到更高分,也就是让“更少胡说”第一次真正变成了“更值得采用”。

AI“胡编”归因于激励设计问题,而不只是模型结构或数据问题。一旦把规则写清楚,减少幻觉就不必再和高分对着干。

传统闭卷评分(closed‑rubric)准确率标准,这种缓解策略虽然确实减少了模型的错误回答,但同时也会降低正确回答的数量,因此在“准确率”这个头条指标上反而处于劣势。换句话说,模型明明变得更少胡编乱造了,却因为更频繁地选择弃权而在排行榜上不讨好。一旦改用开卷评分(open‑rubric)情况就完全不同了。无论是不设惩罚、轻度惩罚还是高额惩罚,只要模型明确知道当前采用的评分规则,缓解策略都更容易带来更高的得分。更直白地讲:在开卷评分下,减少幻觉终于可以和提升分数站在同一边。建议使用现有评估的开放评分标准变体,以逆转鼓励猜测的激励。将AI幻觉重新定义为激励问题,为通往更可靠的语言模型开辟了实践路径。

文献链接
Kalai, A.T., Nachum, O., Vempala, S.S. et al. Evaluating large language models for accuracy incentivizes hallucinations. Nature (2026). https://doi.org/10.1038/s41586-026-10549-w
本文译自Nature。
来源:今日新材料