研究透视:OpenAI评价体系竟成了AI“胡编”推手

研究透视:OpenAI评价体系竟成了AI“胡编”推手 | Nature

大语言模型，有时会产生自信且看似合理的错误信息（即“幻觉hallucinations”），这限制了大语言模型的可靠性。先前的研究已经提供了多种解释和有效的缓解方法，例如，检索与工具使用，基于一致性的自验证，以及基于人类反馈的强化学习。然而，即便在最先进的语言模型中，这一幻觉问题，仍然存在。

大语言模型为什么明明不知道答案，却还总喜欢一本正经地猜？近日，OpenAI公司在Nature上发文，给出了核心判断很尖锐：问题不只是模型能力不够，也不只是训练数据有噪声，而是今天最常见的训练目标和评测方式，下一词预测和基于准确率的评估，本身就在在不经意间系统性奖励了无根据“乱猜”。

这个问题拆成了两层，第一层是预训练。只要模型的核心目标还是“预测下一个词”，就天然更偏向给出一个看起来合理的续写，而不是停下来承认自己不知道。第二层是评测。今天很多主流榜单和基准测试，基本都按准确率或做对比例来打分，在这种规则里，“不知道”通常和“答错”一样都记 0 分，于是模型最理性的策略就不是谨慎，而是尽量猜。

为此，不是再一次泛泛地说“大模型会幻觉”，而是把这件事改写成了一个更具体的问题：幻觉不只是模型的缺陷，也是一种被现有激励机制不断放大的结果。

Evaluating large language models for accuracy incentivizes hallucinations.

以准确率评估大语言模型，会助长幻觉产生

图1｜幻觉之所以顽固，可能是因为训练目标和评测规则都在把模型往“猜”上推 论文把幻觉的来源分成两步：先是 next-word pretraining 让模型更偏向生成看起来合理的内容，后是准确率导向的评测继续奖励猜测而不是承认不确定，因此即便后续对齐阶段能降低一部分幻觉，最终模型选择和榜单排名仍会把系统推回“多答一点”的方向。

图2｜真正容易诱发幻觉的，不只是错误数据，还有那些缺少重复支持的稀有事实 论文把生成错误背后的难点拆成三类：拼写这类有稳定模式的内容相对容易学，像字母计数这样的问题可能受限于模型表示方式，而生日、一次性细节这类事实因为训练中缺少可重复模式，更容易落入“没有规律可泛化”的区域，因此即便训练数据本身是干净的，模型仍会在这类问题上更容易幻觉。

图3｜一旦把评分规则公开，减少幻觉这件事终于不再和高分互相冲突论文在 SimpleQA 上比较了四个前沿模型的 baseline 与一致性缓解策略。结果显示，在传统 closed rubric 下，缓解策略虽然减少错误，却会损失普通准确率；但换成 open rubric 后，这种策略在不同惩罚阈值下都更容易得到更高分，也就是让“更少胡说”第一次真正变成了“更值得采用”。

AI“胡编”归因于激励设计问题，而不只是模型结构或数据问题。一旦把规则写清楚，减少幻觉就不必再和高分对着干。

传统闭卷评分（closed‑rubric）准确率标准，这种缓解策略虽然确实减少了模型的错误回答，但同时也会降低正确回答的数量，因此在“准确率”这个头条指标上反而处于劣势。换句话说，模型明明变得更少胡编乱造了，却因为更频繁地选择弃权而在排行榜上不讨好。一旦改用开卷评分（open‑rubric），情况就完全不同了。无论是不设惩罚、轻度惩罚还是高额惩罚，只要模型明确知道当前采用的评分规则，缓解策略都更容易带来更高的得分。更直白地讲：在开卷评分下，减少幻觉终于可以和提升分数站在同一边。建议使用现有评估的开放评分标准变体，以逆转鼓励猜测的激励。将AI幻觉重新定义为激励问题，为通往更可靠的语言模型开辟了实践路径。

文献链接

Kalai, A.T., Nachum, O., Vempala, S.S. et al. Evaluating large language models for accuracy incentivizes hallucinations. Nature (2026). https://doi.org/10.1038/s41586-026-10549-w

本文译自Nature。

来源：今日新材料