很多人用过大模型之后,都会有一种复杂的感受: 它有时候聪明得惊人,能写文章、做总结、解题、写代码; 但有时候,它又会非常自信地给出一个完全错误的答案,语气还笃定得像真的一样。

这种现象通常被称为 “幻觉”。 过去,我们常把它理解为大模型“知识不够”“训练数据有问题”或者“推理能力不强”。但 2026 年 4 月,发表在 Nature 的一篇论文提出了一个很有意思、也很反直觉的观点:
大模型之所以总爱猜答案,可能不只是因为它不会,而是因为我们一直在奖励它“哪怕不会也要答”。 论文题为 “Evaluating large language models for accuracy incentivizes hallucinations”。研究者指出,当前大量以“准确率”为核心的训练和评测方式,会在无形中鼓励模型去猜,而不是坦率承认“不知道”。(nature.com )
这就像一场考试: 答对加分,答错不一定扣很多分,空着却一定拿不到分。 在这种规则下,最“理性”的策略,往往不是谨慎,而是尽量多写答案。



大模型的幻觉并不是一个新问题。 论文作者提到,过去研究已经提出了很多缓解办法,例如检索增强、工具调用、一致性自检、基于人类反馈的强化学习等,但即便在最先进的模型中,幻觉仍然持续存在。(nature.com )
这说明,幻觉也许不只是一个“模型还不够强”的问题。 如果一个系统从训练开始,到最后评测,都被要求“尽可能给出一个答案”,那么它自然会逐渐学会:
与其说‘我不知道’,不如先编一个看起来最像真的答案。
论文把这个问题拆成了两层。
第一层,来自大模型最基础的训练方式:预测下一个词。 研究者指出,即便训练数据本身完全没有错误,只要某些事实在训练数据里出现得很少,模型就难以稳定学会它们。比如语法规则会在海量文本中反复出现,因此更容易掌握;但某个只出现过一次的人名、日期或冷门细节,本身就更容易出错。也就是说,某些幻觉并不是因为数据脏,而是因为稀有事实天然更难被语言模型可靠记住。(nature.com )
第二层,则来自我们后来给模型设计的评价标准。 论文指出,主流“榜单指标”往往只看准确率,而准确率本身会系统性地奖励“猜测”,而不是“承认不确定”。如果模型面对一个不会的问题时有两个选择:
说“我不知道”:准确率记 0 猜一个答案:如果蒙对了就能拿 1 分,蒙错了通常也只是 0 分
那么从纯粹追求分数的角度看,猜答案永远比不回答更划算。(nature.com )



这件事听起来很像人类世界里的一个老问题: 如果一所学校只看考试分数,学生就会越来越擅长刷题,而不一定越来越擅长真正理解。 如果一个公司只看销售额,员工就可能更关心成交,而不是客户是否真的买到了合适的东西。
对于大模型也是一样。 当我们把“准确率”当成最重要的指标时,模型就会学习如何让准确率更高,而不是学习在什么时候该停下来、该保留意见、该说自己没有把握。(nature.com )
这也是为什么,有些模型在 benchmark 上越来越强,但在真实使用中,仍然会出现让人哭笑不得的回答。 因为现实世界的问题,并不像测试题那样总有一个明确、已知、可判定的标准答案。很多时候,用户真正需要的不是“你必须给我一个答案”,而是:
你知道多少; 你有多确定; 哪些部分是事实; 哪些部分只是推测; 什么时候你应该停下来,说“我不知道”。
但如果训练和评测从来不奖励这些能力,模型就没有足够动力去学会它们。(nature.com )



人类专家当然也会犯错。 医生、律师、工程师、科学家,都不可能对所有问题永远给出正确答案。 但真正值得信任的人,通常有一个共同点: 他们知道自己什么时候不知道。
这也是大模型可靠性里非常关键、却长期被低估的一项能力。 一个模型如果能答对 90% 的问题,但在剩下 10% 的问题上总是非常自信地胡说,和一个答对 85%、但在不确定时会明确提示风险的模型相比,后者在很多高风险场景中可能反而更值得信任。论文的核心主张之一,正是把“是否会适度拒答”纳入评测,而不是只盯着“回答了多少、答对了多少”。(nature.com )
这也是为什么,作者提出了一个概念:open-rubric evaluations,可以理解为“公开评分规则的评测”。 在这种设置里,评测会明确告诉模型:答错会被如何惩罚,拒答是否可以被接受,错误的代价有多高。然后再观察模型能否根据不同场景的风险,调整自己是回答还是保留意见。(nature.com )
比如:
如果只是猜一个冷知识,答错的代价很低,模型可以更积极回答; 如果涉及医学、法律、金融等高风险问题,答错的代价很高,模型就应该更谨慎。
这才更接近我们真正希望 AI 具备的能力: 不是永远自信,而是知道什么时候该自信。




因为今天的大模型,已经不只是陪人聊天。 它们正在被用于搜索、写作、编程、教育、医疗辅助、客服、科研整理等越来越多的任务。 在这些场景里,一个流畅但错误的答案,往往比一个笨拙但诚实的回答更危险。(nature.com )
尤其是在高风险领域,用户很多时候并不具备独立核验答案的能力。 如果 AI 只是偶尔说错一句冷知识,后果可能有限; 但如果它在药物剂量、法律条款、财务建议上自信地编造,那就不是“好笑的幻觉”,而可能变成真实伤害。论文也因此强调,若想提升模型可靠性,不能只靠事后补丁,而要从训练和评价的激励结构本身入手。(nature.com )



过去我们问:
怎么让 AI 少犯错?
而这篇 Nature 论文进一步追问:
我们是不是一直在用一种会鼓励它犯错的方式评价它?
这个视角很重要。 因为有些问题,并不是靠“让模型再大一点、数据再多一点”就能自动解决。 如果规则本身在奖励错误行为,那么系统越强,可能只是越熟练地学会在现有规则下拿高分。(nature.com )
这有点像我们常说的那句话: 你衡量什么,系统就会优化什么。
如果我们只衡量“答对率”,模型就会努力成为一个更会猜题的学生; 如果我们开始衡量“在不确定时是否能诚实停下”,它才可能逐渐成为一个更可靠的助手。



大模型的幻觉,当然和技术能力有关; 但这篇论文提醒我们,它也和我们给模型制定的“游戏规则”有关。
一个永远不说“我不知道”的 AI,看起来也许更聪明, 却未必更值得信任。
未来的大模型,如果真的想从“能回答问题”走向“能被人放心使用”, 它需要学会的,也许不只是更多知识、更多推理, 还包括一种看似朴素、却极其重要的能力:
在不知道的时候,诚实地说不知道。 (nature.com )


夜雨聆风