AI 为什么总爱“一本正经地胡说八道”?

很多人用过大模型之后，都会有一种复杂的感受：它有时候聪明得惊人，能写文章、做总结、解题、写代码；但有时候，它又会非常自信地给出一个完全错误的答案，语气还笃定得像真的一样。

这种现象通常被称为 “幻觉”。过去，我们常把它理解为大模型“知识不够”“训练数据有问题”或者“推理能力不强”。但 2026 年 4 月，发表在 Nature 的一篇论文提出了一个很有意思、也很反直觉的观点：

大模型之所以总爱猜答案，可能不只是因为它不会，而是因为我们一直在奖励它“哪怕不会也要答”。论文题为 “Evaluating large language models for accuracy incentivizes hallucinations”。研究者指出，当前大量以“准确率”为核心的训练和评测方式，会在无形中鼓励模型去猜，而不是坦率承认“不知道”。(nature.com )

这就像一场考试：答对加分，答错不一定扣很多分，空着却一定拿不到分。在这种规则下，最“理性”的策略，往往不是谨慎，而是尽量多写答案。

幻觉，为什么一直这么难消失？

大模型的幻觉并不是一个新问题。论文作者提到，过去研究已经提出了很多缓解办法，例如检索增强、工具调用、一致性自检、基于人类反馈的强化学习等，但即便在最先进的模型中，幻觉仍然持续存在。(nature.com )

这说明，幻觉也许不只是一个“模型还不够强”的问题。如果一个系统从训练开始，到最后评测，都被要求“尽可能给出一个答案”，那么它自然会逐渐学会：

与其说‘我不知道’，不如先编一个看起来最像真的答案。

论文把这个问题拆成了两层。

第一层，来自大模型最基础的训练方式：预测下一个词。研究者指出，即便训练数据本身完全没有错误，只要某些事实在训练数据里出现得很少，模型就难以稳定学会它们。比如语法规则会在海量文本中反复出现，因此更容易掌握；但某个只出现过一次的人名、日期或冷门细节，本身就更容易出错。也就是说，某些幻觉并不是因为数据脏，而是因为稀有事实天然更难被语言模型可靠记住。(nature.com )

第二层，则来自我们后来给模型设计的评价标准。论文指出，主流“榜单指标”往往只看准确率，而准确率本身会系统性地奖励“猜测”，而不是“承认不确定”。如果模型面对一个不会的问题时有两个选择：

说“我不知道”：准确率记 0 猜一个答案：如果蒙对了就能拿 1 分，蒙错了通常也只是 0 分

那么从纯粹追求分数的角度看，猜答案永远比不回答更划算。(nature.com )

我们以为自己在训练“更聪明的 AI”，其实可能在训练“更会考试的 AI”

这件事听起来很像人类世界里的一个老问题：如果一所学校只看考试分数，学生就会越来越擅长刷题，而不一定越来越擅长真正理解。如果一个公司只看销售额，员工就可能更关心成交，而不是客户是否真的买到了合适的东西。

对于大模型也是一样。当我们把“准确率”当成最重要的指标时，模型就会学习如何让准确率更高，而不是学习在什么时候该停下来、该保留意见、该说自己没有把握。(nature.com )

这也是为什么，有些模型在 benchmark 上越来越强，但在真实使用中，仍然会出现让人哭笑不得的回答。因为现实世界的问题，并不像测试题那样总有一个明确、已知、可判定的标准答案。很多时候，用户真正需要的不是“你必须给我一个答案”，而是：

你知道多少；你有多确定；哪些部分是事实；哪些部分只是推测；什么时候你应该停下来，说“我不知道”。

但如果训练和评测从来不奖励这些能力，模型就没有足够动力去学会它们。(nature.com )

真正的问题，不是 AI 会不会错，而是它错的时候敢不敢承认

人类专家当然也会犯错。医生、律师、工程师、科学家，都不可能对所有问题永远给出正确答案。但真正值得信任的人，通常有一个共同点： 他们知道自己什么时候不知道。

这也是大模型可靠性里非常关键、却长期被低估的一项能力。一个模型如果能答对 90% 的问题，但在剩下 10% 的问题上总是非常自信地胡说，和一个答对 85%、但在不确定时会明确提示风险的模型相比，后者在很多高风险场景中可能反而更值得信任。论文的核心主张之一，正是把“是否会适度拒答”纳入评测，而不是只盯着“回答了多少、答对了多少”。(nature.com )

这也是为什么，作者提出了一个概念：open-rubric evaluations，可以理解为“公开评分规则的评测”。在这种设置里，评测会明确告诉模型：答错会被如何惩罚，拒答是否可以被接受，错误的代价有多高。然后再观察模型能否根据不同场景的风险，调整自己是回答还是保留意见。(nature.com )

比如：

如果只是猜一个冷知识，答错的代价很低，模型可以更积极回答；如果涉及医学、法律、金融等高风险问题，答错的代价很高，模型就应该更谨慎。

这才更接近我们真正希望 AI 具备的能力： 不是永远自信，而是知道什么时候该自信。

为什么这件事对普通用户也很重要？

因为今天的大模型，已经不只是陪人聊天。它们正在被用于搜索、写作、编程、教育、医疗辅助、客服、科研整理等越来越多的任务。在这些场景里，一个流畅但错误的答案，往往比一个笨拙但诚实的回答更危险。(nature.com )

尤其是在高风险领域，用户很多时候并不具备独立核验答案的能力。如果 AI 只是偶尔说错一句冷知识，后果可能有限；但如果它在药物剂量、法律条款、财务建议上自信地编造，那就不是“好笑的幻觉”，而可能变成真实伤害。论文也因此强调，若想提升模型可靠性，不能只靠事后补丁，而要从训练和评价的激励结构本身入手。(nature.com )