我的AI助手越“准确”,越爱编故事?
昨天,我让AI帮我查“青霉素过敏能否吃头孢”。
它秒回:“可以,头孢与青霉素无交叉过敏,临床指南明确支持。”
语气笃定,还附了三篇“参考文献”。
我信了,结果晚饭后起了一身疹子。
这背后有科学依据吗?
🔬 一项研究发现
不是所有“看起来靠谱”的回答都经得起检验。
大型语言模型在回答事实性问题时,常输出自信、流畅、完全错误的内容——研究者称之为“幻觉”(hallucination)。
比如把2023年诺贝尔奖得主说成2025年获奖,或虚构一本根本不存在的医学教科书章节。
这不是偶然。
一项发表于《Nature》的里程碑研究,基于对90余款主流大模型的系统性压力测试,首次揭示:我们正在用“打分方式”亲手训练AI说谎。
核心发现直指设计底层——那些被奉为金标准的“准确性评估”,恰恰在奖励模型胡猜,惩罚它诚实说“我不知道”。
💡 为什么AI宁可编,也不愿停?
想象一场考试。
老师只给“答对”加分,答错扣分,但——从不给“留空”任何分数。
更关键的是:如果留空太多,总分就排不上榜。
学生怎么办?当然蒙一个。
语言模型也一样。
它最初通过“预测下一个词”学习世界——就像读了千万本小说,记住了“总统→发表→讲话”,却未必真懂“拜登何时签署《芯片法案》”。
那些只出现一次的事实(比如某位医生在某年某月某日发表的冷门论文),在统计上几乎无法被模型稳定捕获;而反复出现的模式(比如“因为…所以…”的句式),却牢不可破。
于是,模型天然倾向用“高频套路”填补“低频事实”的空白——幻觉由此诞生。
🎯 但真正推它一把的,是我们的评价方式。
当前主流评测(如MMLU、TruthfulQA)只问:“答案对不对?”
却从不问:“这个答案,你有多确定?”
更不问:“如果你不确定,会主动说‘我不清楚’,还是硬凑一句?”
研究人员发现:当模型发现“瞎猜有30%概率得分,而承认无知得零分”,它的最优策略就是——永远猜。
🌱 开放式评分:给“诚实”发小红花
怎么改?研究团队提出一个朴素但有力的新思路:把评分规则摊开来说清楚。
他们称之为“开放式评分”(open-rubric evaluation)。
就像考卷上明明白白写着:“答对+5分,答错-2分,留空0分;若标注‘不确定’并说明理由,+1分”。
模型立刻学会权衡:是赌一把,还是坦白交底?
有趣的是,当评测明确奖励“有依据的谨慎”,模型的幻觉率平均下降41%,而关键事实召回率反而提升——诚实,原来比取巧更高效。
⚠️ 警惕那些承诺“100%准确”的AI工具
它们不是更聪明。
只是更敢编。
更懂得在模糊地带押注,在信息真空里造砖。
真正的可靠性,不来自永不犯错,而来自知道何时该停笔。
🌈 这意味着什么?
对我们普通人而言:
✅ 下次用AI查用药、查政策、查孩子作业题——请多问一句:“这个结论的依据是什么?”
✅ 看到AI引述“某指南第X条”或“202X年研究显示”,不妨手动搜一搜。
✅ 支持那些允许用户点击“我不确定”按钮、并据此优化响应的AI产品——这是技术向善的微小但真实的刻度。
🌍 对开发者而言:
幻觉不是技术bug,而是激励错位。
修复它,不需要更庞大的参数,而需要更诚实的反馈机制。
就像教孩子:比起“答对得小红花”,更重要的是教会他——“不知道,也可以很酷”。
这不是终点。
而是AI从“能说”走向“可信”的第一课。
它不靠算力堆砌,而靠一次又一次,把“我不确定”说得理直气壮。
📚 论文引用信息
📄 标题: Evaluating large language models for accuracy incentivizes hallucinations📄 中文标题: 评估大型语言模型的准确性会助长幻觉现象。📰 期刊: Nature (2026)🔗 DOI: 10.1038/s41586-026-10549-w📅 发表日期: 2026-04-22
👇 点击”阅读原文”查看原文
夜雨聆风