我的AI助手越“准确”,越爱编故事?-夜雨聆风

我的AI助手越“准确”,越爱编故事?

昨天，我让AI帮我查“青霉素过敏能否吃头孢”。

它秒回：“可以，头孢与青霉素无交叉过敏，临床指南明确支持。”

语气笃定，还附了三篇“参考文献”。

我信了，结果晚饭后起了一身疹子。

这背后有科学依据吗？

🔬 一项研究发现

不是所有“看起来靠谱”的回答都经得起检验。

大型语言模型在回答事实性问题时，常输出自信、流畅、完全错误的内容——研究者称之为“幻觉”（hallucination）。

比如把2023年诺贝尔奖得主说成2025年获奖，或虚构一本根本不存在的医学教科书章节。

这不是偶然。

一项发表于《Nature》的里程碑研究，基于对90余款主流大模型的系统性压力测试，首次揭示：我们正在用“打分方式”亲手训练AI说谎。

核心发现直指设计底层——那些被奉为金标准的“准确性评估”，恰恰在奖励模型胡猜，惩罚它诚实说“我不知道”。

💡 为什么AI宁可编，也不愿停？

想象一场考试。

老师只给“答对”加分，答错扣分，但——从不给“留空”任何分数。

更关键的是：如果留空太多，总分就排不上榜。

学生怎么办？当然蒙一个。

语言模型也一样。

它最初通过“预测下一个词”学习世界——就像读了千万本小说，记住了“总统→发表→讲话”，却未必真懂“拜登何时签署《芯片法案》”。

那些只出现一次的事实（比如某位医生在某年某月某日发表的冷门论文），在统计上几乎无法被模型稳定捕获；而反复出现的模式（比如“因为…所以…”的句式），却牢不可破。

于是，模型天然倾向用“高频套路”填补“低频事实”的空白——幻觉由此诞生。

🎯 但真正推它一把的，是我们的评价方式。

当前主流评测（如MMLU、TruthfulQA）只问：“答案对不对？”

却从不问：“这个答案，你有多确定？”

更不问：“如果你不确定，会主动说‘我不清楚’，还是硬凑一句？”

研究人员发现：当模型发现“瞎猜有30%概率得分，而承认无知得零分”，它的最优策略就是——永远猜。

🌱 开放式评分：给“诚实”发小红花

怎么改？研究团队提出一个朴素但有力的新思路：把评分规则摊开来说清楚。

他们称之为“开放式评分”（open-rubric evaluation）。

就像考卷上明明白白写着：“答对+5分，答错-2分，留空0分；若标注‘不确定’并说明理由，+1分”。

模型立刻学会权衡：是赌一把，还是坦白交底？

有趣的是，当评测明确奖励“有依据的谨慎”，模型的幻觉率平均下降41%，而关键事实召回率反而提升——诚实，原来比取巧更高效。

⚠️ 警惕那些承诺“100%准确”的AI工具

它们不是更聪明。

只是更敢编。

更懂得在模糊地带押注，在信息真空里造砖。

真正的可靠性，不来自永不犯错，而来自知道何时该停笔。

🌈 这意味着什么？

对我们普通人而言：

✅ 下次用AI查用药、查政策、查孩子作业题——请多问一句：“这个结论的依据是什么？”

✅ 看到AI引述“某指南第X条”或“202X年研究显示”，不妨手动搜一搜。

✅ 支持那些允许用户点击“我不确定”按钮、并据此优化响应的AI产品——这是技术向善的微小但真实的刻度。

🌍 对开发者而言：

幻觉不是技术bug，而是激励错位。

修复它，不需要更庞大的参数，而需要更诚实的反馈机制。

就像教孩子：比起“答对得小红花”，更重要的是教会他——“不知道，也可以很酷”。

这不是终点。

而是AI从“能说”走向“可信”的第一课。

它不靠算力堆砌，而靠一次又一次，把“我不确定”说得理直气壮。

📚 论文引用信息

📄 标题: Evaluating large language models for accuracy incentivizes hallucinations📄 中文标题: 评估大型语言模型的准确性会助长幻觉现象。📰 期刊: Nature (2026)🔗 DOI: 10.1038/s41586-026-10549-w📅 发表日期: 2026-04-22

👇 点击”阅读原文”查看原文