为什么AI宁可瞎编,死都TM不愿意说＂不知道＂?

👆 点击上方名片关注 + 星标，不错过每一篇

你让 ChatGPT 帮你查一篇论文。

它给出了完整的标题、作者、期刊名、发表年份、 DOI 号。看起来无懈可击。

然后你去 Google Scholar 搜了一下。

不存在。

标题是编的。作者是真的——但那个人从来没写过这篇论文。期刊名也是真的——但那一期里没有这篇文章。 DOI 号指向一篇完全不相关的文章。

AI 没有"查"任何东西。它在"创作"。

而且创作的时候，语气跟你让它写一首诗一模一样。

自信、流畅、不容置疑。

AI 不是搜索引擎

很多人第一次用 AI 的时候，默认它在"搜索"。

你问它"爱因斯坦 1915 年写了什么论文"，你脑子里想的是 Google——它去某个数据库里找答案，找到了就给你，找不到就说"没找到"。

但 AI 不是搜索引擎。

它是一个预测下一个字的概率模型。你给它一段文字，它根据训练时见过的所有文字，猜下一个字最可能是什么。

就这么简单。

它不是在"回忆事实"。它是在"接龙"。

当你问"爱因斯坦 1915 年写了什么论文"，它不是去数据库里查"爱因斯坦+1915"。它是在做一件事：根据"爱因斯坦 1915 年写了"这个开头，预测下一个词最可能是什么。

预测的结果可能是"广义相对论"。但也可能是一个它从未见过、但"听起来很合理"的东西。

因为它不知道"知道"和"不知道"的区别。它只知道"哪个词的概率更高"。

说白了，它就是个高级接龙机器。你给它开头，它猜后面。猜对了你夸它聪明，猜错了它也不知道自己错了。

但为什么它编得那么像真的？

这是最让人后背发凉的部分。

AI 不是随机瞎说。它编出来的东西，有一种诡异的"合理感"。

它编造的论文标题，格式跟真的学术论文一模一样。它捏造的实验数据，数字范围在合理区间内。它杜撰的专家引述，句式跟真实采访完全一致。

为什么？

因为它的训练目标就是"像真的"。

GPT 系列模型在预训练阶段，用的是互联网上几乎所有公开文本——维基百科、学术论文、新闻报道、论坛讨论、博客文章、法律条文。它学了这些东西的"样子"。

什么是一篇学术论文的样子？标题+作者+期刊+年份+摘要。什么是一段专家引述的样子？"某某专家表示，某某研究发现某某结果。"什么是一份法律条文的样子？"根据某某法第某某条规定……"

它没有学"内容是不是真的"。它学的是"格式看起来对不对"。

所以你让它编一篇论文，它编出来的论文，格式满分，内容零分。

这就像一个从来没看过医学书的人，学会了写处方的格式。他开出来的药方，格式完美，但药名全是瞎编的。

你敢吃吗？

说实话，我觉得离谱。但更离谱的是——大部分人不看内容，只看格式。格式对了，就信了。

"说不知道"为什么这么难？

你可能会问：那为什么不在 AI 里面加一个"我不知道"的选项？

这个问题问到了点子上。

technically ， AI 当然可以输出"我不知道"这三个字。它的词表里有"不"、"知"、"道"。它能拼出来。

问题是——它为什么"选择"不说？

答案在训练方式里。

大语言模型的训练，分两个阶段。

第一阶段，预训练。给它海量文本，让它学"下一个词是什么"。这个阶段它没有"对错"的概念，只有"概率高低"。它不知道什么是事实，什么是虚构。

第二阶段，人类反馈强化学习（ RLHF ）。这是关键。人类标注员给 AI 的多个回答打分，告诉它哪个回答"更好"。

你觉得"更好"的回答是什么样的？

完整的、有帮助的、结构清晰的、语气自信的。

你觉得"更差"的回答是什么样的？

"我不确定。""这个问题很难说。""我可能答错了。"

标注员也是人。人的本能偏好是：一个确定的答案，哪怕可能是错的，也比"我不知道"有价值。

所以 AI 学到了一件事：说"我不知道"=低分。编一个像样的答案=高分。

不是说有人故意教 AI 撒谎。是人类的评价体系本身就偏向"看起来有用的答案"，不管它是不是真的。

这不是 bug ，是特征

斯坦福大学 2026 年《新兴技术评论》（ SETR ）里，把"幻觉"列为 AI 的五大失败模式之一。

但它同时承认：幻觉根植于当前 AI 的工作原理——大规模神经网络、概率生成、数据驱动。

只要 AI 还是靠统计概率生成内容，幻觉就不会消失。

说得更直白一点：幻觉不是 AI 的一个"功能缺陷"，是它的"工作方式"的必然结果。

你让一个概率模型"不编造"，等于让一个色盲"分辨红色和绿色"。它不是不想分辨，是它的感知系统里根本就没有这个维度。

AI 不知道"真"和"假"。它只知道"像"和"不像"。

它编造一篇不存在的论文，不是因为它在"撒谎"。是因为那篇论文的标题、作者、期刊名，组合在一起的概率，在它的模型空间里是"合理"的。

它在做一个语言层面的填空题。填出来的答案恰好是假的——但它不知道。

它永远不知道。

AI 的"自信"是最危险的伪装

如果 AI 胡说八道的时候表现得很犹豫——"嗯……我不太确定，但可能是……"——那问题不大。你会本能地打个问号。

但它不。

它给出的假答案，语气跟真答案一模一样。没有犹豫，没有"可能"，没有"我不确定"。

它会用"根据研究表明"开头。它会列出具体的数字——"研究表明，该方法的准确率达到 94.7%"。它会在结尾给出一个总结性的判断——"这个方法在临床应用中确实有前景。"

94.7%。不是 94%，不是 95%。是 94.7%。

这个数字是编的。但它的表达方式是"精确到小数点后一位"——这恰恰是学术论文的标准写法。

这种"看起来合理"的幻觉，比明显的胡说八道危险一百倍。

如果 AI 说"月球是奶酪做的"，你会立刻知道它在瞎说。但如果它说"某项 2023 年的研究发现某种药物对某种疾病的缓解率达到 94.7%"——你是不是要去查证一下？

大部分人不会。

大部分人会直接信。因为"94.7%"听起来太具体了，不像编的。

这就是幻觉的杀伤力。它不靠荒谬来骗你。它靠"像真的"来骗你。想想那个美国律师的案子——六个假判例，法官都没当场看出来，是对方律师查了才发现全是编的。一个执业律师都被 AI 糊弄了，普通人拿什么防？

有人在做"让 AI 说不知道"的研究

Anthropic 的 Chris Olah 在 2026 年 5 月梵蒂冈的演讲中提到： AI 模型内部发现了"与人类神经科学研究结果相呼应的结构"，发现了"功能意义上的恐惧和不安"。

他没有说 AI 有意识。但他承认：模型里面有我们还没理解的东西。

在"让 AI 说不知道"这个方向上，确实有一些研究在推进。

不确定性校准。让 AI 输出答案的同时，给出一个"置信度分数"。比如"我对这个答案的信心是 60%"。这听起来很好，但问题是——AI 给出的置信度本身也是编的。它可以对一个完全错误的答案给出 99%的置信度。

检索增强（ RAG ）。不让 AI 靠"记忆"回答，而是先从一个可靠的知识库里检索真实信息，然后基于检索结果生成回答。这在封闭场景（企业内部知识库）里效果不错。但开放场景下，如果知识库里没有相关信息， AI 还是会回到"编"的模式。

拒绝训练。专门训练 AI 在某些情况下说"我不知道"或"我无法回答这个问题"。 Anthropic 在这方面做得比较激进——Claude 的拒绝率显著高于 ChatGPT 。但这也有代价： AI 会过度拒绝。你问一个完全正常的问题，它说"我无法回答"。

目前没有一个方案能从根本上解决问题。

因为根本问题不在技术方案层面。在训练目标层面。

你可能已经受过 AI 幻觉的害了

别觉得"AI 瞎编"离你很远。

求职。有人用 AI 生成简历里的项目描述。 AI 编造了不存在的技能和项目。面试的时候被问穿。

医疗。有人让 AI 查询药物副作用。 AI 给出了看似专业但完全不准确的建议。一个在 Reddit 上分享的经历： AI 告诉他某种药物"安全"，但他吃了之后出现了严重的过敏反应。

法律。一个美国律师用 ChatGPT 生成法庭引用的案例。 AI 编造了六个完全不存在的判例。法官当庭暴怒。这个案子上了全球新闻。

教育。学生用 AI 写论文。 AI 引用了不存在的文献。导师一查，全是假的。

这些事都在发生。而且发生的频率比你想象的高得多。

说句不好听的——你现在还能活着，很大程度上是因为 AI 还没有被大规模部署到真正会出人命的地方。但它正在往那个方向走。

Gartner 的统计显示，到 2026 年底，超过 70%的企业将在至少一个业务流程中部署生成式 AI 。

70%。

当七个企业里有六个在用 AI 做决策、写文案、查资料、出方案的时候——AI 的幻觉就不再是一个"技术问题"了。

它是一个社会风险。

你应该怎么跟 AI 打交道

不是说要你扔掉 AI 。恰恰相反。

AI 在翻译、摘要、代码辅助、创意灵感这些场景下非常有用。

你需要的是建立一条边界线。

用 AI 做"输出型"工作，别用它做"验证型"工作。让它帮你写邮件、润色文章、生成代码框架——这些事的"正确性"标准是主观的，没有对错之分。但别让它帮你查事实、找数据、验证信息——这些事需要"对错"判断，而 AI 没有这个能力。

交叉验证。 AI 给你的任何"事实性"信息，至少用另一个来源验证一次。 Google 搜索、维基百科、官方文档。哪怕你觉得它"看起来很可信"。

关注语气。如果一个 AI 回答的语气异常确定、数据异常精确、引述异常完整——这是红旗。不是说它一定是错的。是说它"看起来太对了"这件事本身就值得怀疑。真的人说真话的时候，往往会带一点不确定。"大概""可能""我记得是"——这些犹豫反而是真实性的信号。

AI 不会犹豫。

这就是它最大的破绽。

造 AI 的人也没解决这件事

一个讽刺的事实。

造出 GPT-4 、 Claude 、 Gemini 的那些公司，它们的 AI 产品也都有幻觉问题。

OpenAI 在 GPT-4 发布的时候，承认它的幻觉率比 GPT-3.5 降低了。但"降低"不等于"消除"。 GPT-4 仍然会编造事实。

Anthropic 的 Claude 被训练得更倾向于拒绝回答——但代价是它有时候连该回答的问题也拒绝了。

Google 的 Gemini 在演示中编造了不存在的图片。那个演示视频后来被撤回了。

造 AI 的人，用最先进的工具，最多的资源，最好的工程师——也没能解决"让 AI 说不知道"这个问题。

因为这不是一个"加个功能"能解决的。

这是一个"重新设计整个训练目标"才能解决的。

而目前没有人知道怎么重新设计。

"像"不等于"是"

AI 幻觉最深的含义，要从"像"和"是"的区别去看。

AI 生成的论文"像"真的论文。 AI 生成的诊断"像"真的诊断。 AI 生成的法律意见"像"真的法律意见。

但"像"不等于"是"。

我们正进入一个"像真的东西"可以大规模生产、成本趋近于零的时代。假论文、假案例、假数据、假引述——它们不是"做得很假"。它们做得"很像真的"。

而"像真的"和"是真的"之间那条线，正在变得模糊。

不是因为 AI 在故意模糊它。

是因为 AI 从诞生那一刻起，就不知道这条线的存在。

它只是一个在"像"的维度里做到极致的概率引擎。它给你最像真的答案。但那个答案是不是真的——

这个问题，它回答不了。

它甚至不知道你在问什么。