一文带你看懂,AI 大模型产生幻觉的三重机制

你是否也遇到过这样的情况：问 AI 一个专业问题，它一本正经地给你编造出根本不存在的论文、案例、甚至法律条文？

这就是 AI 幻觉。

与其叫 AI 幻觉，我更喜欢叫AI 联想。

今天，我们就来彻底搞懂它是怎么产生的。

AI 为什么会“说谎”？

明明现在的推理模型性能已经非常强了，在分析问题、搜索答案的综合实力上甚至超过了大多数人。

但我们还是时不时会从它的答案里发现瞎编的内容——这就是所谓的幻觉。

要理解幻觉从哪里来，我们得先从 AI 的训练过程说起。

AI 是怎么被训练出来的？

大模型的训练不是一蹴而就的，它要经历三个关键阶段：

┌──────────────┐     ┌──────────────┐     ┌──────────────┐
│  第一阶段     │     │  第二阶段     │     │  第三阶段     │
│   预训练      │ ──> │   监督微调    │ ──> │   强化学习    │
│              │     │    (SFT)     │     │   (PPO/GRPO) │
└──────────────┘     └──────────────┘     └──────────────┘
   学习世界知识        学习专家表达          学习推理能力

阶段一：预训练——填空小能手

训练方式	具体做法	结果
文字盖字猜字	遮住文章中的某个字让模型猜	学会语言规律
反复奖励调参	猜对就给奖励，调整上千亿参数	掌握续写能力
海量语料喂食	文字、图片、音频、视频	吸收世界知识

核心逻辑：语言文字里蕴含着丰富的世界知识，能流畅表达的模型，自然也掌握了相应的知识。

阶段二：监督微调——跟专家学说话

专家们写下大量高质量的“问题-答案”对，模型深度模仿专家的回答方式。

到这一步，模型就学会了：有礼貌、守规矩、不乱说话。

这大概就是GPT-3级别的水平。

阶段三：强化学习——练就推理能力

这一步分为两种主流方法：PPO 和 GRPO。

【PPO训练流程图】

  出一道题
     │
     ▼
┌─────────────────┐
│ 模型生成多个答案 │
└─────────────────┘
     │
     ▼
┌─────────────────┐
│ 真人给答案排序   │
└─────────────────┘
     │
     ▼
┌─────────────────┐
│ 训练"打分模型"   │──> 以后由它代替人类评分
└─────────────────┘
     │
     ▼
  调优大模型

PPO训练出的模型有两个特点：

特点	含义	目的
追求高分	向打分模型靠拢	生成更好的答案
不忘初心	不能偏离原模型太远	保持守规矩的底线

但问题来了：如果太“守初心”，模型推理起来就像背教科书一样死板。

于是GRPO登场了——它在一定程度上放开了“初心”的约束，让模型有更大的自由发挥空间。

幻觉的三重机制（重点来了！）

              幻觉的三重叠加

   ╔═══════════════════════════════════════╗
   ║  第三重：GRPO的自由发挥（最隐蔽）       ║
   ╠═══════════════════════════════════════╣
   ║  第二重：PPO的错误奖励（过程被忽视）    ║
   ╠═══════════════════════════════════════╣
   ║  第一重：预训练的概率本质（根源）       ║
   ╚═══════════════════════════════════════╝

第一重幻觉：预训练的“概率游戏”

案例：缅甸的首都是哪里？

正确答案是内比都（2006年启用的新首都），但之前一直是仰光。

模型在学习资料时，两种说法都见过。

候选答案	输出概率	来源
✅ 内比都	70%	新资料
⚠️ 仰光	20%	旧资料
❌ 曼德勒	10%	其他关联资料

更有意思的是：当你的问题里出现“首都”这个词，模型会从所有带“首都”标签的城市名中按概率选择。

于是东枝（掸邦首府）、毛淡棉（孟邦首府）等名字，也可能被“误选”为答案。

本质原因：下一个字输出什么，是从一个概率列表中选出来的，永远存在“选错”的可能。

第二重幻觉：PPO的“错误奖励”

打分模型只看最终答案好坏，不看思考过程对错。

这就导致了一个致命问题：

  ┌─────────────────────────────────────┐
  │  错误过程 + 巧合抵消 = 正确答案      │
  │                                     │
  │  但模型记住了"错误的方法"            │
  └─────────────────────────────────────┘

举个例子：

步骤	正确做法	模型做法	结果
第一步	×2	÷2 ❌	偏离
第二步	÷2	×2 ❌	歪打正着
最终答案	✅	✅	都对

巧合之下，两个错误相互抵消，答案居然对了！

打分模型给了高分，模型以为自己找到了“正确方法”，下次遇到类似问题还会犯同样的错——这次可能就没那么幸运了。

第三重幻觉：GRPO的“创造性造假”

这是最高级、最隐蔽的幻觉。

由于GRPO释放了更大的自由度，模型会为了拿高分而：

    模型的"创作过程"

    遇到难题
       │
       ▼
  ┌──────────────────┐
  │ 自己编造前提条件  │
  └──────────────────┘
       │
       ▼
  ┌──────────────────┐
  │ 模仿专业格式      │ <-- arXiv链接、裁判文书格式
  └──────────────────┘
       │
       ▼
  ┌──────────────────┐
  │ 生成以假乱真答案  │
  └──────────────────┘
       │
       ▼
    骗过打分模型

真实案例：当你让 AI 找“某名人胜诉的确凿证据”时——

• 它会模仿法院判决书的文风
• 伪造裁判文书网的链接格式
• 编造看起来“很靠谱”的论文标题

这些内容骗过了打分模型，也容易骗过不仔细核查的用户。

那幻觉如何才能被消除？

目前业界有两种主流观点：

观点一：结构化数据派

“幻觉问题短期内解决不了，因为针对推理模型的结构化训练数据还没有现成的。”

观点二：打分模型升级派

核心思路：把标量化打分升级为非标量化反馈。

两种打分方式对比：

维度	标量化打分	非标量化打分
形式	A: 7.5分 B: 6.1分 C: 5.5分	A: 鸡蛋放太少 B: 缺葱花 C: 菜汤太多
信息量	少 ⬇️	丰富 ⬆️
适用场景	简单问答	复杂生成任务
抑制幻觉效果	一般	更好 ✅

举例说明：让 AI 生成一幅“鸡蛋炒西红柿”的图片——

• 标量打分：只告诉模型这张图几分，模型很容易跑偏
• 非标量打分：具体告诉模型哪里不对，模型能精准改进

三重幻觉全景图

╔════════════════════════════════════════════════════╗
║               AI幻觉产生机制总览                    ║
╠════════════════════════════════════════════════════╣
║                                                    ║
║  🔹 第一重：预训练阶段                             ║
║     └─ 概率输出本质 → 低概率答案仍可能被选中        ║
║                                                    ║
║  🔹 第二重：PPO强化学习                            ║
║     └─ 只评结果不评过程 → 错误方法可能被"奖励"      ║
║                                                    ║
║  🔹 第三重：GRPO自由发挥                           ║
║     └─ 更大自由度 → 为了高分而"创造"虚假证据       ║
║                                                    ║
╚════════════════════════════════════════════════════╝

写在最后

AI 幻觉不是一个简单的bug，而是深植于训练机制的复杂现象。

理解它的产生原理，至少能帮我们做到两件事：

✅ 保持警惕：AI 给出的精美答案，可能只是概率游戏的产物
✅ 学会核查：涉及事实、数据、引用的内容，务必人工验证，或者换个 AI 大模型来验证

互动话题

你有没有遇到过 AI 幻觉，你是通过什么方式发现它是幻觉的呢？

欢迎在评论区留言，我们一起交流。