你是否也遇到过这样的情况:问 AI 一个专业问题,它一本正经地给你编造出根本不存在的论文、案例、甚至法律条文?
这就是 AI 幻觉。
与其叫 AI 幻觉,我更喜欢叫AI 联想。
今天,我们就来彻底搞懂它是怎么产生的。
AI 为什么会“说谎”?
明明现在的推理模型性能已经非常强了,在分析问题、搜索答案的综合实力上甚至超过了大多数人。
但我们还是时不时会从它的答案里发现瞎编的内容——这就是所谓的幻觉。
要理解幻觉从哪里来,我们得先从 AI 的训练过程说起。
AI 是怎么被训练出来的?
大模型的训练不是一蹴而就的,它要经历三个关键阶段:
┌──────────────┐ ┌──────────────┐ ┌──────────────┐
│ 第一阶段 │ │ 第二阶段 │ │ 第三阶段 │
│ 预训练 │ ──> │ 监督微调 │ ──> │ 强化学习 │
│ │ │ (SFT) │ │ (PPO/GRPO) │
└──────────────┘ └──────────────┘ └──────────────┘
学习世界知识 学习专家表达 学习推理能力阶段一:预训练——填空小能手
核心逻辑:语言文字里蕴含着丰富的世界知识,能流畅表达的模型,自然也掌握了相应的知识。
阶段二:监督微调——跟专家学说话
专家们写下大量高质量的“问题-答案”对,模型深度模仿专家的回答方式。
到这一步,模型就学会了:有礼貌、守规矩、不乱说话。
这大概就是GPT-3级别的水平。
阶段三:强化学习——练就推理能力
这一步分为两种主流方法:PPO 和 GRPO。
【PPO训练流程图】
出一道题
│
▼
┌─────────────────┐
│ 模型生成多个答案 │
└─────────────────┘
│
▼
┌─────────────────┐
│ 真人给答案排序 │
└─────────────────┘
│
▼
┌─────────────────┐
│ 训练"打分模型" │──> 以后由它代替人类评分
└─────────────────┘
│
▼
调优大模型PPO训练出的模型有两个特点:
但问题来了:如果太“守初心”,模型推理起来就像背教科书一样死板。
于是GRPO登场了——它在一定程度上放开了“初心”的约束,让模型有更大的自由发挥空间。
幻觉的三重机制(重点来了!)
幻觉的三重叠加
╔═══════════════════════════════════════╗
║ 第三重:GRPO的自由发挥(最隐蔽) ║
╠═══════════════════════════════════════╣
║ 第二重:PPO的错误奖励(过程被忽视) ║
╠═══════════════════════════════════════╣
║ 第一重:预训练的概率本质(根源) ║
╚═══════════════════════════════════════╝第一重幻觉:预训练的“概率游戏”
案例:缅甸的首都是哪里?
正确答案是内比都(2006年启用的新首都),但之前一直是仰光。
模型在学习资料时,两种说法都见过。
更有意思的是:当你的问题里出现“首都”这个词,模型会从所有带“首都”标签的城市名中按概率选择。
于是东枝(掸邦首府)、毛淡棉(孟邦首府)等名字,也可能被“误选”为答案。
本质原因:下一个字输出什么,是从一个概率列表中选出来的,永远存在“选错”的可能。
第二重幻觉:PPO的“错误奖励”
打分模型只看最终答案好坏,不看思考过程对错。
这就导致了一个致命问题:
┌─────────────────────────────────────┐
│ 错误过程 + 巧合抵消 = 正确答案 │
│ │
│ 但模型记住了"错误的方法" │
└─────────────────────────────────────┘举个例子:
巧合之下,两个错误相互抵消,答案居然对了!
打分模型给了高分,模型以为自己找到了“正确方法”,下次遇到类似问题还会犯同样的错——这次可能就没那么幸运了。
第三重幻觉:GRPO的“创造性造假”
这是最高级、最隐蔽的幻觉。
由于GRPO释放了更大的自由度,模型会为了拿高分而:
模型的"创作过程"
遇到难题
│
▼
┌──────────────────┐
│ 自己编造前提条件 │
└──────────────────┘
│
▼
┌──────────────────┐
│ 模仿专业格式 │ <-- arXiv链接、裁判文书格式
└──────────────────┘
│
▼
┌──────────────────┐
│ 生成以假乱真答案 │
└──────────────────┘
│
▼
骗过打分模型真实案例:当你让 AI 找“某名人胜诉的确凿证据”时——
• 它会模仿法院判决书的文风 • 伪造裁判文书网的链接格式 • 编造看起来“很靠谱”的论文标题
这些内容骗过了打分模型,也容易骗过不仔细核查的用户。
那幻觉如何才能被消除?
目前业界有两种主流观点:
观点一:结构化数据派
“幻觉问题短期内解决不了,因为针对推理模型的结构化训练数据还没有现成的。”
观点二:打分模型升级派
核心思路:把标量化打分升级为非标量化反馈。
两种打分方式对比:
B: 6.1分 C: 5.5分 | B: 缺葱花 C: 菜汤太多 | |
举例说明:让 AI 生成一幅“鸡蛋炒西红柿”的图片——
• 标量打分:只告诉模型这张图几分,模型很容易跑偏 • 非标量打分:具体告诉模型哪里不对,模型能精准改进
三重幻觉全景图
╔════════════════════════════════════════════════════╗
║ AI幻觉产生机制总览 ║
╠════════════════════════════════════════════════════╣
║ ║
║ 🔹 第一重:预训练阶段 ║
║ └─ 概率输出本质 → 低概率答案仍可能被选中 ║
║ ║
║ 🔹 第二重:PPO强化学习 ║
║ └─ 只评结果不评过程 → 错误方法可能被"奖励" ║
║ ║
║ 🔹 第三重:GRPO自由发挥 ║
║ └─ 更大自由度 → 为了高分而"创造"虚假证据 ║
║ ║
╚════════════════════════════════════════════════════╝写在最后
AI 幻觉不是一个简单的bug,而是深植于训练机制的复杂现象。
理解它的产生原理,至少能帮我们做到两件事:
✅ 保持警惕:AI 给出的精美答案,可能只是概率游戏的产物
✅ 学会核查:涉及事实、数据、引用的内容,务必人工验证,或者换个 AI 大模型来验证
互动话题
你有没有遇到过 AI 幻觉,你是通过什么方式发现它是幻觉的呢?
欢迎在评论区留言,我们一起交流。
夜雨聆风