乐于分享
好东西不私藏

大模型训练解密:AI 为什么会一本正经地胡说八道?

大模型训练解密:AI 为什么会一本正经地胡说八道?

大模型最迷人的地方,是它什么都能说。
你问它历史,它能讲;你问它代码,它能写;你问它商业,它能分析;你让它写文章、做总结、改方案,它几乎都能给出一套看起来完整、顺滑、专业的答案。
但大模型最危险的地方,也恰恰是它什么都敢说。
它可能编一个不存在的论文,引用一个不存在的作者,给出一个看似合理但实际错误的结论,甚至在你追问时,还会继续用非常坚定的语气补充细节。
这就是我们常说的:AI 幻觉。
很多人以为幻觉是大模型偶尔出 bug。
但更准确地说,幻觉不是偶发现象,而是大模型训练机制里天然埋下的问题。
要理解 AI 为什么会一本正经地胡说八道,就要先理解一件事:
大模型不是数据库,它的底层任务也不是“查事实”,而是“预测下一个 token”。

一、大模型不是在查答案,而是在续写答案

人类使用 AI 时,很容易把它想象成一个超级搜索引擎。
你问一个问题,它给你一个回答。
于是你会自然认为:它一定是在某个地方查到了答案,然后整理出来告诉你。
但大模型不是这样工作的。
大模型的训练目标,本质上很简单:
根据前面的文本,预测后面最可能出现的 token。
所谓 token,可以粗略理解成模型眼中的语言单位。它可能是一个字、一个词,也可能是一个词的一部分。
比如你输入:

牛顿发现了……

模型要做的事情不是去数据库里查“牛顿到底发现了什么”,而是根据训练中见过的大量语言模式,预测后面最可能出现什么。
它可能接上:

万有引力定律。

这个答案是对的。
但注意,它之所以说出来,不是因为它刚刚查了一遍权威百科,而是因为在它学到的语言世界里,“牛顿”和“万有引力”高度相关。
这就是大模型的强大之处,也是它危险的源头。
它擅长生成“看起来像正确答案”的文本,但“看起来正确”,不等于“事实正确”。

二、它追求的是合理,不是负责

大模型回答问题时,最核心的能力不是事实核验,而是语言生成。
它会根据上下文、问题意图、知识关联和表达习惯,生成一段最符合概率分布的回答。
这就意味着,它天然追求的是:
连贯、顺滑、合理、像人话。
但它不天然保证:
真实、准确、可验证、可追溯。
这和人类写作有点像。
一个写作能力很强的人,如果没有查资料,也可以写出一篇看起来非常专业的文章。句子通顺,结构完整,概念密集,逻辑也像那么回事。
但这篇文章里面的事实,可能有一半是错的。
大模型也是如此。
它很会组织语言,很会模仿专业表达,很会补全逻辑链条。
所以它一旦犯错,往往不是那种低级错误,而是非常“高级”的错误。
它不会支支吾吾地说“我不知道”。
它更可能给你一个完整、漂亮、甚至带有细节的错误答案。
这就是幻觉最可怕的地方:
它不是胡言乱语,而是把错误包装成了知识。

三、预训练阶段,模型学到的是语言模式,不是事实校验

大模型最重要的训练阶段叫预训练。
在这个阶段,模型会阅读海量文本:网页、书籍、论文、代码、新闻、论坛、问答、百科等。
通过这些数据,它学会了语言结构、概念关系、常识模式、推理形式和知识分布。
但问题在于,预训练并不是一个严格的事实教育过程。
训练数据里本身就有大量噪声:
有过时信息,有错误内容,有营销文章,有偏见观点,有重复材料,也有很多看似专业但并不严谨的内容。
模型把这些信息吸收进去之后,并不会像人类研究员一样逐条核验。
它学到的是文本之间的统计关系。
比如某个公司、某个人物、某个概念,在大量文本中经常和哪些词一起出现,某类问题通常如何回答,某种论证通常如何展开。
这让模型具备了强大的生成能力。
但它没有天然获得一个“事实裁判系统”。
所以,模型可能知道很多事实,也可能把错误信息压缩进参数里。
它可能学会了真实知识,也可能学会了互联网上流行的误解。
这就是为什么大模型可以很聪明,同时也会很不可靠。

四、幻觉不是模型“太笨”,有时恰恰是它太会补全

很多人以为 AI 幻觉来自模型能力不足。
这当然有一部分原因。
模型能力越弱,越容易犯低级错误。
但更深一层看,幻觉也和大模型的强项有关:
它太擅长补全。
你给它一个问题,它会尽力补出一个完整答案。
你给它一个不完整信息,它会自动推断缺失部分。
你给它一个模糊需求,它会根据常见模式生成一个看似合理的结构。
在很多场景里,这种补全能力非常有用。
写文章、改文案、生成代码、梳理方案,都需要模型根据上下文进行延展。
但在事实型问题上,这种能力就可能变成风险。
比如你让它总结一篇不存在的论文,它可能不会直接拒绝,而是根据论文标题的关键词,编出一个摘要。
你让它列举某个领域的专家观点,它可能会生成几个听起来像真的名字。
你让它解释某个不存在的概念,它可能会按照相似概念的结构,写出一套完整解释。
为什么?
因为从模型角度看,它不是在判断“这个东西是否存在”。
它是在判断“如果有人这样提问,后面最可能出现什么样的回答”。
这就是幻觉的本质:
模型把语言上的合理性,误当成了现实中的真实性。

五、后训练能减少幻觉,但不能彻底消灭幻觉

后来,人们发现,仅靠预训练出来的模型虽然知识很多,但不一定好用。
它可能不听指令,回答不稳定,也不懂安全边界。
于是有了后训练。
后训练包括指令微调、人类反馈强化学习、偏好优化等方式。
简单说,就是让模型更会按照人的要求回答,更懂什么答案是好答案,什么答案不应该输出。
后训练确实能明显改善幻觉问题。
比如模型会学会:
“不确定时要说明不确定”;
“不要编造不存在的来源”;
“事实问题需要谨慎表达”;
“遇到超出知识范围的问题不要硬答”。
但后训练不是万能药。
因为后训练改变的是模型的回答习惯和行为倾向,不是从根上把模型变成数据库。
它可以让模型更谨慎,但不能保证模型永远正确。
它可以减少胡编乱造,但不能彻底消灭胡编乱造。
它可以让模型学会说“我不确定”,但不能保证它每次都知道自己什么时候该不确定。
这就是今天大模型的关键矛盾:
它越来越像一个可靠助手,但底层仍然是一个概率生成系统。

六、RAG、工具调用和联网搜索,为什么能缓解幻觉?

既然大模型不是数据库,那怎么减少幻觉?
一个重要方向,就是不要让模型只靠“记忆”回答,而是给它外部工具。
比如 RAG。
RAG 的意思是检索增强生成。
简单说,就是模型回答问题前,先去知识库里检索相关资料,再基于检索到的材料生成答案。
这样做的好处是:
模型不再完全依赖参数里的模糊记忆,而是有了可参考的外部文本。
如果企业把制度文档、产品手册、技术文档、客户资料接入 RAG,模型回答时就可以基于这些材料,而不是凭空发挥。
再比如工具调用。
模型可以调用计算器、数据库、搜索引擎、代码执行器、业务接口。
当问题需要精确计算时,它不自己心算,而是调用计算器。
当问题需要最新信息时,它不靠旧知识猜,而是联网搜索。
当问题需要查订单、查库存、查账户时,它调用业务系统。
这类能力的本质,是把大模型从一个“会说话的大脑”,变成一个“会使用工具的系统”。
大模型负责理解问题、组织步骤、生成解释。
外部工具负责提供事实、数据、计算和执行结果。
这才是更可靠的方向。
不是要求模型什么都记住,而是让模型知道什么时候该查,什么时候该算,什么时候该引用证据。

七、如何应对 AI 幻觉?

对普通用户来说,理解 AI 幻觉不是为了害怕 AI,而是为了更聪明地使用 AI。
最重要的原则只有一句话:
不要把 AI 当成答案机器,而要把它当成思路助手。
AI 很擅长帮你打开思路、搭建结构、归纳信息、生成初稿、解释概念、提出可能性。但只要涉及事实、数据、来源、法律、医疗、金融、投资、代码安全,就不能只看它说得是否流畅,而要看它能不能被验证。
第一,遇到事实型问题,要让 AI 给出处。
不要只问:“这个结论对吗?”
更好的问法是:

这个结论依据是什么?请列出可核验来源。哪些是事实,哪些是推测?这个数据来自哪里?有没有可能过时?

一旦 AI 给不出明确来源,或者来源模糊,就要把它当成“待验证信息”,不能直接使用。
第二,遇到重要决策,要让 AI 拆分不确定性。
比如你问 AI 一个投资判断、商业判断、职业选择,不要只让它给结论,而要让它列出:

支持这个判断的证据是什么?反对这个判断的证据是什么?最大的不确定因素是什么?如果判断错了,最可能错在哪里?

这样做的好处是,把 AI 从“结论生成器”变成“风险分析器”。它不再只是给你一个听起来很坚定的答案,而是帮你看到答案背后的假设和边界。
第三,遇到专业问题,要让 AI 先承认边界
可以直接加一句提示:

如果你不确定,请明确说不确定,不要编造。如果信息可能过时,请提醒我。如果需要外部数据,请说明需要查证什么。

这句话看起来简单,但很有用。因为很多幻觉来自模型过度补全。你提前要求它表达不确定性,就等于给它加了一道刹车。
第四,遇到长答案,要反向追问
AI 给出一大段内容后,不要马上接受。可以继续问:

你上面的回答里,最可能出错的三处是什么?哪些内容需要我额外核实?有没有相反观点?请用更严格的标准重新审查一遍。

这一步非常关键。AI 第一次回答时,往往倾向于顺着问题往下生成;反向追问,可以让它从“生成模式”切换到“审查模式”。
第五,不要让 AI 单独承担最后判断
AI 可以帮你整理材料、生成方案、比较利弊、模拟推演,但最后涉及真实行动,尤其是花钱、签约、用药、发代码、做投资,都必须经过人类复核。
更成熟的用法是:
让 AI 负责提高思考效率,让证据负责保证事实可靠,让人负责最终决策。
这才是普通用户应对 AI 幻觉的最佳实践。
不是不用 AI,也不是盲信 AI,而是把 AI 放在正确的位置上:
它是一个很强的副驾驶,但方向盘不能完全交给它。