AI幻觉问题的本质是什么?能彻底解决吗?

AI幻觉问题的本质是什么？能彻底解决吗？

有个律师在法庭上引用了ChatGPT给出的案例，结果法官一查，那几个案子根本不存在。

有个律师在法庭上引用了ChatGPT给出的案例，结果法官一查，那几个案子根本不存在。律师事务所被罚款，律师本人差点吊销执照。这件事当时在法律圈炸开了锅，很多人的第一反应是，AI在撒谎。

但它真的是在「撒谎」吗？

这个问题我想认真聊聊，因为大多数人对AI幻觉的理解，其实停在一个很浅的层面，觉得是模型不够聪明、数据不够多、训练不够好，修修补补就能解决。但如果你往深了想，会发现这个问题的根子，比你以为的要硬得多。

AI幻觉不是bug，是这类系统的工作方式本身带来的副产品。

大语言模型的运作逻辑，其实就是在做一件事，给定前文，预测下一个最可能出现的词。它没有一个「知识库」可以查，没有一个「事实核验器」在后台运行。它学到的是语言的统计规律，是词与词之间的关联概率。你问它「爱因斯坦什么时候出生」，它输出「1879年」，不是因为它「知道」这个事实，而是因为在它见过的海量文本里，「爱因斯坦」和「1879年」高度相关，这个词序列的概率极高。

你想想看，这意味着什么，一旦遇到那些在训练数据里出现频率低、关联模式模糊的问题，模型就会用「听起来合理」的词序列来填充，而不是说「我不知道」。那个律师引用的案例，在语言层面完全符合法律文书的格式，案件名称、法院、判决逻辑，全都有模有样。模型生成的是「像案例的东西」，而不是「真实的案例」。这两件事，在它的计算逻辑里根本没有区别。

•那为什么模型不能学会「说不知道」呢？这是第二层问题，也是很多人没想到的地方。

说真的，这不是训练数据量的问题。GPT-4、Claude、Gemini这些模型已经见过的文本量，远超任何一个人类一生的阅读量。问题在于，「我不知道」这件事，在训练过程中极难被正确激励。人类给模型打分的时候，一个听起来自信、流畅、有逻辑的答案，往往比一个犹豫、充满不确定性的答案得分更高。模型学到的是，「听起来确定」比「表达不确定」更受欢迎。这就是所谓的奉承偏差，模型在优化「让人满意」，而不是「说实话」。

Anthropic在训练Claude的时候，花了很大力气去解决这个问题，专门在RLHF阶段引导模型表达不确定性。OpenAI也在做类似的事。但你观察一下这些模型的实际表现，它们确实比早期版本更频繁地说「我不确定」或「请核实」，但幻觉并没有消失，只是变少了，变得更难被发现了。这其实是另一种危险，模型变得更谨慎，但当它「确定」地给出一个答案时，你更难判断那是真的确定还是高置信度的幻觉。

顺着这个再聊聊，工程层面的补丁能打多远。

这两年行业里最流行的解法是RAG，也就是检索增强生成。思路很直接，让模型在回答之前先去查真实的文档、数据库，把检索到的内容作为上下文再生成答案。这个方案在很多企业落地场景里确实有效，幻觉率明显下降。但它解决的是「信息获取」层面的问题，不是「语言生成」层面的问题。模型仍然可能对检索到的内容进行错误的理解、错误的整合、甚至错误的引用。你给它一段真实文档，它可能断章取义，可能张冠李戴，可能把两段不相关的内容混在一起给你一个「有来源的幻觉」。

还有一条路是让模型「慢思考」，比如OpenAI的o系列，在给出答案之前做更长的推理链。这个方向在数学、逻辑、代码这些有明确验证标准的领域效果显著。但在开放性的事实问题上，推理链更长，有时候只是意味着「更有说服力的错误推导」。它可以用三段论把一个错误的前提推导成一个听起来无懈可击的结论。

说到底，幻觉问题背后有一个更根本的张力，语言能力和世界知识是两件不同的事，但我们现在用的路线是用一套系统同时解决它们。

人类说话不会幻觉，不是因为我们的「语言模型」更好，而是因为我们有一个独立的、和现实世界持续交互的认知系统在校验我们说的话。我知道「爱因斯坦1879年出生」，不是因为这句话的词序概率高，而是因为我在不同的上下文里反复接触过这个事实，并且这个事实和我对物理学史、二十世纪历史的整体认知是自洽的。这是一种接地性，语言符号和真实世界之间的绑定关系。

现在的大语言模型，在这个意义上是「悬空」的，它操作的是符号，而不是符号指向的现实。DeepMind、Meta AI Research这些机构都在研究把感知、行动、环境反馈引入AI系统，本质上是想给模型「接地」。具身智能、多模态、工具调用，这些方向都在做这件事。但这是一个漫长的工程，而且解决了接地问题，不代表就解决了语言层面的统计幻觉。这两个问题是叠加的，不是替换关系。

彻底解决？坦率的讲，我不认为在现有的技术范式下能做到。

这不是悲观，而是对这件事有更准确的预期。幻觉可以被压制到一个很低的频率，可以通过工程手段在特定场景下被大幅缓解，可以通过系统设计让它的危害降到可接受的范围。但一个基于统计预测的语言系统，在边界条件下生成「听起来合理但不真实」的输出，这件事很可能是结构性的，不是可以打补丁解决的。

真正值得思考的问题是，我们该怎么和一个「大多数时候正确、偶尔自信地错误」的系统共处。这不只是技术问题，是认知问题，是制度问题，是我们怎么重新定义「可靠性」的问题。那个被罚款的律师，如果他知道这个系统的工作方式，他还会直接引用吗？

我觉得不会。