当AI一本正经地胡说八道,人类该怎么办?——从一份被撤销的裁决说起

2026年4月22日，加拿大魁北克高等法院做出了一项史无前例的裁定。

法官Martin F. Sheehan撤销了一份仲裁裁决，理由不是程序违法，也不是利益冲突——而是仲裁员把裁决的权力和过程交给了AI，而AI却耍起了“小聪明”——通过编造一堆根本不存在的法律判例，再依据那些虚假判例，作出裁决。

这是全球首例因AI幻觉撤销仲裁裁决的案件。

什么是AI幻觉

所谓AI幻觉，简单说就是指：AI一本正经地胡说八道。

它会编造根本不存在的书名，虚构从未发表过的论文，甚至像这次魁北克案发现的那样，凭空捏造法律判例。

更让人无语的是，它说这些话时语气笃定，前后逻辑一致，不露任何破绽，看起来比真人真事还真实。即使你让一个专业律师去核查，很可能翻半天资料也不见得能发现破绽。

在魁北克案中，捏造手段更绝——仲裁员引用了一个题为"Ville de Montréal v. Syndicat des cols bleus (2005 QCCA 591)的判例"。加拿大判例库里的确有这个（题目的）判例，但核查后发现，判例库里的实际判例与AI引用的“同名”判例完全无关。

AI不是引用错了，而是把真实判例的名字安在了它自己虚构的内容上。这种"作案"手法，比纯粹的编造更难识别。

在它之前，加拿大已有四起AI幻觉案件，但处罚对象都是律师和当事人。这一次，坐在被审查位置上的是决策者本身。

幻觉从何而来

要理解AI幻觉的起因，需要先理解大语言模型的工作方式。

它的本质是一个概率机器。你给它一段话，它就会——而且也只会——预测下一个最可能出现的词，然后一个词一个词地接下去。

实际上，它既不能理解你对它说的哪怕是最简单的话，也不懂自己说的每一句话。它仅仅是在统计意义上选择最顺口的表达。

当你问它一个法律问题，它不是去翻法典，而是根据训练数据中的语言模式，拼凑出一个看起来像正确答案的回复。

换句话说，AI的强项是"说得好"，但不一定"说得对"。

2026年的行业数据显示，即使是幻觉率最低的Claude Opus 4.7，幻觉率仍在15%到25%之间。这意味着每回答四到五个问题，就有一个可能是编的。这种“编”，在聊天场景下或许无伤大雅。但在法律、医疗、金融领域，一次瞎编的代价可能极其惨重。

经济视角：幻觉的隐性税

从经济角度看，AI幻觉最大的危害，是为了防范它瞎编，整个社会不得不付出巨大的成本。

这笔账可以算一算。目前最有效的抗幻觉方案，是一种叫“检索增强生成（RAG）”的机制，这种机制可降低60%到80%的幻觉率。

但部署RAG需要：

构建专业知识库、
维护检索管道、
持续更新数据等。

其中每一项都需要真金白银。还有：

强制引用验证、
多模型交叉验证、
人工审核队列等，

同样需要持续投入。

AI幻觉其实是对经济系统征收了一笔巨大的隐性税。你用AI本来是为了提效降本，但为了确保它不说谎，又得投入大量资源做验证和兜底。

不同领域对幻觉的容忍度差异巨大：法律、医疗、金融容忍度低于1%，客服的容忍度可接受5%以内，创意写作则几乎不限。

我们也许不能指望AI完全不犯错，但必须确保犯错时有人兜底。而兜底是要花钱的。所以，在一些更高风险的领域，验证成本几乎等同于使用AI获得的收益——AI幻觉使AI优势几乎消失殆尽。

法律视角：当决策者依赖AI

魁北克案的真正分水岭意义在于：此前AI幻觉污染的是证据，这次污染的是裁决。

加拿大此前的四起案件，涉案的都是律师和当事人。他们用AI编造判例，被法庭处罚，逻辑还算清晰：谁用谁负责。

但仲裁员是决策者，决策者使用AI产生幻觉，性质完全不同。法官Sheehan在裁定中指出，仲裁员"将决策职能不当地委托给了人工智能"，触及了一个根本问题：如果决策过程可以被AI污染，决策本身的合法性如何保证？

——法律体系赖以运转的基石是可解释性——裁决必须说清为什么这么判。但当"为什么"的答案来自一个概率模型，可解释性就成了空中楼阁！

法官还具体列举了AI的五大系统性风险，其中幻觉和缺乏人类裁量权赫然在列。

也许我们不能要求决策者不使用AI，但我们必须确保AI的输出不会直接等同于决策。这条底线一旦放弃，后果不堪设想。

技术视角：防线的极限

目前业界对抗幻觉的技术手段，大致可分为三类：事前预防、事中约束、事后核查。

事前预防以RAG为代表，先从知识库检索事实，再基于事实生成回答，而非让模型凭空创作。

事中约束则包括结构化输出——规范输出格式以缩小幻觉空间，以及规定置信度阈值——模型不确定时主动说"我不知道"。

事后核查则包括强制引用验证、多模型交叉验证和人工审核队列。

这套组合拳如果都有效工作，可以大大减少幻觉。其中，RAG能将幻觉率降低60%到80%，事中和事后的强制引用验证可以进一步压缩空间。但它们都无法将幻觉率降到零。

因为幻觉不是bug，而是大语言模型工作方式的固有特征。只要模型的底层逻辑是概率预测而非事实检索，就一定存在"看起来合理但不符合事实"的“概率”。

就像你让一个记忆力超群但从不查资料的人回答问题——他答对大多数，但偶尔会信心满满地说出错误答案，而且自己完全意识不到。

总之，我们不可能彻底消除现有大语言模型的AI幻觉，但是可以通过层层防线将其控制在可接受范围内和能够容忍的领域。

两种未来

AI的效率提升是显而易见的，如果AI幻觉能被有效防控——比如降到1%以下——法律、医疗、金融等高风险领域将会有更多的AI应用。AI辅助诊断、AI合同审查、AI风险评估等将成为日常。

如果AI幻觉无法得到有效防控，那么它对社会信任体系的冲击也将是系统性的。人们就始终无法相信任何由AI参与生成的信息，进而怀疑依赖这些信息生产的其他东西。

这种对技术本身的信任崩塌可能远超幻觉的实际损害。

两种不同的未来，是制度设计的选择。严监管、高成本、低风险，还是宽准入、低门槛、风险自担？

这个选择，本质上是对社会风险偏好的投票。

回到普通人

AI幻觉不是科幻电影里的危机。它是你习惯地打开手机，问AI一个问题，它给了你一个听起来很对的答案——而你无从判断真假的那一刻。

这场关于AI幻觉的讨论，最终会得出什么结论？

也许我们无法确保AI永远说“真话”，但必须确保在关乎你健康、财产和权利的时候，有一个比AI更可信真人为那个答案把关。

这才是魁北克那份被撤销的裁决，留给每个人最朴素的提醒。