2026年4月22日,加拿大魁北克高等法院做出了一项史无前例的裁定。
法官Martin F. Sheehan撤销了一份仲裁裁决,理由不是程序违法,也不是利益冲突——而是仲裁员把裁决的权力和过程交给了AI,而AI却耍起了“小聪明”——通过编造一堆根本不存在的法律判例,再依据那些虚假判例,作出裁决。
这是全球首例因AI幻觉撤销仲裁裁决的案件。

什么是AI幻觉
所谓AI幻觉,简单说就是指:AI一本正经地胡说八道。
它会编造根本不存在的书名,虚构从未发表过的论文,甚至像这次魁北克案发现的那样,凭空捏造法律判例。
更让人无语的是,它说这些话时语气笃定,前后逻辑一致,不露任何破绽,看起来比真人真事还真实。即使你让一个专业律师去核查,很可能翻半天资料也不见得能发现破绽。
在魁北克案中,捏造手段更绝——仲裁员引用了一个题为"Ville de Montréal v. Syndicat des cols bleus (2005 QCCA 591)的判例"。加拿大判例库里的确有这个(题目的)判例,但核查后发现,判例库里的实际判例与AI引用的“同名”判例完全无关。
AI不是引用错了,而是把真实判例的名字安在了它自己虚构的内容上。这种"作案"手法,比纯粹的编造更难识别。
在它之前,加拿大已有四起AI幻觉案件,但处罚对象都是律师和当事人。这一次,坐在被审查位置上的是决策者本身。

幻觉从何而来
要理解AI幻觉的起因,需要先理解大语言模型的工作方式。
它的本质是一个概率机器。你给它一段话,它就会——而且也只会——预测下一个最可能出现的词,然后一个词一个词地接下去。
实际上,它既不能理解你对它说的哪怕是最简单的话,也不懂自己说的每一句话。它仅仅是在统计意义上选择最顺口的表达。
当你问它一个法律问题,它不是去翻法典,而是根据训练数据中的语言模式,拼凑出一个看起来像正确答案的回复。
换句话说,AI的强项是"说得好",但不一定"说得对"。
2026年的行业数据显示,即使是幻觉率最低的Claude Opus 4.7,幻觉率仍在15%到25%之间。这意味着每回答四到五个问题,就有一个可能是编的。这种“编”,在聊天场景下或许无伤大雅。但在法律、医疗、金融领域,一次瞎编的代价可能极其惨重。

经济视角:幻觉的隐性税
从经济角度看,AI幻觉最大的危害,是为了防范它瞎编,整个社会不得不付出巨大的成本。
这笔账可以算一算。目前最有效的抗幻觉方案,是一种叫“检索增强生成(RAG)”的机制,这种机制可降低60%到80%的幻觉率。
但部署RAG需要:
构建专业知识库、
维护检索管道、
持续更新数据等。
其中每一项都需要真金白银。还有:
强制引用验证、
多模型交叉验证、
人工审核队列等,
同样需要持续投入。
AI幻觉其实是对经济系统征收了一笔巨大的隐性税。你用AI本来是为了提效降本,但为了确保它不说谎,又得投入大量资源做验证和兜底。
不同领域对幻觉的容忍度差异巨大:法律、医疗、金融容忍度低于1%,客服的容忍度可接受5%以内,创意写作则几乎不限。
我们也许不能指望AI完全不犯错,但必须确保犯错时有人兜底。而兜底是要花钱的。所以,在一些更高风险的领域,验证成本几乎等同于使用AI获得的收益——AI幻觉使AI优势几乎消失殆尽。

法律视角:当决策者依赖AI
魁北克案的真正分水岭意义在于:此前AI幻觉污染的是证据,这次污染的是裁决。
加拿大此前的四起案件,涉案的都是律师和当事人。他们用AI编造判例,被法庭处罚,逻辑还算清晰:谁用谁负责。
但仲裁员是决策者,决策者使用AI产生幻觉,性质完全不同。法官Sheehan在裁定中指出,仲裁员"将决策职能不当地委托给了人工智能",触及了一个根本问题:如果决策过程可以被AI污染,决策本身的合法性如何保证?
——法律体系赖以运转的基石是可解释性——裁决必须说清为什么这么判。但当"为什么"的答案来自一个概率模型,可解释性就成了空中楼阁!
法官还具体列举了AI的五大系统性风险,其中幻觉和缺乏人类裁量权赫然在列。
也许我们不能要求决策者不使用AI,但我们必须确保AI的输出不会直接等同于决策。这条底线一旦放弃,后果不堪设想。

技术视角:防线的极限
目前业界对抗幻觉的技术手段,大致可分为三类:事前预防、事中约束、事后核查。
事前预防以RAG为代表,先从知识库检索事实,再基于事实生成回答,而非让模型凭空创作。
事中约束则包括结构化输出——规范输出格式以缩小幻觉空间,以及规定置信度阈值——模型不确定时主动说"我不知道"。
事后核查则包括强制引用验证、多模型交叉验证和人工审核队列。
这套组合拳如果都有效工作,可以大大减少幻觉。其中,RAG能将幻觉率降低60%到80%,事中和事后的强制引用验证可以进一步压缩空间。但它们都无法将幻觉率降到零。
因为幻觉不是bug,而是大语言模型工作方式的固有特征。只要模型的底层逻辑是概率预测而非事实检索,就一定存在"看起来合理但不符合事实"的“概率”。
就像你让一个记忆力超群但从不查资料的人回答问题——他答对大多数,但偶尔会信心满满地说出错误答案,而且自己完全意识不到。
总之,我们不可能彻底消除现有大语言模型的AI幻觉,但是可以通过层层防线将其控制在可接受范围内和能够容忍的领域。

两种未来
AI的效率提升是显而易见的,如果AI幻觉能被有效防控——比如降到1%以下——法律、医疗、金融等高风险领域将会有更多的AI应用。AI辅助诊断、AI合同审查、AI风险评估等将成为日常。
如果AI幻觉无法得到有效防控,那么它对社会信任体系的冲击也将是系统性的。人们就始终无法相信任何由AI参与生成的信息,进而怀疑依赖这些信息生产的其他东西。
这种对技术本身的信任崩塌可能远超幻觉的实际损害。
两种不同的未来,是制度设计的选择。严监管、高成本、低风险,还是宽准入、低门槛、风险自担?
这个选择,本质上是对社会风险偏好的投票。

回到普通人
AI幻觉不是科幻电影里的危机。它是你习惯地打开手机,问AI一个问题,它给了你一个听起来很对的答案——而你无从判断真假的那一刻。
这场关于AI幻觉的讨论,最终会得出什么结论?
也许我们无法确保AI永远说“真话”,但必须确保在关乎你健康、财产和权利的时候,有一个比AI更可信真人为那个答案把关。
这才是魁北克那份被撤销的裁决,留给每个人最朴素的提醒。
夜雨聆风