AI的“胡说八道”,没有根治,只有管理

一句话说清：无论AI将来怎么进化，AI幻觉的问题都不会消失。真正要问的不是“能不能让AI永远不错”，而是——既然消灭不了，那就管理它。我们愿意花多大代价、用什么办法，把错误压到能忍受的程度？

一、通往AGI 的路线，谁也做不到“零幻觉”

现在，全球最聪明的一批AI 专家正处于一场激烈的路线争论中：究竟怎么做出真正的通用人工智能（AGI）？也就是一个能像人类一样理解世界、处理复杂因果并解决多维问题的系统。

目前，这场争论已经沉淀为三条路线。需要提前说明的是：这三条路线的主攻方向都是“如何抵达 AGI”，而非“如何消灭幻觉”。减少幻觉不是他们最主要关心的议题，但都是每条路上的重要考量之一。很遗憾，截至目前，没有一条路敢宣称能彻底消灭它。

路线一：规模扩展2.0：从“预训练”转向“推理规模化”

代表人物：萨姆·奥特曼（Sam Altman），OpenAI的CEO。

他在做什么：奥特曼虽在2026年3月关停了Sora等视频生成项目，理由是集中算力和产品能力全力投入下一代核心AI模型，但他从未放弃”规模出奇迹”的信念。他目前的核心理念常被概括为Scaling Law 2.0：即通过o1/o2系列模型实现”推理时计算（Inference Scaling）”，让模型在推理阶段分配更多计算资源进行内部推演。

对幻觉的看法：o1系列的设计思路是通过更长的内部推理链来减少逻辑矛盾错误。其隐含假设是，相当一部分幻觉源于模型“想得太快”而非“知识不够”。

路线二：世界模型：给AI 换个“脑子”

代表人物：杨立昆（Yann LeCun），图灵奖得主。2025 年 11 月他离开 Meta，创办了 AMI Labs，押注“世界模型”。

他在做什么：杨立昆认为当前的LLM（大语言模型）是通往 AGI 的“死胡同”。他的判断很直接：LLM 只懂“词语的统计概率”，不懂“现实的因果逻辑”。所以他要造一个全新的架构——让 AI 通过海量视频和感知数据学习物理世界的规律（如重力、因果）。目前还在实验室阶段，没有成熟产品。

对幻觉的看法：世界模型能解决“违背常识”的幻觉（比如 AI 不再认为石头能浮在水上）。但在法律人最关心的具体事实记忆（如某条法律的生效日期）上，世界模型无法直接提供答案——因为它不追求存储海量事实，只追求理解物理逻辑。

路线三：混合力量——用“逻辑搜索”驯服“概率直觉”

代表人物：德米斯·哈萨比斯（Demis Hassabis），Google DeepMind的CEO，AlphaGo 的开创者。

他在做什么：哈萨比斯并不迷信单一的“大力出奇迹”。他在 2025 年明确提出“50% 投入规模扩展，50% 投入技术创新”。哈萨比斯引入了 AlphaGo 的血统：当 AI 的概率直觉给出一个答案倾向时，系统并不急于吐出文字，而是启动推理时搜索，在脑子里构建一棵可能性之树，通过自我对弈和逻辑校验，筛选出那个最经得起推敲的路径。

这里最易混淆的是，哈萨比斯和杨立昆都提“世界模型”。但本质完全不同：哈萨比斯是给 AI 加装“实验室（模拟器）”，让 AI 在开口前先在模拟环境里跑一遍，看逻辑通不通；而杨立昆是想给 AI 换个“大脑（新架构）”，他认为不理解物理因果的架构根本没有未来。

对幻觉的看法：这一路径能显著减少“逻辑自相矛盾”。但它依然有死穴：如果 AI 的知识库里根本没存那个法条，它“搜索”得再久也无法凭空变出真相。此外，这种“深度思考”代价极高：根据估算，回答一个问题可能比普通模型贵10-100 倍。

在了解和理解上述路线时，我发现非常困难，困难点在于AI圈的观点太多，立场也多，而且大佬们的观点也一直在变。其实现实比这三条路径更复杂、更交叉。除了以上这些，还有Ilya Sutskever的路径：Ilya公开宣告Scaling时代已结束，他的路径更偏向让模型具备推理和自主进化能力；还有AI智能体（Agentic Systems）研究团队、神经符号系统（Neuro-Symbolic Systems）学者们等。我还看了清华大学刘嘉教授的访谈，他提到现在有一拨人在从脑科学/认知科学的方向寻找启发AGI的路径，这也是一个方向。

这些顶尖大脑们还没商量好AGI 的梯子该往哪搭，但他们有一个共同的、基于实证的判断：在当前可预见的未来，没有任何一条路能彻底消灭幻觉。

二、既然消灭不了，那就管理它

无论走哪条路，幻觉都不会消失。但不同路线对不同类型的幻觉压制效果差异显著——例如推理路线擅长解决逻辑矛盾，世界模型擅长物理常识，而事实记忆错误至今没有完美解。

我们在上一篇推文说大白话：什么是“AI 幻觉”？中提到过AI幻觉的“底层病理（引擎机制）：幻觉根源于概率计算。模型是基于概率预测，其本质是最大化“统计合理性”，而非“逻辑真实性”。这是根因。

通过查找资料，我发现在工程实现上，AI幻觉的产生还有各种诱因。感兴趣的读者可以查看这篇论文《A Comprehensive Survey of Hallucination in Large Language Models: Causes, Detection, and Mitigation》，这篇论文将LLM开发流程分为六个不同阶段：数据收集与准备、模型架构、预训练、微调、评估和推理，每个阶段的工程实现都有可能导致幻觉的产生，这些因素是诱发AI幻觉的“工程变量”。

三、法律人真正该问的四个问题

各种观点再眼花缭乱，也影响不了我们法律人的视角。既然消灭不了，那就管理它，并且要考虑“幻觉的精细化管理”。你不用懂技术，只需要问四个问题：

第一，错多少算“可接受”？聊天机器人错20%可能没人管，医疗诊断错0.1%都可能出人命。谁来定这条线？是行业标准？监管红线？还是法院个案判断？

第二，压错误要花多少钱？让AI查资料（检索增强生成（RAG），指当你向AI提问时，它先不去直接回答，而是像在图书馆里翻书一样，去你的私有数据库或互联网上搜索相关的最新资料）成本相对可控，但AI可能不听话；让AI过脑子（推理验证）效果好，但可能贵10-100倍。不同的场景，愿意付出的成本完全不同。

第三，钱到底该谁出？企业出？用户出？社会分摊？还是买保险？这不只是算账，是责任分配。如果说“成本太高承担不起”，那要看这个“谁”是谁。

第四，不同场景用什么办法？内部知识库用RAG就够了；写法律文书可能需要RAG+推理验证；自动驾驶可能需要世界模型。没有万能药，只有对症下药。

四、法律人的新角色：从“追求完美”到“管理风险”

我们不需要等一个“永远不会错”的AI。我们要做的是：在知道它一定会犯错的前提下，把责任边界划清楚。

这就是“精细化管理”的核心：不是追求绝对安全，而是在不同场景下，接受不同程度的风险，并配置相应的防御措施。

法律人不只要问“开发者有没有尽力减少错误”，还要问：

能说清楚为什么错吗？是没查到资料？是查到了但不听话？还是这个场景根本不该用AI？

能留下证据吗？当错误发生，系统能不能提供日志，让法院或监管判断谁该负责？

这是一个复杂的问题，下一篇，我们接着聊。

更多实战干货，戳：法务认知架构全景图，四门实战课，一次讲透