乐于分享
好东西不私藏

AI的“胡说八道”,没有根治,只有管理

AI的“胡说八道”,没有根治,只有管理

一句话说清:无论AI将来怎么进化,AI幻觉的问题都不会消失。真正要问的不是“能不能让AI永远不错”,而是——既然消灭不了,那就管理它。我们愿意花多大代价、用什么办法,把错误压到能忍受的程度?

一、通往AGI 的路线,谁也做不到“零幻觉”

现在,全球最聪明的一批AI 专家正处于一场激烈的路线争论中:究竟怎么做出真正的通用人工智能(AGI)? 也就是一个能像人类一样理解世界、处理复杂因果并解决多维问题的系统。
目前,这场争论已经沉淀为三条路线。需要提前说明的是:这三条路线的主攻方向都是“如何抵达 AGI”,而非“如何消灭幻觉”。减少幻觉不是他们最主要关心的议题,但都是每条路上的重要考量之一。很遗憾,截至目前,没有一条路敢宣称能彻底消灭它

路线一:规模扩展2.0:从“预训练”转向“推理规模化”

代表人物:萨姆·奥特曼(Sam Altman),OpenAI的CEO。
他在做什么:奥特曼虽在2026年3月关停了Sora等视频生成项目,理由是集中算力和产品能力全力投入下一代核心AI模型,但他从未放弃”规模出奇迹”的信念。他目前的核心理念常被概括为Scaling Law 2.0:即通过o1/o2系列模型实现”推理时计算(Inference Scaling)”,让模型在推理阶段分配更多计算资源进行内部推演。
对幻觉的看法:o1系列的设计思路是通过更长的内部推理链来减少逻辑矛盾错误。其隐含假设是,相当一部分幻觉源于模型“想得太快”而非“知识不够”。

路线二:世界模型:给AI 换个“脑子”

代表人物:杨立昆(Yann LeCun),图灵奖得主。2025 年 11 月他离开 Meta,创办了 AMI Labs,押注“世界模型”。
他在做什么:杨立昆认为当前的LLM(大语言模型)是通往 AGI 的“死胡同”。他的判断很直接:LLM 只懂“词语的统计概率”,不懂“现实的因果逻辑”。所以他要造一个全新的架构——让 AI 通过海量视频和感知数据学习物理世界的规律(如重力、因果)。目前还在实验室阶段,没有成熟产品。
对幻觉的看法:世界模型能解决“违背常识”的幻觉(比如 AI 不再认为石头能浮在水上)。但在法律人最关心的具体事实记忆(如某条法律的生效日期)上,世界模型无法直接提供答案——因为它不追求存储海量事实,只追求理解物理逻辑。

路线三:混合力量——用“逻辑搜索”驯服“概率直觉”

代表人物:德米斯·哈萨比斯(Demis Hassabis),Google DeepMind的CEO,AlphaGo 的开创者。
他在做什么:哈萨比斯并不迷信单一的“大力出奇迹”。他在 2025 年明确提出“50% 投入规模扩展,50% 投入技术创新”。哈萨比斯引入了 AlphaGo 的血统:当 AI 的概率直觉给出一个答案倾向时,系统并不急于吐出文字,而是启动推理时搜索,在脑子里构建一棵可能性之树,通过自我对弈和逻辑校验,筛选出那个最经得起推敲的路径。

这里最易混淆的是,哈萨比斯和杨立昆都提“世界模型”。但本质完全不同:哈萨比斯是给 AI 加装“实验室(模拟器)”,让 AI 在开口前先在模拟环境里跑一遍,看逻辑通不通;而杨立昆是想给 AI 换个“大脑(新架构)”,他认为不理解物理因果的架构根本没有未来。

对幻觉的看法:这一路径能显著减少“逻辑自相矛盾”。但它依然有死穴:如果 AI 的知识库里根本没存那个法条,它“搜索”得再久也无法凭空变出真相。此外,这种“深度思考”代价极高:根据估算,回答一个问题可能比普通模型贵10-100 倍。
在了解和理解上述路线时,我发现非常困难,困难点在于AI圈的观点太多,立场也多,而且大佬们的观点也一直在变。其实现实比这三条路径更复杂、更交叉。除了以上这些,还有Ilya Sutskever的路径:Ilya公开宣告Scaling时代已结束,他的路径更偏向让模型具备推理和自主进化能力;还有AI智能体(Agentic Systems)研究团队、神经符号系统(Neuro-Symbolic Systems)学者们等。我还看了清华大学刘嘉教授的访谈,他提到现在有一拨人在从脑科学/认知科学的方向寻找启发AGI的路径,这也是一个方向。
这些顶尖大脑们还没商量好AGI 的梯子该往哪搭,但他们有一个共同的、基于实证的判断:在当前可预见的未来,没有任何一条路能彻底消灭幻觉。

二、既然消灭不了,那就管理它

无论走哪条路,幻觉都不会消失。但不同路线对不同类型的幻觉压制效果差异显著——例如推理路线擅长解决逻辑矛盾,世界模型擅长物理常识,而事实记忆错误至今没有完美解。

我们在上一篇推文说大白话:什么是“AI 幻觉”?中提到过AI幻觉的“底层病理(引擎机制):幻觉根源于概率计算。模型是基于概率预测,其本质是最大化“统计合理性”,而非“逻辑真实性”。这是根因。
通过查找资料,我发现在工程实现上,AI幻觉的产生还有各种诱因。感兴趣的读者可以查看这篇论文《A Comprehensive Survey of Hallucination in Large Language Models: Causes, Detection, and Mitigation》,这篇论文将LLM开发流程分为六个不同阶段:数据收集与准备、模型架构、预训练、微调、评估和推理,每个阶段的工程实现都有可能导致幻觉的产生,这些因素是诱发AI幻觉的“工程变量”。

三、法律人真正该问的四个问题

各种观点再眼花缭乱,也影响不了我们法律人的视角。既然消灭不了,那就管理它,并且要考虑“幻觉的精细化管理”。你不用懂技术,只需要问四个问题:
第一,错多少算“可接受”?聊天机器人错20%可能没人管,医疗诊断错0.1%都可能出人命。谁来定这条线?是行业标准?监管红线?还是法院个案判断?
第二,压错误要花多少钱?让AI查资料(检索增强生成(RAG),指当你向AI提问时,它先不去直接回答,而是像在图书馆里翻书一样,去你的私有数据库或互联网上搜索相关的最新资料)成本相对可控,但AI可能不听话;让AI过脑子(推理验证)效果好,但可能贵10-100倍。不同的场景,愿意付出的成本完全不同。
第三,钱到底该谁出?企业出?用户出?社会分摊?还是买保险?这不只是算账,是责任分配。如果说“成本太高承担不起”,那要看这个“谁”是谁。
第四,不同场景用什么办法?内部知识库用RAG就够了;写法律文书可能需要RAG+推理验证;自动驾驶可能需要世界模型。没有万能药,只有对症下药。

四、法律人的新角色:从“追求完美”到“管理风险”

我们不需要等一个“永远不会错”的AI。我们要做的是:在知道它一定会犯错的前提下,把责任边界划清楚。

这就是“精细化管理”的核心:不是追求绝对安全,而是在不同场景下,接受不同程度的风险,并配置相应的防御措施

法律人不只要问“开发者有没有尽力减少错误”,还要问:

能说清楚为什么错吗?是没查到资料?是查到了但不听话?还是这个场景根本不该用AI?
能留下证据吗?当错误发生,系统能不能提供日志,让法院或监管判断谁该负责?
这是一个复杂的问题,下一篇,我们接着聊。

更多实战干货,戳:法务认知架构全景图,四门实战课,一次讲透