用了这么久的ChatGPT、Claude或DeepSeek,你可能早就发现了一个问题:AI有时候特别擅长“胡说八道”,而且语气比谁都笃定。
它能把根本不存在的事情讲得头头是道,能给你虚构出好几篇不存在的论文和作者,甚至能在你指出错误之后继续硬撑。不是它故意骗你,而是在它的“认知”里,这些话和你问的那些事实问题,根本没有本质区别。
这种现象在学术界有一个正式的名字——大模型幻觉。它指的是模型生成流畅且语法正确的、但实际上不准确或无依据的内容。说得直白点:AI编答案,不是bug,而是一个内置的“副作用”。
一、什么是大模型幻觉
先讲清楚概念。
你在搜索引擎里搜“2025年诺贝尔物理学奖得主”,搜出来的结果要么有,要么没有。大模型不一样——它会根据训练数据中学到的统计规律,去“猜”一个答案。猜对了,你觉得它很聪明;猜错了,它就凭空造出了一个答案。
这种“猜”的过程,就是幻觉的来源。一篇2026年发布的综合性综述给出了更精确的定义:幻觉指的是大模型生成流畅且语法正确、但在事实上不准确或缺乏外部依据的内容。简单来说,输出听起来没问题,但内容是错的。
更麻烦的是,模型在编造这些内容的时候,往往表现出极高的置信度。一个幻觉率超过10%的模型,在大部分时候依然语气笃定、逻辑自洽。这正是幻觉最难缠的地方——它的错误被包裹在完美的语言外壳里,让你很难一眼识破。
二、幻觉有多普遍
如果说几年前这还是个“偶尔出现”的小毛病,那现在已经变成了一个不容忽视的产业级问题。
2026年3月,Kamiwaza AI发布了一项迄今为止规模最大的大模型幻觉研究。研究团队在35个开源模型上进行了超过1720亿Token的评估,覆盖了32K、128K和200K三种上下文长度,以及四种温度设置。
结论相当直接:即便是表现最好的模型,在32K上下文长度的文档问答场景中,捏造答案的比例也达到了1.19%。注意,这是“最好的”。在128K长度下,这个数字接近翻了三倍;当上下文达到200K时,所有被测试模型的幻觉率都超过了10%。
换句话说,你给AI丢一篇几万字的文档让它回答问题,它每回答十个问题,就至少有一个是在凭空编造。研究还发现,模型的“检索事实能力”和“拒绝捏造能力”是两件独立的事情。一个模型可能很擅长从长文档中找到正确答案,但同时也很擅长编出文档里根本没有的内容——这两个能力并不正相关。
三、从注意力角度理解幻觉:内部信息流的崩塌
问题来了:为什么一个在数万亿Token上训练出来的模型,会编出不存在的东西?
答案藏在Transformer架构最核心的组件里——注意力机制。它决定模型在生成每个词的时候,究竟把“注意力”放在哪里:是放在刚才读到的文档内容上,还是放在自己脑子里存储的知识上,抑或是某个早期出现的无关词上。
一篇2026年4月发表的论文提供了一个关键的观察视角。研究人员发现,幻觉的发生与注意力中的“信息汇点”现象深度纠缠。所谓“信息汇点”,指的是在生成过程中,模型开始将异常多的注意力权重集中到极少数几个Token上——通常是早期出现的特殊标记。
这意味着什么?在正常运转的情况下,模型的注意力分布是分散的、均匀的,能够同时关注输入文档、用户指令和已经生成的内容。但当“信息汇点”出现的时候,模型不再均衡地从各处吸收信息,而是把所有注意力压到了那几个“汇点”上。后续的生成变成了围绕这些汇点的自循环,而不是基于真实上下文的事实性推理。模型从“输入驱动的计算”转向了“先验主导的计算”——简单说,就是不再看你给的资料,转而依赖自己记忆里的统计模式来瞎猜。
这个转变一旦发生,幻觉就基本锁定了。
另一项研究从动态角度做了补充。研究人员通过给模型逐轮注入有瑕疵的上下文,追踪了注意力图和隐藏表示的变化轨迹。他们发现,在注入5到7轮上下文之后,表示漂移和注意力锁定会达到一个阈值,超过这个阈值之后,模型对错误的信念会变得异常稳固,难以通过后续的新信息来纠正。
这些发现指向一个共同的结论:幻觉不是偶发的“输出层错误”,而是模型内部信息流的结构性崩塌。
四、注意力机制到底错在哪里
如果你觉得上面的解释还有点抽象,可以从一个更具体的角度来理解。
Transformer的注意力机制中有一个关键组件——Softmax函数。它把一堆分数压成一个概率分布,总和为1。这本身不是什么问题。但问题的根源在于,Softmax会强制模型做选择:即使所有的备选项都不靠谱,它也必须从中选一个概率最高的输出。这个过程抹掉了关于不确定性的信息。
NeurIPS 2025上发表的一篇论文直指这个问题。研究者指出,Softmax诱导了“人为的确信”:它将原本可能是模糊的、有歧义的注意力分数强行归一化为单一的概率分布。在每一层,这种对不确定性的压制都在累积和放大,最终导致模型对捏造的内容产生过度自信的预测。
打个比方。正常人的认知是:我不确定这个问题的答案,所以我会说“不太清楚”。但大模型的架构设计,从最底层就不允许它说“不清楚”——它必须选一个Token输出。选不出来怎么办?那就硬编。
五、我们正在怎么做
好消息是,研究者并没有坐视不理。目前针对幻觉的解决方案大致可以分为三条路径。
第一条路径是在生成过程中做实时检测和干预。Binkowski等人提出的SinkProbe方法,就是通过监控注意力图中的“信息汇点”分数来判断模型是否即将产生幻觉。这种方法不需要额外的外部知识库,也不需要多次采样,只靠分析模型内部的注意力模式就能实现实时检测。这就像给AI装了一个“内部告警系统”,当信息流开始向少数汇点崩塌时,系统就可以在幻觉真正输出之前采取措施。
第二条路径是修改Transformer架构本身。Ji等人提出的Credal Transformer走的就是这条路。它用基于证据理论的Credal注意力机制替代了标准的Softmax注意力。核心思想是:不给模型一个确定的概率分布,而给它一个“分布集合”——集合越大,代表模型越不确定。在足够有把握的时候,它退化为标准注意力;在缺乏证据的时候,它表现为扩散分布,模型可以选择“拒绝回答”。这是从架构层面解决幻觉问题,而不是靠事后打补丁。
第三条路径是目前工业界最常用的——检索增强生成。RAG通过从外部知识库中检索相关信息,将模型的回答“锚定”在真实依据上。但RAG也有自己的问题:不加区分地全量检索会引入大量噪声和计算开销。SeaRAG提出了一种更聪明的策略:在生成过程中动态检测不确定性,只在识别到高风险时才触发检索,检索回来的文档再按“熵减”准则排序,筛选出最能降低不确定性的内容。吉林大学王英教授团队的研究显示,SeaRAG在TriviaQA基准上比全检索策略提升了11.12%,同时将检索频率从100%降到了45.2%。
六、对普通用户意味着什么
说了这么多技术层面的东西,对日常使用AI的普通人来说,这一切意味着什么?
第一,不要盲目信任模型输出的内容。尤其是在涉及事实性信息的场景——比如医学建议、法律咨询、历史事实、新闻报道——一定要交叉验证。AI写得越流畅、越自信,越值得你多留一个心眼。
第二,理解模型的“行为模式”有助于更好地使用它。知道幻觉常常发生在长上下文场景,就应该在输入超长文档时格外小心。知道温度参数会影响幻觉率,就可以在需要高准确率的场景中把温度调到0。知道模型的“搜索能力”和“拒编能力”是两回事,就不能指望一个擅长找答案的模型不会编答案。
第三,对AI技术的进步保持理性期待。幻觉不是bug,是Transformer架构的一个结构性特征。研究者正在从各个角度努力——从实时检测到架构重构,从检索增强到训练优化——但完全根除幻觉,短期内不太现实。
七、总结
大模型幻觉的本质,不是AI“撒谎”,而是它在架构层面被设计成了一个必须输出的“续写器”,而不是一个懂得说“不知道”的“知识引擎”。从注意力图中的信息汇点崩塌,到Softmax对不确定性的系统性抹除,再到表示漂移后的注意力锁定——这些技术细节共同构成了幻觉产生的底层机制。
理解这一点,不是为了让你对AI失去信心,而是为了让使用AI的时候更清醒、更有效。知道它会编答案,就知道怎么问问题——把事实核查的责任留在自己手里,让AI做它最擅长的事情。
夜雨聆风