为什么AI总在“编答案”?——大模型幻觉现象的注意力归因分析

用了这么久的ChatGPT、Claude或DeepSeek，你可能早就发现了一个问题：AI有时候特别擅长“胡说八道”，而且语气比谁都笃定。

它能把根本不存在的事情讲得头头是道，能给你虚构出好几篇不存在的论文和作者，甚至能在你指出错误之后继续硬撑。不是它故意骗你，而是在它的“认知”里，这些话和你问的那些事实问题，根本没有本质区别。

这种现象在学术界有一个正式的名字——大模型幻觉。它指的是模型生成流畅且语法正确的、但实际上不准确或无依据的内容。说得直白点：AI编答案，不是bug，而是一个内置的“副作用”。

一、什么是大模型幻觉

先讲清楚概念。

你在搜索引擎里搜“2025年诺贝尔物理学奖得主”，搜出来的结果要么有，要么没有。大模型不一样——它会根据训练数据中学到的统计规律，去“猜”一个答案。猜对了，你觉得它很聪明；猜错了，它就凭空造出了一个答案。

这种“猜”的过程，就是幻觉的来源。一篇2026年发布的综合性综述给出了更精确的定义：幻觉指的是大模型生成流畅且语法正确、但在事实上不准确或缺乏外部依据的内容。简单来说，输出听起来没问题，但内容是错的。

更麻烦的是，模型在编造这些内容的时候，往往表现出极高的置信度。一个幻觉率超过10%的模型，在大部分时候依然语气笃定、逻辑自洽。这正是幻觉最难缠的地方——它的错误被包裹在完美的语言外壳里，让你很难一眼识破。

二、幻觉有多普遍

如果说几年前这还是个“偶尔出现”的小毛病，那现在已经变成了一个不容忽视的产业级问题。

2026年3月，Kamiwaza AI发布了一项迄今为止规模最大的大模型幻觉研究。研究团队在35个开源模型上进行了超过1720亿Token的评估，覆盖了32K、128K和200K三种上下文长度，以及四种温度设置。

结论相当直接：即便是表现最好的模型，在32K上下文长度的文档问答场景中，捏造答案的比例也达到了1.19%。注意，这是“最好的”。在128K长度下，这个数字接近翻了三倍；当上下文达到200K时，所有被测试模型的幻觉率都超过了10%。

换句话说，你给AI丢一篇几万字的文档让它回答问题，它每回答十个问题，就至少有一个是在凭空编造。研究还发现，模型的“检索事实能力”和“拒绝捏造能力”是两件独立的事情。一个模型可能很擅长从长文档中找到正确答案，但同时也很擅长编出文档里根本没有的内容——这两个能力并不正相关。

三、从注意力角度理解幻觉：内部信息流的崩塌

问题来了：为什么一个在数万亿Token上训练出来的模型，会编出不存在的东西？

答案藏在Transformer架构最核心的组件里——注意力机制。它决定模型在生成每个词的时候，究竟把“注意力”放在哪里：是放在刚才读到的文档内容上，还是放在自己脑子里存储的知识上，抑或是某个早期出现的无关词上。

一篇2026年4月发表的论文提供了一个关键的观察视角。研究人员发现，幻觉的发生与注意力中的“信息汇点”现象深度纠缠。所谓“信息汇点”，指的是在生成过程中，模型开始将异常多的注意力权重集中到极少数几个Token上——通常是早期出现的特殊标记。

这意味着什么？在正常运转的情况下，模型的注意力分布是分散的、均匀的，能够同时关注输入文档、用户指令和已经生成的内容。但当“信息汇点”出现的时候，模型不再均衡地从各处吸收信息，而是把所有注意力压到了那几个“汇点”上。后续的生成变成了围绕这些汇点的自循环，而不是基于真实上下文的事实性推理。模型从“输入驱动的计算”转向了“先验主导的计算”——简单说，就是不再看你给的资料，转而依赖自己记忆里的统计模式来瞎猜。

这个转变一旦发生，幻觉就基本锁定了。

另一项研究从动态角度做了补充。研究人员通过给模型逐轮注入有瑕疵的上下文，追踪了注意力图和隐藏表示的变化轨迹。他们发现，在注入5到7轮上下文之后，表示漂移和注意力锁定会达到一个阈值，超过这个阈值之后，模型对错误的信念会变得异常稳固，难以通过后续的新信息来纠正。

这些发现指向一个共同的结论：幻觉不是偶发的“输出层错误”，而是模型内部信息流的结构性崩塌。

四、注意力机制到底错在哪里

如果你觉得上面的解释还有点抽象，可以从一个更具体的角度来理解。

Transformer的注意力机制中有一个关键组件——Softmax函数。它把一堆分数压成一个概率分布，总和为1。这本身不是什么问题。但问题的根源在于，Softmax会强制模型做选择：即使所有的备选项都不靠谱，它也必须从中选一个概率最高的输出。这个过程抹掉了关于不确定性的信息。

NeurIPS 2025上发表的一篇论文直指这个问题。研究者指出，Softmax诱导了“人为的确信”：它将原本可能是模糊的、有歧义的注意力分数强行归一化为单一的概率分布。在每一层，这种对不确定性的压制都在累积和放大，最终导致模型对捏造的内容产生过度自信的预测。

打个比方。正常人的认知是：我不确定这个问题的答案，所以我会说“不太清楚”。但大模型的架构设计，从最底层就不允许它说“不清楚”——它必须选一个Token输出。选不出来怎么办？那就硬编。

五、我们正在怎么做

好消息是，研究者并没有坐视不理。目前针对幻觉的解决方案大致可以分为三条路径。

第一条路径是在生成过程中做实时检测和干预。Binkowski等人提出的SinkProbe方法，就是通过监控注意力图中的“信息汇点”分数来判断模型是否即将产生幻觉。这种方法不需要额外的外部知识库，也不需要多次采样，只靠分析模型内部的注意力模式就能实现实时检测。这就像给AI装了一个“内部告警系统”，当信息流开始向少数汇点崩塌时，系统就可以在幻觉真正输出之前采取措施。

第二条路径是修改Transformer架构本身。Ji等人提出的Credal Transformer走的就是这条路。它用基于证据理论的Credal注意力机制替代了标准的Softmax注意力。核心思想是：不给模型一个确定的概率分布，而给它一个“分布集合”——集合越大，代表模型越不确定。在足够有把握的时候，它退化为标准注意力；在缺乏证据的时候，它表现为扩散分布，模型可以选择“拒绝回答”。这是从架构层面解决幻觉问题，而不是靠事后打补丁。

第三条路径是目前工业界最常用的——检索增强生成。RAG通过从外部知识库中检索相关信息，将模型的回答“锚定”在真实依据上。但RAG也有自己的问题：不加区分地全量检索会引入大量噪声和计算开销。SeaRAG提出了一种更聪明的策略：在生成过程中动态检测不确定性，只在识别到高风险时才触发检索，检索回来的文档再按“熵减”准则排序，筛选出最能降低不确定性的内容。吉林大学王英教授团队的研究显示，SeaRAG在TriviaQA基准上比全检索策略提升了11.12%，同时将检索频率从100%降到了45.2%。

六、对普通用户意味着什么

说了这么多技术层面的东西，对日常使用AI的普通人来说，这一切意味着什么？

第一，不要盲目信任模型输出的内容。尤其是在涉及事实性信息的场景——比如医学建议、法律咨询、历史事实、新闻报道——一定要交叉验证。AI写得越流畅、越自信，越值得你多留一个心眼。

第二，理解模型的“行为模式”有助于更好地使用它。知道幻觉常常发生在长上下文场景，就应该在输入超长文档时格外小心。知道温度参数会影响幻觉率，就可以在需要高准确率的场景中把温度调到0。知道模型的“搜索能力”和“拒编能力”是两回事，就不能指望一个擅长找答案的模型不会编答案。

第三，对AI技术的进步保持理性期待。幻觉不是bug，是Transformer架构的一个结构性特征。研究者正在从各个角度努力——从实时检测到架构重构，从检索增强到训练优化——但完全根除幻觉，短期内不太现实。

七、总结

大模型幻觉的本质，不是AI“撒谎”，而是它在架构层面被设计成了一个必须输出的“续写器”，而不是一个懂得说“不知道”的“知识引擎”。从注意力图中的信息汇点崩塌，到Softmax对不确定性的系统性抹除，再到表示漂移后的注意力锁定——这些技术细节共同构成了幻觉产生的底层机制。

理解这一点，不是为了让你对AI失去信心，而是为了让使用AI的时候更清醒、更有效。知道它会编答案，就知道怎么问问题——把事实核查的责任留在自己手里，让AI做它最擅长的事情。

往期精彩

代号「土豆」：GPT-6官宣前夕，关于AGI最后一公里的所有真相

AI大语言模型底层原理：从Transformer到2026前沿演进

Token、Prompt、Skill、MCP、Agent、Harness：AI应用架构的六层演进

啃透51万行源码：Claude Code的Agent架构与工程哲学

中国大模型的2026：从技术突围到商业闭环

AI Agent 的“操作系统”：Harness 架构全解

开源Agent OS：OpenClaw架构设计的系统化拆解与工程解析

2026年AI Agent企业级部署：技术架构、工程挑战与规模化路径