AI会幻觉、会失忆、会善变——不是它不稳定,是你还不了解它-夜雨聆风

AI会幻觉、会失忆、会善变——不是它不稳定,是你还不了解它

AI 会幻觉、会失忆、会善变不是它不稳定，是你还不了解它

AI 写的报告里引用了根本不存在的文献。聊了二十几轮之后它开始忘记你设的条件。同一个问题，今天一个答案，明天另一个。你可能觉得 AI 不稳定——其实这些现象背后，有清晰的逻辑。

😤 三个让人头疼的「毛病」

用过 AI 的人，大概率遇到过这三个问题

🌀

幻觉

AI写的报告里引用了根本不存在的文献，语气还很肯定

💭

失忆

聊了二十几轮之后，它开始忘记你开头设定的条件

🎲

善变

同一个需求，今天一个答案，明天另一个

真相：这三个「毛病」，背后其实是同一件事。

🔮 一、AI 不是在「想」，而是在「预测」

先打破一个直觉：AI 不像你一样在思考，它每次只做一件事——预测下一个最可能的词。

LLM 的工作方式：逐 Token 预测

你的输入这周工作太多了，感觉有点累

AI 预测第1个词听（概率最高）

基于「听」预测下一个听起来（继续预测…）

逐词生成完整回复听起来确实挺辛苦的，好好休息一下。

每个词都是从概率分布里选出来的——AI 不是在「思考」，而是在「预测语言」

一个你更熟悉的类比：你收到微信「下班了，今天好」——你大概率会接上「累啊」「开心」「不容易」之类的词。你不是在推理，你在用语言直觉补全。LLM 做的是同样的事，只是规模是全人类语言的总量。

更准确地说，LLM 更像超级语言预测器，而非思考机器。它判断「这段文字在语言上合不合理」，而不是「这件事是否真实」。记住这句话。它是理解后面一切的钥匙。

🌀 二、幻觉：为什么 AI 会「一本正经地胡说八道」？

AI 写的报告里引用了根本不存在的文献。作者名、期刊名、年份，一应俱全。你一查——根本没有这篇论文。

为什么？因为 LLM 判断的是语言是否合理，而不是事实是否正确。

幻觉的三个关键认知

① 语言合理 ≠ 事实正确

AI 生成的是「语言上合理的文字」，不是「经过验证的事实」。「某某教授 + 某某期刊 + 某年发表」——这个格式太常见了，AI 能组合出看起来很专业的引用，但无法判断它是否真实存在。

② 语气一样肯定，不管真假

即使内容是编造的，AI 输出时的语气也和说真话时一样肯定。这就是为什么幻觉很难被察觉——它看起来和正确答案一模一样。

③ 这不是 bug，是架构特性

幻觉是 LLM 架构带来的副产品——它能做的是语言预测，不是事实查询。这是根本性的设计差异，不是通过修 bug 能解决的。

💡 实用提示

在 Prompt 里加一句：「只基于以下材料回答，材料中没有请直接说不知道」相当于手动加了一个最简单的「事实核查」限制。

💭 三、失忆：AI 的「工作记忆」有容量上限

你在一次对话里说的内容，AI 不是永久记住的。它每次生成回复，只能「看到」一定数量的 token。这个上限，就是上下文窗口。

上下文窗口：AI 的「工作记忆」

上下文窗口（128K token ≈ 一本小说）

系统指令

对话历史（越来越多…）

⚠️ 开头条件已滚出！

AI 每次只能「看到」窗口内的内容——窗口外的内容它真的看不见了

关键指令靠后放

越靠近生成时刻，AI 越能「看到」——把重要约束放在每次提问末尾

复杂任务分对话

分阶段开新对话，每次只在有效上下文里工作，避免信息滚出

跑偏先查窗口

AI 开始忘条件，可能不是变蠢了，是工作记忆满了——开新对话重新说一遍

🎲 四、善变：那个看不见的「创意旋钮」

同一个问题，今天的回答和明天的不一样。背后是Temperature在起作用。

AI 给每个候选词算出一个分数，Temperature 在选词前介入，调整这些分数的差距：低 Temperature 让差距更大（倾向选最高分），高 Temperature 让差距缩小（随机性更高）。

Temperature：那个看不见的「创意旋钮」

🎯

低 Temperature

数据分析、信息提取

代码生成、格式化报告

客服回复、标准输出

结果稳定，每次基本一样

🎨

高 Temperature

文案创意、活动方案

头脑风暴、起标题

需要多样化输出的场景

结果多样，每次不同，有时出奇制胜

Prompt：「用一句话形容人工智能」

低温

「人工智能是一项改变人类生活方式的技术」（每次基本一样）

高温

「一面会说话的镜子，映出人类最聪明也最荒诞的想象」（每次结果不同）

📋 五、一个完整的案例：三个问题，三个解法

真实案例：Lily 的三个问题和三个解法

产品运营，用 AI 写用户调研分析

🌀问题：幻觉

AI 在分析里加了几个「行业通用数据」，查了一下根本找不到出处。

→ 解法

Prompt 里加了「只基于以下材料做分析，如果材料里没有请直接说不知道」——把来源限死，让它无法凭语言惯性编数据。

💭问题：失忆

对话后期 AI 开始忘记她一开始说的「只分析华南用户」这个限制条件。

→ 解法

把长任务拆开：先开一个对话确认分析框架，拿到框架后开新对话写具体内容，不让单个对话无限延伸。

🎲问题：善变

要求写有创意的活动方案，但每次输出都大同小异，缺乏新鲜感。

→ 解法

Prompt 里加了「给我3个风格完全不同的方案，不要输出最常规的选项」——明确要求多样性。

这三个调整都不是「多学几个技巧」，而是基于对 LLM 工作方式的理解做出的——知道症状背后是什么机制，解法自然就清楚了。

⚡ 六、速查卡：AI 的三大「毛病」及对策

⚡ 速查卡：三大「毛病」及对策

🌀

幻觉语言合理 ≠ 事实正确

告诉 AI 它能用哪些信息

「基于以下材料…，材料中没有请直接说不知道」

💭

失忆上下文窗口有容量上限

关键指令不要只说一次

每次提问末尾重复关键约束；长任务分对话

🎲

善变Temperature 带来随机性

创意任务多跑几次，选最好的

同样的 Prompt 跑3次，从不同方向挑最好的那个

✍️ 写在最后

理解一切 AI 行为的底层框架

AI 始终在做逐词预测

没有「理解」，没有「记忆」，只有概率

🌀

幻觉

语言预测，不判断事实真假

💭

失忆

上下文窗口装不下无限历史

🎲

善变

Temperature 旋钮调节随机性

下次 AI 再「胡说八道」的时候，你不会觉得它「不稳定」——你会知道，它只是在用它的唯一技能（语言预测），做了一件它本不该做的事（事实陈述）。

– END –

本文旨在帮助读者理解大语言模型的工作原理，不同 AI 产品表现可能有所差异