乐于分享
好东西不私藏

AI会幻觉、会失忆、会善变——不是它不稳定,是你还不了解它

AI会幻觉、会失忆、会善变——不是它不稳定,是你还不了解它

AI 会幻觉、会失忆、会善变不是它不稳定,是你还不了解它

AI 写的报告里引用了根本不存在的文献。聊了二十几轮之后它开始忘记你设的条件。同一个问题,今天一个答案,明天另一个。你可能觉得 AI 不稳定——其实这些现象背后,有清晰的逻辑。


😤 三个让人头疼的「毛病」

用过 AI 的人,大概率遇到过这三个问题

🌀

幻觉

AI写的报告里引用了根本不存在的文献,语气还很肯定

💭

失忆

聊了二十几轮之后,它开始忘记你开头设定的条件

🎲

善变

同一个需求,今天一个答案,明天另一个

真相:这三个「毛病」,背后其实是同一件事


🔮 一、AI 不是在「想」,而是在「预测」

先打破一个直觉:AI 不像你一样在思考,它每次只做一件事——预测下一个最可能的词

LLM 的工作方式:逐 Token 预测

你的输入这周工作太多了,感觉有点累
AI 预测第1个词听(概率最高)
基于「听」预测下一个听起来(继续预测…)
逐词生成完整回复听起来确实挺辛苦的,好好休息一下。

每个词都是从概率分布里选出来的——AI 不是在「思考」,而是在「预测语言」

一个你更熟悉的类比:你收到微信「下班了,今天好」——你大概率会接上「累啊」「开心」「不容易」之类的词。你不是在推理,你在用语言直觉补全LLM 做的是同样的事,只是规模是全人类语言的总量。
更准确地说,LLM 更像超级语言预测器,而非思考机器。它判断「这段文字在语言上合不合理」,而不是「这件事是否真实」。记住这句话。它是理解后面一切的钥匙。

🌀 二、幻觉:为什么 AI 会「一本正经地胡说八道」?

AI 写的报告里引用了根本不存在的文献。作者名、期刊名、年份,一应俱全。你一查——根本没有这篇论文。

为什么?因为 LLM 判断的是语言是否合理,而不是事实是否正确。

幻觉的三个关键认知

① 语言合理 ≠ 事实正确

AI 生成的是「语言上合理的文字」,不是「经过验证的事实」。「某某教授 + 某某期刊 + 某年发表」——这个格式太常见了,AI 能组合出看起来很专业的引用,但无法判断它是否真实存在

② 语气一样肯定,不管真假

即使内容是编造的,AI 输出时的语气也和说真话时一样肯定。这就是为什么幻觉很难被察觉——它看起来和正确答案一模一样。

③ 这不是 bug,是架构特性

幻觉是 LLM 架构带来的副产品——它能做的是语言预测,不是事实查询。这是根本性的设计差异,不是通过修 bug 能解决的。

💡 实用提示

在 Prompt 里加一句:「只基于以下材料回答,材料中没有请直接说不知道」相当于手动加了一个最简单的「事实核查」限制。


💭 三、失忆:AI 的「工作记忆」有容量上限

你在一次对话里说的内容,AI 不是永久记住的。它每次生成回复,只能「看到」一定数量的 token。这个上限,就是上下文窗口

上下文窗口:AI 的「工作记忆」

上下文窗口(128K token ≈ 一本小说)

系统指令

对话历史(越来越多…)

⚠️ 开头条件已滚出!

AI 每次只能「看到」窗口内的内容——窗口外的内容它真的看不见了

关键指令靠后放

越靠近生成时刻,AI 越能「看到」——把重要约束放在每次提问末尾

复杂任务分对话

分阶段开新对话,每次只在有效上下文里工作,避免信息滚出

跑偏先查窗口

AI 开始忘条件,可能不是变蠢了,是工作记忆满了——开新对话重新说一遍


🎲 四、善变:那个看不见的「创意旋钮」

同一个问题,今天的回答和明天的不一样。背后是Temperature在起作用。

AI 给每个候选词算出一个分数,Temperature 在选词前介入,调整这些分数的差距:低 Temperature 让差距更大(倾向选最高分),高 Temperature 让差距缩小(随机性更高)。

Temperature:那个看不见的「创意旋钮」

🎯

低 Temperature

数据分析、信息提取

代码生成、格式化报告

客服回复、标准输出

结果稳定,每次基本一样

🎨

高 Temperature

文案创意、活动方案

头脑风暴、起标题

需要多样化输出的场景

结果多样,每次不同,有时出奇制胜

Prompt:「用一句话形容人工智能」

低温

「人工智能是一项改变人类生活方式的技术」(每次基本一样)

高温

「一面会说话的镜子,映出人类最聪明也最荒诞的想象」(每次结果不同)


📋 五、一个完整的案例:三个问题,三个解法

真实案例:Lily 的三个问题和三个解法

产品运营,用 AI 写用户调研分析

🌀问题:幻觉

AI 在分析里加了几个「行业通用数据」,查了一下根本找不到出处。

→ 解法

Prompt 里加了「只基于以下材料做分析,如果材料里没有请直接说不知道」——把来源限死,让它无法凭语言惯性编数据。

💭问题:失忆

对话后期 AI 开始忘记她一开始说的「只分析华南用户」这个限制条件。

→ 解法

把长任务拆开:先开一个对话确认分析框架,拿到框架后开新对话写具体内容,不让单个对话无限延伸。

🎲问题:善变

要求写有创意的活动方案,但每次输出都大同小异,缺乏新鲜感。

→ 解法

Prompt 里加了「给我3个风格完全不同的方案,不要输出最常规的选项」——明确要求多样性。

这三个调整都不是「多学几个技巧」,而是基于对 LLM 工作方式的理解做出的——知道症状背后是什么机制,解法自然就清楚了。


⚡ 六、速查卡:AI 的三大「毛病」及对策

⚡ 速查卡:三大「毛病」及对策

🌀

幻觉语言合理 ≠ 事实正确

告诉 AI 它能用哪些信息

「基于以下材料…,材料中没有请直接说不知道」

💭

失忆上下文窗口有容量上限

关键指令不要只说一次

每次提问末尾重复关键约束;长任务分对话

🎲

善变Temperature 带来随机性

创意任务多跑几次,选最好的

同样的 Prompt 跑3次,从不同方向挑最好的那个


✍️ 写在最后

理解一切 AI 行为的底层框架

AI 始终在做逐词预测

没有「理解」,没有「记忆」,只有概率

🌀

幻觉

语言预测,不判断事实真假

💭

失忆

上下文窗口装不下无限历史

🎲

善变

Temperature 旋钮调节随机性

下次 AI 再「胡说八道」的时候,你不会觉得它「不稳定」——你会知道,它只是在用它的唯一技能(语言预测),做了一件它本不该做的事(事实陈述)。

– END –

本文旨在帮助读者理解大语言模型的工作原理,不同 AI 产品表现可能有所差异