嘴替春秋 | AI幻觉发作,瞎子在眼科考试中拿了第一

大家好，欢迎来到智能春秋。

你有没有过这种经历？

问AI一个问题，它答得特别自信、特别流畅，你差点就信了。结果多留个心眼去查——好家伙，全是编的。

行业管这叫"AI幻觉"。

但你仔细想想，"幻觉"是你看见了不存在的东西。比如发高烧的时候看见了去世多年的太奶，那叫幻觉——前提是你有眼睛，并且在“看”。可AI有眼睛吗？

一个瞎子，眼科考试拿了第一

2026年3月，李飞飞团队做了个特别的实验。

他们找了17个主流大模型——GPT、Gemini、Claude这些顶流——然后把图片全撤了，换成纯黑屏。然后只保留文字提问，让AI照常完成看图答题任务。

正常人看不见图，正确率应该趋近于零吧？

然而这些模型却回答得头头是道。胸片有什么病灶、照片什么纹理、图表什么走势——全编出来了，对，是“编”，而且语气笃定，逻辑严丝合缝，演技拉满。

你说这是"看走了眼"吗？看走了眼好歹是"看了但看错了"，这连看都没看啊。

AI可算是把职场老油条的套路学透了，永远不说不知道，先甩结论，语气要硬，细节要足，哪怕全是编的。

李飞飞团队给这个现象起了个名字：海市蜃楼。

非常精辟——海市蜃楼不是你看错了楼，是根本就没有楼。

这不是看错，是胡说

哲学家Harry Frankfurt有个经典区分：

撒谎者知道真相，故意说假话。外面暴雨，他说"大晴天"——他在骗你。

胡说八道者对真相漠不关心，根本没往窗外看，直接说"阳光明媚，适合出行"——不是因为看到了阳光，是因为这句话放在这里最顺嘴。

AI就是后者。

它不在乎对不对，它在乎的是"说出来的话像不像人话"。它被训练成了一个特别怕交白卷的应试高手——评估体系就是"要么对要么错，空着也扣分"，那它当然选择蒙一个。哪怕只有51%的把握，猜一个也比承认不知道得分高。

它每道题都蒙，而且蒙得特别自信。

AI“幻觉”的本质是大语言模型在“扮演上帝”时，一种不可避免的、结构性的“善意谎言”——本质是“没有理解，却必须作答”的概率游戏。

拆解来看，有四个层次：

1. 统计层：它必须说点什么

大模型本质上是一个超级复杂的“概率预测器”。它不知道"北京是中国的首都"是事实，只知道在训练数据中，"北京"后面接"是中国的首都"概率极高。

遇到训练数据里没有明确答案的问题时，它不能留白，必须选一个"最合理"的续写。这个"合理"是统计流畅度，不是事实正确度。

对着黑屏描述胸片，不是它"选择"编造，是它的机制不允许它说"我看不见"。

2. 认知层：它不知道“不知道”

人类说“不知道”，是因为我们能感知到认知边界。AI没有这种元认知。

模型内部，"1+1=2"和"某篇论文的细节"以同样的权重存储，没有"确信度"标签。它无法区分"知道"与"不知道"，所以对所有问题给出同样自信的输出。

更根本的是：它没有世界模型。所有"知识"都是文字符号的统计关系。当要求它"根据图片分析"，它只能从文字任务描述中反向构建一个语义自洽的答案——哪怕图片是黑屏。

3. 数据层：训练语料教它"必须答"

幻觉不是bug，而是训练数据固有矛盾的外显。互联网上，知识性陈述远多于"我不知道"这样的否定陈述。模型学会了"回答问题"，没学会"承认无知"。

多模态数据更是加剧了这个问题。如果训练数据中90%的"胸部X光"文本伴随"肺部阴影"，模型就会把两者硬绑定。看到"X光"这个词，就输出"阴影"——这不是推理，是条件反射。

4. 对齐层：它被训练成"看起来有用"

模型的目标是模仿人类回答。而人类在“看图回答”时，几乎从不回答“我看不见”。人类会自信地描述细节。因此，AI把“编造细节”当成了最成功的模仿策略。

讽刺的是：李飞飞团队实验中，如果直接告诉AI“你看不见，只能猜”，它的表现反而变差。这说明，模型不是做不到实事求是，而是它认为“假装看见”比“诚实承认”更像一个合格的回答者。幻觉，是“对齐”过度追求“有用性”而牺牲“真实性”的产物。

总结：

AI幻觉的本质 = 统计强制输出 × 元认知缺失 × 数据偏见 × 模仿人类的过度对齐

你每天都在用，每天都在赌

查政策——它给你一段引经据典的回答，你复制粘贴进了邮件。你怎么知道这次是真的查到了，还是编的？

整理会议纪要——它写得条理清晰，但里面有个行动项是它自己"补"的：不是会上说的，是它觉得"这种会一般会有这个结论"，顺手加上了。逻辑完全说得通，你根本看不出来。

辅导孩子作业——步骤清晰，答案正确，但中间有一步推理是错的，只是恰好不影响结果。孩子按这个思路学，下道题就傻眼。

问健康——胸口闷可能是什么原因？它列五种，从胃食管反流到心肌梗死，语气专业，条理清楚。但李飞飞的实验已经证明：AI在"虚假观看"医疗影像时，严重偏向最致命的病症。它把心肌梗死排第一，可能不是真判断你有问题，而是"胸闷+心梗"在训练数据里出现频率最高。

它不是在诊断，它是在做文字接龙——只是接得特别像诊断。

我们现在习惯遇事问AI、做事靠AI，写文案、查规则、算数据、拟文件，统统都去问AI，让它一键生成，渐渐放弃了独立核实、交叉验证、官方查证的能力。你每天都在用，实则是每天都在赌。

普通人该怎么办？

不是" 0.5yes 0.5no "（英译中：半信半疑）这种正确但没用的话。面对一个"有时候真看了、有时候没看也装看了、自己还分不清"的对手，你得换打法：

给AI一个"可以不确定"的信号

别问"答案是什么"，问"你有把握吗？哪些部分不确定？"

前者逼它编，后者允许它说"我不知道"。

把它关在图书馆里

不要开放提问。把材料喂给它，要求"只基于以上内容回答，不要补充"。减少它从训练记忆里编造的空间。

高风险场景必须有人把关

健康、法律、财务——AI的输出不能直接当结论。错的时候你看不出来，这道闸必须是人。

它越自信，你越要警惕

AI说"根据研究""数据显示"的时候，你的警觉应该拉满。因为胡说八道最擅长的，就是用自信掩盖无知。

说到底，是我们惯的

AI为什么敢这么编？

因为它知道你不会去查。

它给你一段政策原文，你复制粘贴；它列五种病因，你点头收藏；它写会议纪要，你直接转发。

它胡说八道的底气，是你给的。

1995年，科学家第一次把"幻觉"引入AI领域时，是在赞美——把神经网络的意外输出比作"机器的创造性时刻"。那时候"幻觉"是个浪漫的词。

三十年后，这个词变成了行业最大的焦虑。但焦虑的方向一直偏了——我们一直在给AI配眼镜，没想过它是闭着眼睛答题的，更没想过是我们让它闭着眼也要答。

AI不是偶尔看走了眼。

它有时候看了，有时候没看也装作看了，而它自己分不清。

面对这样的人，配多少副眼镜都没用。有用的是——

one、two、three，go！（英译中：三思而后行）别让他一个人说了算。

更别让自己懒得去查证。

工具永远无罪，盲从才是最大的坑。不把AI当标准答案，才是当代人使用AI的最高自律。