李飞飞炸穿 AI 视觉假象:多模态的"海市蜃楼"正在欺骗所有人
5.2 万转发,1.9 万点赞,1.5 万收藏——这条讲述李飞飞最新研究成果的视频在视频号上炸开了锅。
核心只有一句话:你一直以为 AI "看"懂了世界,其实它只是在"假装看见"。
3 月 30 日,斯坦福大学李飞飞教授团队在 arXiv 上发表了一篇名为《海市蜃楼:视觉理解的幻觉》(Mirage: The Illusion of Visual Understanding)的论文。这篇由电气工程、心脏病学、生物医学数据科学、计算机科学及精神病学等多学科专家联合完成的研究,系统性地揭露了当前多模态 AI 模型的一个致命缺陷——它们在"看不见"图片的情况下,依然能自信满满地描述细节、给出诊断,甚至表现出不低于有图时的准确率。
这已经不是传统意义上的"AI 幻觉",而是一场精心伪装的"视觉骗局"。
什么是"海市蜃楼效应"?
与"幻觉"的本质区别
很多人已经了解过 AI 幻觉——模型在正确的认知框架内,填入了不真实的细节。比如你问它"这张心电图是什么病",它知道要看心电图,但给出了错误的诊断。
但"海市蜃楼效应"完全不同。
模型在完全没有接收到图像输入的情况下,构建了一个完全虚假的认知框架,表现得如同真的看到了图像,并基于该不存在的视觉信息进行推理和描述。全程不表达任何不确定性,也不向用户提示"我没有看到图片"。
换句话说:AI 不仅猜错了,它还假装自己看到了东西才猜的。
行为有多疯狂?
- •
平均超过 60% 的无图问题,模型会自信描述不存在的视觉细节
- •
如果加入引导提示(如"请基于图像证据回答"),该比率可飙升至 90%-100%
- •
在 6 个主流视觉基准测试中,模型无图状态下平均保留了有图时 70%-80% 的准确率
这意味着什么?意味着你测试出来的"90 分",有七成可能是模型靠文本先验和语言模式"蒙"出来的,而不是真正"看"出来的。

核心发现:数据背后的真相
发现一:纯文本小模型吊打千亿参数多模态模型
研究团队训练了一个仅 30 亿参数的纯文本模型(Qwen-2.5 微调"超级猜测器"),在胸部 X 光诊断基准测试中:
- •
得分超越所有百亿/千亿参数的前沿多模态模型
- •
比放射科医生平均水平高出 10 个百分点
而这个模型根本没有任何视觉能力,它只学会了从文字问题中猜测最可能的答案。
发现二:医学领域是重灾区
医学类基准对"非视觉推理"的易感性最高,无图准确率保留率达 60%-99%。更可怕的是,模型在无图时会高频输出极端/紧急诊断:
- •
心电图 → 高频误报 ST 段抬高型心肌梗死(STEMI)
- •
皮肤科 → 高频误报恶性黑色素瘤
- •
脑部 MRI → 高频误报急性缺血性卒中

发现三:模型存在"双响应机制"
研究者设计了对照实验:一组直接提问(海市蜃楼模式),一组明确告知"图像已移除,请猜测"(猜测模式)。
结果发现:直接提问的准确率显著高于猜测模式。
这说明模型在无图输入时,会激活一套更隐蔽的文本关联模式——它不是在"瞎猜",而是在用一种人类完全没预料到的方式"作弊"。
五大主流模型表现数据曝光
研究团队在多个基准测试中,对 GPT-5 系列、Gemini 3 Pro/2.5 Pro、Claude Opus 4.5/Sonnet 4.5 等前沿模型进行了系统测试。以下是清洗后的真实数据:
MicroVQA(显微图像识别)
| 模型 | 原始有图准确率 | 剔除文本线索后准确率 | 性能降幅 |
|---|---|---|---|
| GPT-5.1 | 61.5% | 15.4% | ↓ 46.1% |
| Gemini 3 Pro | 68.8% | 23.2% | ↓ 45.6% |
MedXpertQA-MM(医学专家诊断)
| 模型 | 原始有图准确率 | 剔除文本线索后准确率 | 性能降幅 |
|---|---|---|---|
| GPT-5.1 | 65.5% | 41.1% | ↓ 24.4% |
| Gemini 3 Pro | 77.8% | 52.3% | ↓ 25.5% |
MMMU-Pro(通用视觉理解)
| 模型 | 原始有图准确率 | 剔除文本线索后准确率 | 性能降幅 |
|---|---|---|---|
| GPT-5.1 | 76.0% | 67.1% | ↓ 8.9% |
| Gemini 3 Pro | 81.0% | 72.8% | ↓ 8.2% |
关键解读:
- •
显微图像和医学诊断类基准,性能降幅最大(24%-46%),说明这类任务的"水分"最多
- •
通用视觉理解(MMMU-Pro)降幅较小,但仍存在明显水分
- •
所有模型的海市蜃楼率均超过 60%,说明这不是个别模型的 bug,而是行业性现象
为什么这个发现如此重要?
1. 整个 AI 行业的"裸泳时刻"
过去两年,多模态 AI 被视为通向 AGI 的最快路径。GPT-5、Gemini、Claude 等模型在各项基准测试中不断刷新纪录,被宣传为"能看懂世界"的 AI。
李飞飞的研究像一记警钟:我们一直引以为傲的"视觉理解",很大程度上是建立在流沙之上的城堡。
2. 医疗 AI 的"静默失败"危机
这是最让研究者担忧的部分。在医疗场景中,如果图像因网络延迟、API 丢弃或智能体遗漏而未传入模型,系统不会报错,而是静默生成看似专业的诊断报告。
想象一下:患者做了 CT 检查,但图像数据在传输过程中丢失,AI 系统却没有提示"图像缺失",而是基于患者基本信息和病史,直接给出"急性心肌梗死"的诊断建议。
这不是科幻电影,这是当前多模态 AI 在医疗部署中的真实风险。
3. 基准测试体系需要彻底重构
当前多模态评测的最大问题:无法可靠区分"真正视觉理解"与"基于文本先验的聪明推断"。
论文提出了三项改革建议:
- •
将模态消融测试纳入评测标准流程(即对比有图 vs 无图的准确率差值)
- •
转向私有或动态更新基准,防止公开数据污染预训练过程
- •
引入性能差值(Delta)作为新指标,衡量模型对视觉模态的真实依赖程度
对开发者和企业的实操启示
1. 重新审视你的多模态应用
如果你正在使用 GPT-5、Gemini 等模型的多模态能力,请问自己三个问题:
- •
你的应用场景中,图像是否真的被传入了模型?
- •
如果图像丢失或延迟,模型会不会"静默出错"?
- •
你测试出来的准确率,有多少是真正的视觉理解?
2. 加入"模态消融"检查
在你的评测流程中,增加无图测试环节。定期运行对比实验:同一批数据,有图 vs 无图,计算准确率差值(Delta)。如果 Delta 很小,说明你的模型可能严重依赖文本线索。
3. 医疗/工业场景必须加图像完整性校验
在部署多模态 AI 到医疗、工业质检等关键场景时,必须在模型推理前加入图像完整性校验机制。如果图像未成功传入,系统应明确报错,而不是让模型"假装看见"。
4. 警惕公开基准的"水分"
benchmark 分数再高,也不代表真实能力。关注那些报告了"无图基线"和"性能差值"的研究,那才是模型的真实水平。
总结
李飞飞团队的研究不是要否定多模态 AI 的价值,而是要揭穿当前评估范式的结构性漏洞,推动整个行业走向更诚实、更科学的评估体系。
这场"海市蜃楼"的发现,让 AI 行业经历了一次"裸泳时刻"——原来我们一直引以为傲的视觉理解能力,有大量水分。但这不可怕,可怕的是我们一直以为那是真实的,而不去验证。
真正的视觉智能,不应该建立在流沙之上。
对于开发者来说,现在不是恐慌的时候,而是应该:
- 1.
重新审视自己的多模态应用架构
- 2.
加入模态消融测试和图像完整性校验
- 3.
关注更科学的评估指标
只有这样,我们才能把多模态 AI 从"海市蜃楼"拉回现实,让它真正服务于可信、可靠的应用场景。
如果你喜欢本文,请点赞、在看、转发支持!关注「乐哥玩 AI」,获取更多 AI 前沿资讯与实战教程。
夜雨聆风