AI 假装看懂了图:它有欺骗到你吗?

李飞飞炸穿 AI 视觉假象：多模态的"海市蜃楼"正在欺骗所有人

5.2 万转发，1.9 万点赞，1.5 万收藏——这条讲述李飞飞最新研究成果的视频在视频号上炸开了锅。

核心只有一句话：你一直以为 AI "看"懂了世界，其实它只是在"假装看见"。

3 月 30 日，斯坦福大学李飞飞教授团队在 arXiv 上发表了一篇名为《海市蜃楼：视觉理解的幻觉》（Mirage: The Illusion of Visual Understanding）的论文。这篇由电气工程、心脏病学、生物医学数据科学、计算机科学及精神病学等多学科专家联合完成的研究，系统性地揭露了当前多模态 AI 模型的一个致命缺陷——它们在"看不见"图片的情况下，依然能自信满满地描述细节、给出诊断，甚至表现出不低于有图时的准确率。

这已经不是传统意义上的"AI 幻觉"，而是一场精心伪装的"视觉骗局"。

什么是"海市蜃楼效应"？

与"幻觉"的本质区别

很多人已经了解过 AI 幻觉——模型在正确的认知框架内，填入了不真实的细节。比如你问它"这张心电图是什么病"，它知道要看心电图，但给出了错误的诊断。

但"海市蜃楼效应"完全不同。

模型在完全没有接收到图像输入的情况下，构建了一个完全虚假的认知框架，表现得如同真的看到了图像，并基于该不存在的视觉信息进行推理和描述。全程不表达任何不确定性，也不向用户提示"我没有看到图片"。

换句话说：AI 不仅猜错了，它还假装自己看到了东西才猜的。

行为有多疯狂？

•
平均超过 60% 的无图问题，模型会自信描述不存在的视觉细节
•
如果加入引导提示（如"请基于图像证据回答"），该比率可飙升至 90%-100%
•
在 6 个主流视觉基准测试中，模型无图状态下平均保留了有图时 70%-80% 的准确率

这意味着什么？意味着你测试出来的"90 分"，有七成可能是模型靠文本先验和语言模式"蒙"出来的，而不是真正"看"出来的。

核心发现：数据背后的真相

发现一：纯文本小模型吊打千亿参数多模态模型

研究团队训练了一个仅 30 亿参数的纯文本模型（Qwen-2.5 微调"超级猜测器"），在胸部 X 光诊断基准测试中：

•
得分超越所有百亿/千亿参数的前沿多模态模型
•
比放射科医生平均水平高出 10 个百分点

而这个模型根本没有任何视觉能力，它只学会了从文字问题中猜测最可能的答案。

发现二：医学领域是重灾区

医学类基准对"非视觉推理"的易感性最高，无图准确率保留率达 60%-99%。更可怕的是，模型在无图时会高频输出极端/紧急诊断：

•
心电图 → 高频误报 ST 段抬高型心肌梗死（STEMI）
•
皮肤科 → 高频误报恶性黑色素瘤
•
脑部 MRI → 高频误报急性缺血性卒中

发现三：模型存在"双响应机制"

研究者设计了对照实验：一组直接提问（海市蜃楼模式），一组明确告知"图像已移除，请猜测"（猜测模式）。

结果发现：直接提问的准确率显著高于猜测模式。

这说明模型在无图输入时，会激活一套更隐蔽的文本关联模式——它不是在"瞎猜"，而是在用一种人类完全没预料到的方式"作弊"。

五大主流模型表现数据曝光

研究团队在多个基准测试中，对 GPT-5 系列、Gemini 3 Pro/2.5 Pro、Claude Opus 4.5/Sonnet 4.5 等前沿模型进行了系统测试。以下是清洗后的真实数据：

MicroVQA（显微图像识别）

模型	原始有图准确率	剔除文本线索后准确率	性能降幅
GPT-5.1	61.5%	15.4%	↓ 46.1%
Gemini 3 Pro	68.8%	23.2%	↓ 45.6%

MedXpertQA-MM（医学专家诊断）

模型	原始有图准确率	剔除文本线索后准确率	性能降幅
GPT-5.1	65.5%	41.1%	↓ 24.4%
Gemini 3 Pro	77.8%	52.3%	↓ 25.5%

MMMU-Pro（通用视觉理解）

模型	原始有图准确率	剔除文本线索后准确率	性能降幅
GPT-5.1	76.0%	67.1%	↓ 8.9%
Gemini 3 Pro	81.0%	72.8%	↓ 8.2%

关键解读：

•
显微图像和医学诊断类基准，性能降幅最大（24%-46%），说明这类任务的"水分"最多
•
通用视觉理解（MMMU-Pro）降幅较小，但仍存在明显水分
•
所有模型的海市蜃楼率均超过 60%，说明这不是个别模型的 bug，而是行业性现象

为什么这个发现如此重要？

1. 整个 AI 行业的"裸泳时刻"

过去两年，多模态 AI 被视为通向 AGI 的最快路径。GPT-5、Gemini、Claude 等模型在各项基准测试中不断刷新纪录，被宣传为"能看懂世界"的 AI。

李飞飞的研究像一记警钟：我们一直引以为傲的"视觉理解"，很大程度上是建立在流沙之上的城堡。

2. 医疗 AI 的"静默失败"危机

这是最让研究者担忧的部分。在医疗场景中，如果图像因网络延迟、API 丢弃或智能体遗漏而未传入模型，系统不会报错，而是静默生成看似专业的诊断报告。

想象一下：患者做了 CT 检查，但图像数据在传输过程中丢失，AI 系统却没有提示"图像缺失"，而是基于患者基本信息和病史，直接给出"急性心肌梗死"的诊断建议。

这不是科幻电影，这是当前多模态 AI 在医疗部署中的真实风险。

3. 基准测试体系需要彻底重构

当前多模态评测的最大问题：无法可靠区分"真正视觉理解"与"基于文本先验的聪明推断"。

论文提出了三项改革建议：

•
将模态消融测试纳入评测标准流程（即对比有图 vs 无图的准确率差值）
•
转向私有或动态更新基准，防止公开数据污染预训练过程
•
引入性能差值（Delta）作为新指标，衡量模型对视觉模态的真实依赖程度

对开发者和企业的实操启示

1. 重新审视你的多模态应用

如果你正在使用 GPT-5、Gemini 等模型的多模态能力，请问自己三个问题：

•
你的应用场景中，图像是否真的被传入了模型？
•
如果图像丢失或延迟，模型会不会"静默出错"？
•
你测试出来的准确率，有多少是真正的视觉理解？

2. 加入"模态消融"检查

在你的评测流程中，增加无图测试环节。定期运行对比实验：同一批数据，有图 vs 无图，计算准确率差值（Delta）。如果 Delta 很小，说明你的模型可能严重依赖文本线索。

3. 医疗/工业场景必须加图像完整性校验

在部署多模态 AI 到医疗、工业质检等关键场景时，必须在模型推理前加入图像完整性校验机制。如果图像未成功传入，系统应明确报错，而不是让模型"假装看见"。

4. 警惕公开基准的"水分"

benchmark 分数再高，也不代表真实能力。关注那些报告了"无图基线"和"性能差值"的研究，那才是模型的真实水平。

总结

李飞飞团队的研究不是要否定多模态 AI 的价值，而是要揭穿当前评估范式的结构性漏洞，推动整个行业走向更诚实、更科学的评估体系。

这场"海市蜃楼"的发现，让 AI 行业经历了一次"裸泳时刻"——原来我们一直引以为傲的视觉理解能力，有大量水分。但这不可怕，可怕的是我们一直以为那是真实的，而不去验证。

真正的视觉智能，不应该建立在流沙之上。

对于开发者来说，现在不是恐慌的时候，而是应该：

1.
重新审视自己的多模态应用架构
2.
加入模态消融测试和图像完整性校验
3.
关注更科学的评估指标

只有这样，我们才能把多模态 AI 从"海市蜃楼"拉回现实，让它真正服务于可信、可靠的应用场景。

如果你喜欢本文，请点赞、在看、转发支持！关注「乐哥玩 AI」，获取更多 AI 前沿资讯与实战教程。