＂AI医疗诊断80%错误＂的说法从哪来的?JAMA原文和媒体报道的差异

内容概要

1. 财联社报道"AI 80%诊断错误"引发关注，但原始论文的数据与此存在出入

2. JAMA Network Open研究揭示了AI诊断能力的真实面貌：差异化诊断（信息不完整时）失败率超80%，提供信息完整则最终诊断准确率超90%

3. 这是临床推理中"推理"与"匹配"的根本差异，真实的医疗推理和基于完整信息做判断是不同的。

4. 21个模型的PrIME-LLM评分排名，以及推理优化模型带来的提升空间

5. 当前AI医疗的正确：在信息收集阶段仍需要医生介入，在决策阶段可多依赖AI

上周，财联社一条消息在社交媒体上广泛传播："哈佛最新研究显示，AI做出的初步诊断80%都是错的。"紧接着又补了一句："当提供更多信息后，失败率降至40%。"这两句话看起来很有冲击力，但经过核实，数据的表述存在问题。真正的研究结论，比这两句话复杂得多，也值得关注得多。

这项研究由Mass General Brigham旗下MESH Incubator团队完成，2026年4月13日发表在JAMA Network Open上。Mass General Brigham是哈佛医学院的附属医院体系，第一作者是哈佛医学院MD-PhD学生Arya S. Rao，通讯作者是MESH Incubator执行主任Marc D. Succi。研究团队测试了21个前沿大语言模型，包括GPT-5、Claude 4.5 Opus、Gemini 3.0、Grok 4、DeepSeek V3/R1等，使用了29个来自MSD Manual专业版的标准化临床病例，总共产生了16,254个独立响应。

研究使用了团队自行开发的PrIME-LLM评估框架，从5个维度衡量模型的临床推理能力：差异化诊断（differential diagnosis）、诊断测试（diagnostic testing）、最终诊断（final diagnosis）、治疗管理（management），以及其他临床推理问题。测试方式是逐步给模型输入信息——先给基本症状，再补充体检结果，最后加入实验室数据，模拟真实临床场景中信息从少到多的过程。

核心发现可以用两组数据概括：差异化诊断失败率超过80%，最终诊断准确率超过90%。这两组数据看似矛盾，实际上指向了AI诊断能力的一个深层特征——"推理"和"匹配"，是两种完全不同的认知任务。

差异化诊断（differential diagnosis）是临床推理的起点。当患者走进诊室，只说了年龄、性别和几个症状，医生需要列出一份"可能是什么病"的候选清单。这个过程需要推理——从不完整的线索出发，排除不可能的方向，保留合理的可能性，然后安排进一步检查来缩小范围。这是临床工作中最考验医生经验的部分，研究者Marc Succi称之为"医学的艺术"（the art of medicine）。

所有21个模型在这个环节都表现不佳。当信息不完整时，它们无法生成合理的候选疾病列表，失败率超过80%。第一作者Arya Rao的说法很直白："我们发现，一旦数据齐全，模型非常擅长给出最终诊断。但在病例初期、信息很少的时候，它们就困难了。"

最终诊断则不同。当患者的所有临床信息——症状、体检、化验——全部摆在面前时，模型需要做的是"匹配"：将一整套完整的数据与已知的疾病模式对上号。在这个环节，表现最好的模型准确率超过了90%。一种是"从线索推理可能性"，一种是"从完整信息匹配答案"，前者需要开放性的思维和临床直觉，后者更像是一个高精度的模式识别问题。AI擅长后者，但在前者上，目前还远远不够。

这也涉及一个评估方法论的问题。以往的研究往往只看最终诊断的准确率，给人"AI诊断已经很厉害了"的印象。但PrIME-LLM框架把临床推理拆成了多个阶段，逐段评估，这才暴露出了"推理弱、匹配强"的真实面貌。用一个平均分来概括AI的临床能力，会掩盖这种结构性失衡。

研究还比较了不同模型之间的表现差异。PrIME-LLM综合评分从Gemini 1.5 Flash的64%到Grok 4和GPT-5的78%，跨度不小。

模型	PrIME-LLM评分	说明
Grok 4	78%	并列最高
GPT-5	78%	并列最高
其他前沿模型	64%-78%之间	区间分布
Gemini 1.5 Flash	64%	最低

推理优化模型（reasoning-optimized models）的表现显著优于普通模型（p<0.001），这意味着专门针对推理能力进行优化的模型在临床场景中有明显优势。研究团队也指出，较新的模型普遍优于较旧的模型，说明AI在这个领域确实在持续进步。

还有一个细节值得关注：当非文本数据被纳入输入时，所有模型的准确率都有显著提升。这暗示未来的AI医疗系统可能需要整合多模态数据——影像、图表、数值——才能真正接近临床级别的诊断能力。

研究的局限性也需要坦诚说明。其一，测试使用的是公开的标准化病例（MSD Manual），无法排除模型在训练阶段接触过这些病例的可能。其二，研究只测试了"开箱即用"的模型，没有使用检索增强生成（RAG）等外部增强手段。其三，没有将模型与人类医生做直接对比——我们不知道在同样的差异化诊断任务上，人类医生的表现如何。

尽管如此，研究的结论是清晰的。Marc Succi的表述很谨慎但也很明确："尽管持续改进，现成的大语言模型尚未达到可以在无人监督下进行临床级部署的水平。"研究的定位是"AI增强而非替代医生推理"（augment, not replace），这个结论得到了JAMA Network Open上多个来源的一致支持。

从更广的视角来看，这项研究揭示的可能不仅仅是AI在医疗领域的局限。如果"从不完整信息中推理可能性"是AI的普遍短板，那这个问题不会只在医疗领域出现。法律分析、投资决策、故障排查——任何需要"从有限线索出发进行开放式推理"的场景，可能都面临类似的挑战。

AI擅长"信息齐全时给出答案"，但在"信息不足时提出正确的问题"这件事上，人类的判断力和经验仍然不可替代。