哈佛最新研究撕开AI医疗的华丽外衣:误诊率竟超80%?

守正创新

深度调查

AI看病翻车现场：当"智能神医"遇上真实病人，误诊率竟超80%？

——哈佛最新研究撕开AI医疗的华丽外衣

一个令人窒息的实验

2026年4月，哈佛医学院的Marc Succi博士团队做了一件"残忍"的事：他们把21个当红AI大模型——包括ChatGPT-5、Claude 4.5、Grok 4、Gemini 3.0——全部扔进真实的临床考场，不给开卷，不给提示，就像你第一次独立坐门诊那样。

考题来自《默沙东诊疗手册》的29个标准病例。规则很简单：先给你患者的年龄、性别和主诉，看你能否列出可能的诊断；再补充查体结果，看你选择什么检查；最后给出化验和影像，看你下什么诊断。

80%+所有21个模型，在最关键的鉴别诊断环节——失败率全部超过80%。没错，是全部。表现最好的Grok 4和GPT-5，也在这个环节栽了跟头。

"这些模型在信息完整时能给出正确答案，但在病例开头的开放阶段，当信息匮乏时，它们完全迷失了。"首席作者Arya Rao直言。

"开卷考试"的假象：AI在作弊，只是人类没发现

讽刺的是，当研究者把所有检查报告、影像资料、化验单全部堆给AI后，这些模型的最终诊断准确率飙升到90%以上。

但这恰恰暴露了AI医疗的致命幻觉：它不是在"诊断"，它是在"猜谜"。

"鉴别诊断是临床推理的核心，是AI目前无法复刻的'医学的艺术'。"—— Marc Succi博士，哈佛医学院

人类医生在信息模糊时会保持不确定，逐步缩小范围；而AI会过早地坍缩到单一答案——就像猜灯谜时直接报答案，不管线索够不够。

更可怕的是，这种"猜对"背后隐藏着巨大的临床风险：如果AI列错了鉴别诊断清单，医生可能跟着做20项不必要的检查，延误治疗、增加费用、甚至漏掉真正的凶手。

幻觉：AI的"职业病"，在医疗领域等于杀人

你以为80%误诊率就是全部？不，这只是冰山一角。

64%-67%在另一项针对300个临床病例的研究中，未经优化的通用AI在医疗场景中的幻觉率高达64%-67%——也就是说，每三个回答中就有两个在编造信息。

这些幻觉包括：

•虚构病例细节：给一个没有家族病史的患者"安排"上遗传病

•捏造研究引用：25%-50%的医学文献引用是AI自己编的

•编造药物方案：推荐根本不存在的药物组合

•伪造检查数据：在沉默的音频片段里"听"出症状

真实案例：OpenAI的Whisper转录工具——已被超过3万名医生用于700万次问诊——被发现在录音空白处凭空插入短语、虚构药物名称。这不是bug，这是feature——大语言模型的本质就是"概率性文字接龙"，它不理解医学，它只是擅长让句子看起来通顺。

从实验室到病房：一道无法跨越的鸿沟

实验室准确率：94.9%真实患者使用：34.5%

《自然·医学》的一项研究揭示了更残酷的真相：在实验室里，AI识别疾病的准确率高达94.9%；但当真实患者使用同款AI时，正确率暴跌至不足34.5%。

为什么？因为病人不是教科书。

真实患者会语无伦次，会隐瞒病史，会同时服用五种药物，会带着一沓互相矛盾的检查单。AI问诊完全依赖用户的主观描述，它无法触诊，无法听诊，无法判断那份"从百度下载的检查报告"是不是P的。

更荒诞的是，同一个问题换种问法，AI可能给出完全矛盾的答案。这就像一个"神医"，你问"我头疼是不是脑瘤"，它说"很有可能"；你问"我头疼是不是没睡好"，它说"确实如此"。

288个医疗大模型的狂欢：一场危险的泡沫

288个截至2025年5月，中国累计发布了288个医疗大模型，仅2025年就新增133个。AI系统"智医助理"已落地全国超7.5万家基层医疗机构，累计提供超10亿次辅诊建议。

但哈佛这项研究给这股热潮浇了一盆冰水：所有测试的通用大模型，没有一款达到"无需监督的临床级部署"标准。

"现成的LLM不适合在无监督情况下直接用于临床实践。"—— Marc Succi博士

这不是保守，这是对患者生命的尊重。

AI医疗的真正定位：高级打字员，而非替代医生

这项研究最深刻的启示，或许是重新定义了AI在医疗中的角色。

AI不是医生，它是医生的"外接大脑"——在信息完备时帮助整理思路，在文书工作中减轻负担，在基层医疗资源匮乏时提供参考。但诊断的决策权、鉴别诊断的艺术、面对不确定性的人性化判断，必须牢牢掌握在医生手中。

正如研究所示，AI的价值是增强（augment）而非替代（replace）。那些鼓吹"AI将取代医生"的论调，要么是技术乌托邦的幻想，要么是资本推动的叙事。

给普通人的忠告：别让ChatGPT给你下诊断

如果你此刻正拿着手机，准备向AI描述症状，请记住：• AI没有手，没有眼，没有临床经验——它只是在玩文字游戏•80%的鉴别诊断失败率意味着它列出的"可能疾病"大概率不靠谱•幻觉是模型的固有缺陷，不是bug，无法根除• 你的模糊描述 + AI的过度自信 =致命组合身体不舒服，去看医生。AI可以帮你整理症状描述，但别让它替你决定生死。

结语：在狂热中保持清醒

哈佛这项研究不是为了否定AI医疗的未来，而是为了戳破泡沫，回归理性。技术会进步，模型会迭代，但医学的本质——在不确定性中做出最有利于患者的决策——永远是人类的艺术。

在AI真正学会"思考"之前，让我们保持敬畏，保持怀疑，保持对生命的谦卑。

毕竟，没有谁会愿意把命交给一个正确率只有20%的"神医"。

参考文献：

[1] Rao AS, et al. Large Language Model Performance and Clinical Reasoning Tasks.JAMA Network Open. 2026;9(4). doi:10.1001/jamanetworkopen.2026.4003

[2] Mass General Brigham. AI Remains Lacking in Clinical Reasoning Abilities. April 13, 2026

[3] Diagnostic Imaging. Large Language Models and Clinical Reasoning: What New Research Reveals. April 14, 2026

[4] Fierce Healthcare. LLMs still fall short in 'clinical reasoning abilities': study. April 18, 2026

本文基于公开学术研究整理，仅供科普参考，不构成医疗建议

关于白求恩精神研究会分级诊疗委员会

白求恩精神研究会分级诊疗委员会成立于2018年7月，是白求恩精神研究会下设二级分会，在白求恩精神研究会领导下负责组织开展相关活动，主要致力于积极推进分级诊疗制度研究与产学研相结合，努力提升全方位、全周期保障基层群众健康水平！

2025年5月在北京市会议中心举办换届大会，大会选举袁钟教授出任第二届主任委员，选举胡大一教授为名誉主任委员，新一届委员会旨在推动白求恩精神指引下的分级诊疗工作，寻访“白求恩式好医生”“白求恩式分级诊疗学科带头人”“白求恩志愿者”以及推动“白求恩大讲堂”等相关工作！

END

免责声明：