AI看病翻车现场:当＂智能神医＂遇上真实病人,误诊率竟超80%?

守正创新

AI看病翻车现场：当"智能神医"遇上真实病人，误诊率竟超80%？

——哈佛最新研究撕开AI医疗的华丽外衣

一个令人窒息的实验

2026年4月，哈佛医学院的Marc Succi博士团队做了一件"残忍"的事：他们把21个当红AI大模型——包括ChatGPT-5、Claude 4.5、Grok 4、Gemini 3.0——全部扔进真实的临床考场，不给开卷，不给提示，就像你第一次独立坐门诊那样。

考题来自《默沙东诊疗手册》的29个标准病例。规则很简单：先给你患者的年龄、性别和主诉，看你能否列出可能的诊断；再补充查体结果，看你选择什么检查；最后给出化验和影像，看你下什么诊断。

结果？惨不忍睹。

所有21个模型，在最关键的鉴别诊断环节（Differential Diagnosis）——也就是医生根据有限信息列出"可能性清单"的核心能力——失败率全部超过80%。没错，是全部。表现最好的Grok 4和GPT-5，也在这个环节栽了跟头。

"这些模型在信息完整时能给出正确答案，但在病例开头的开放阶段，当信息匮乏时，它们完全迷失了。"首席作者Arya Rao直言。

"开卷考试"的假象：AI在作弊，只是人类没发现

讽刺的是，当研究者把所有检查报告、影像资料、化验单全部堆给AI后，这些模型的最终诊断准确率飙升到90%以上。

但这恰恰暴露了AI医疗的致命幻觉：它不是在"诊断"，它是在"猜谜"。

Marc Succi博士一针见血："鉴别诊断是临床推理的核心，是AI目前无法复刻的'医学的艺术'。" 人类医生在信息模糊时会保持不确定，逐步缩小范围；而AI会过早地坍缩到单一答案——就像猜灯谜时直接报答案，不管线索够不够。

更可怕的是，这种"猜对"背后隐藏着巨大的临床风险：如果AI列错了鉴别诊断清单，医生可能跟着做20项不必要的检查，延误治疗、增加费用、甚至漏掉真正的凶手。

幻觉：AI的"职业病"，在医疗领域等于杀人

你以为80%误诊率就是全部？不，这只是冰山一角。

在另一项针对300个临床病例的研究中，未经优化的通用AI在医疗场景中的幻觉率高达64%-67%——也就是说，每三个回答中就有两个在编造信息。这些幻觉包括：

- 虚构病例细节：给一个没有家族病史的患者"安排"上遗传病

- 捏造研究引用：25%-50%的医学文献引用是AI自己编的

- 编造药物方案：推荐根本不存在的药物组合

- 伪造检查数据：在沉默的音频片段里"听"出症状

OpenAI的Whisper转录工具——已被超过3万名医生用于700万次问诊——被发现在录音空白处凭空插入短语、虚构药物名称。这不是bug，这是feature——大语言模型的本质就是"概率性文字接龙"，它不理解医学，它只是擅长让句子看起来通顺。

从实验室到病房：一道无法跨越的鸿沟

《自然·医学》的一项研究揭示了更残酷的真相：在实验室里，AI识别疾病的准确率高达94.9%；但当真实患者使用同款AI时，正确率暴跌至不足34.5%[^用户提供]。

为什么？因为病人不是教科书。

真实患者会语无伦次，会隐瞒病史，会同时服用五种药物，会带着一沓互相矛盾的检查单。AI问诊完全依赖用户的主观描述，它无法触诊，无法听诊，无法判断那份"从百度下载的检查报告"是不是P的[^用户提供]。

更荒诞的是，同一个问题换种问法，AI可能给出完全矛盾的答案[^用户提供]。这就像一个"神医"，你问"我头疼是不是脑瘤"，它说"很有可能"；你问"我头疼是不是没睡好"，它说"确实如此"。

288个医疗大模型的狂欢：一场危险的泡沫

截至2025年5月，中国累计发布了288个医疗大模型，仅2025年就新增133个[^用户提供]。AI系统"智医助理"已落地全国超7.5万家基层医疗机构，累计提供超10亿次辅诊建议[^用户提供]。

但哈佛这项研究给这股热潮浇了一盆冰水：所有测试的通用大模型，没有一款达到"无需监督的临床级部署"标准。

Succi博士警告："现成的LLM不适合在无监督情况下直接用于临床实践。" 这不是保守，这是对患者生命的尊重。

AI医疗的真正定位：高级打字员，而非替代医生

这项研究最深刻的启示，或许是重新定义了AI在医疗中的角色。

AI不是医生，它是医生的"外接大脑"——在信息完备时帮助整理思路，在文书工作中减轻负担，在基层医疗资源匮乏时提供参考。但诊断的决策权、鉴别诊断的艺术、面对不确定性的人性化判断，必须牢牢掌握在医生手中。

正如研究所示，AI的价值是增强（augment）而非替代（replace）。那些鼓吹"AI将取代医生"的论调，要么是技术乌托邦的幻想，要么是资本推动的叙事。

给普通人的忠告：别让ChatGPT给你下诊断

如果你此刻正拿着手机，准备向AI描述症状，请记住：

1. AI没有手，没有眼，没有临床经验——它只是在玩文字游戏

2. 80%的鉴别诊断失败率意味着它列出的"可能疾病"大概率不靠谱

3. 幻觉是模型的固有缺陷，不是bug，无法根除

4. 你的模糊描述+AI的过度自信=致命组合

身体不舒服，去看医生。AI可以帮你整理症状描述，但别让它替你决定生死。

结语：在狂热中保持清醒

哈佛这项研究不是为了否定AI医疗的未来，而是为了戳破泡沫，回归理性。技术会进步，模型会迭代，但医学的本质——在不确定性中做出最有利于患者的决策——永远是人类的艺术。

在AI真正学会"思考"之前，让我们保持敬畏，保持怀疑，保持对生命的谦卑。

毕竟，没有谁会愿意把命交给一个正确率只有20%的"神医"。

参考文献：

- Rao AS, et al. Large Language Model Performance and Clinical Reasoning Tasks. JAMA Network Open. 2026;9(4). doi:10.1001/jamanetworkopen.2026.4003

- Mass General Brigham. AI Remains Lacking in Clinical Reasoning Abilities. April 13, 2026

- Diagnostic Imaging. Large Language Models and Clinical Reasoning: What New Research Reveals. April 14, 2026

- Fierce Healthcare. LLMs still fall short in 'clinical reasoning abilities': study. April 18, 2026

仅限学术探讨，不构成任何诊疗建议！

【声明：本文部分内容使用AI参与文献整理解读，

纰漏之处敬请指正及谅解】

追寻英雄的足迹-白求恩生平事迹

关于保信医疗

弘扬白求恩精神，展示医疗科技发展，呈现临床科研成果，共享学科建设经验，助力医护研究学习！

END

免责声明：