







2026年4月,哈佛医学院的Marc Succi博士团队做了一件"残忍"的事:他们把21个当红AI大模型——包括ChatGPT-5、Claude 4.5、Grok 4、Gemini 3.0——全部扔进真实的临床考场,不给开卷,不给提示,就像你第一次独立坐门诊那样。
考题来自《默沙东诊疗手册》的29个标准病例。规则很简单:先给你患者的年龄、性别和主诉,看你能否列出可能的诊断;再补充查体结果,看你选择什么检查;最后给出化验和影像,看你下什么诊断。
结果?惨不忍睹。
所有21个模型,在最关键的鉴别诊断环节(Differential Diagnosis)——也就是医生根据有限信息列出"可能性清单"的核心能力——失败率全部超过80%。没错,是全部。表现最好的Grok 4和GPT-5,也在这个环节栽了跟头。
"这些模型在信息完整时能给出正确答案,但在病例开头的开放阶段,当信息匮乏时,它们完全迷失了。"首席作者Arya Rao直言。
讽刺的是,当研究者把所有检查报告、影像资料、化验单全部堆给AI后,这些模型的最终诊断准确率飙升到90%以上。
但这恰恰暴露了AI医疗的致命幻觉:它不是在"诊断",它是在"猜谜"。
Marc Succi博士一针见血:"鉴别诊断是临床推理的核心,是AI目前无法复刻的'医学的艺术'。" 人类医生在信息模糊时会保持不确定,逐步缩小范围;而AI会过早地坍缩到单一答案——就像猜灯谜时直接报答案,不管线索够不够。
更可怕的是,这种"猜对"背后隐藏着巨大的临床风险:如果AI列错了鉴别诊断清单,医生可能跟着做20项不必要的检查,延误治疗、增加费用、甚至漏掉真正的凶手。
你以为80%误诊率就是全部?不,这只是冰山一角。
在另一项针对300个临床病例的研究中,未经优化的通用AI在医疗场景中的幻觉率高达64%-67%——也就是说,每三个回答中就有两个在编造信息。这些幻觉包括:
- 虚构病例细节:给一个没有家族病史的患者"安排"上遗传病
- 捏造研究引用:25%-50%的医学文献引用是AI自己编的
- 编造药物方案:推荐根本不存在的药物组合
- 伪造检查数据:在沉默的音频片段里"听"出症状
OpenAI的Whisper转录工具——已被超过3万名医生用于700万次问诊——被发现在录音空白处凭空插入短语、虚构药物名称。这不是bug,这是feature——大语言模型的本质就是"概率性文字接龙",它不理解医学,它只是擅长让句子看起来通顺。
《自然·医学》的一项研究揭示了更残酷的真相:在实验室里,AI识别疾病的准确率高达94.9%;但当真实患者使用同款AI时,正确率暴跌至不足34.5%[^用户提供]。
为什么?因为病人不是教科书。
真实患者会语无伦次,会隐瞒病史,会同时服用五种药物,会带着一沓互相矛盾的检查单。AI问诊完全依赖用户的主观描述,它无法触诊,无法听诊,无法判断那份"从百度下载的检查报告"是不是P的[^用户提供]。
更荒诞的是,同一个问题换种问法,AI可能给出完全矛盾的答案[^用户提供]。这就像一个"神医",你问"我头疼是不是脑瘤",它说"很有可能";你问"我头疼是不是没睡好",它说"确实如此"。
截至2025年5月,中国累计发布了288个医疗大模型,仅2025年就新增133个[^用户提供]。AI系统"智医助理"已落地全国超7.5万家基层医疗机构,累计提供超10亿次辅诊建议[^用户提供]。
但哈佛这项研究给这股热潮浇了一盆冰水:所有测试的通用大模型,没有一款达到"无需监督的临床级部署"标准。
Succi博士警告:"现成的LLM不适合在无监督情况下直接用于临床实践。" 这不是保守,这是对患者生命的尊重。
这项研究最深刻的启示,或许是重新定义了AI在医疗中的角色。
AI不是医生,它是医生的"外接大脑"——在信息完备时帮助整理思路,在文书工作中减轻负担,在基层医疗资源匮乏时提供参考。但诊断的决策权、鉴别诊断的艺术、面对不确定性的人性化判断,必须牢牢掌握在医生手中。
正如研究所示,AI的价值是增强(augment)而非替代(replace)。那些鼓吹"AI将取代医生"的论调,要么是技术乌托邦的幻想,要么是资本推动的叙事。
如果你此刻正拿着手机,准备向AI描述症状,请记住:
1. AI没有手,没有眼,没有临床经验——它只是在玩文字游戏
2. 80%的鉴别诊断失败率意味着它列出的"可能疾病"大概率不靠谱
3. 幻觉是模型的固有缺陷,不是bug,无法根除
4. 你的模糊描述+AI的过度自信=致命组合
身体不舒服,去看医生。AI可以帮你整理症状描述,但别让它替你决定生死。
哈佛这项研究不是为了否定AI医疗的未来,而是为了戳破泡沫,回归理性。技术会进步,模型会迭代,但医学的本质——在不确定性中做出最有利于患者的决策——永远是人类的艺术。
在AI真正学会"思考"之前,让我们保持敬畏,保持怀疑,保持对生命的谦卑。
毕竟,没有谁会愿意把命交给一个正确率只有20%的"神医"。
参考文献:
- Rao AS, et al. Large Language Model Performance and Clinical Reasoning Tasks. JAMA Network Open. 2026;9(4). doi:10.1001/jamanetworkopen.2026.4003
- Mass General Brigham. AI Remains Lacking in Clinical Reasoning Abilities. April 13, 2026
- Diagnostic Imaging. Large Language Models and Clinical Reasoning: What New Research Reveals. April 14, 2026
- Fierce Healthcare. LLMs still fall short in 'clinical reasoning abilities': study. April 18, 2026
仅限学术探讨,不构成任何诊疗建议!
【声明:本文部分内容使用AI参与文献整理解读,
纰漏之处敬请指正及谅解】



追寻英雄的足迹-白求恩生平事迹




弘扬白求恩精神,展示医疗科技发展,呈现临床科研成果,共享学科建设经验,助力医护研究学习!



免责声明:
部分图文来源网络,凡本平台转载的所有的文章、图片、音频、视频文件等资料的版权归版权所有人所有,仅用于个人学习及科普推广,采用的非本平台原创文章及图片等内容无法一一与版权者联系。如果本平台所选内容的文章作者及编辑认为其作品不宜上网供大家浏览,或不应无偿使用请及时用函告或电话通知我们,将在规定时间内给予删除相关内容,避免给双方造成不必要的经济损失。
夜雨聆风