




深度调查
AI看病翻车现场:当"智能神医"遇上真实病人,误诊率竟超80%?
——哈佛最新研究撕开AI医疗的华丽外衣
一个令人窒息的实验
2026年4月,哈佛医学院的Marc Succi博士团队做了一件"残忍"的事:他们把21个当红AI大模型——包括ChatGPT-5、Claude 4.5、Grok 4、Gemini 3.0——全部扔进真实的临床考场,不给开卷,不给提示,就像你第一次独立坐门诊那样。
考题来自《默沙东诊疗手册》的29个标准病例。规则很简单:先给你患者的年龄、性别和主诉,看你能否列出可能的诊断;再补充查体结果,看你选择什么检查;最后给出化验和影像,看你下什么诊断。
80%+所有21个模型,在最关键的鉴别诊断环节——失败率全部超过80%。没错,是全部。表现最好的Grok 4和GPT-5,也在这个环节栽了跟头。
"这些模型在信息完整时能给出正确答案,但在病例开头的开放阶段,当信息匮乏时,它们完全迷失了。"首席作者Arya Rao直言。
"开卷考试"的假象:AI在作弊,只是人类没发现
讽刺的是,当研究者把所有检查报告、影像资料、化验单全部堆给AI后,这些模型的最终诊断准确率飙升到90%以上。
但这恰恰暴露了AI医疗的致命幻觉:它不是在"诊断",它是在"猜谜"。
"鉴别诊断是临床推理的核心,是AI目前无法复刻的'医学的艺术'。"—— Marc Succi博士,哈佛医学院
人类医生在信息模糊时会保持不确定,逐步缩小范围;而AI会过早地坍缩到单一答案——就像猜灯谜时直接报答案,不管线索够不够。
更可怕的是,这种"猜对"背后隐藏着巨大的临床风险:如果AI列错了鉴别诊断清单,医生可能跟着做20项不必要的检查,延误治疗、增加费用、甚至漏掉真正的凶手。
幻觉:AI的"职业病",在医疗领域等于杀人
你以为80%误诊率就是全部?不,这只是冰山一角。
64%-67%在另一项针对300个临床病例的研究中,未经优化的通用AI在医疗场景中的幻觉率高达64%-67%——也就是说,每三个回答中就有两个在编造信息。
这些幻觉包括:
•虚构病例细节:给一个没有家族病史的患者"安排"上遗传病
•捏造研究引用:25%-50%的医学文献引用是AI自己编的
•编造药物方案:推荐根本不存在的药物组合
•伪造检查数据:在沉默的音频片段里"听"出症状
真实案例:OpenAI的Whisper转录工具——已被超过3万名医生用于700万次问诊——被发现在录音空白处凭空插入短语、虚构药物名称。这不是bug,这是feature——大语言模型的本质就是"概率性文字接龙",它不理解医学,它只是擅长让句子看起来通顺。
从实验室到病房:一道无法跨越的鸿沟
实验室准确率:94.9%真实患者使用:34.5%
《自然·医学》的一项研究揭示了更残酷的真相:在实验室里,AI识别疾病的准确率高达94.9%;但当真实患者使用同款AI时,正确率暴跌至不足34.5%。
为什么?因为病人不是教科书。
真实患者会语无伦次,会隐瞒病史,会同时服用五种药物,会带着一沓互相矛盾的检查单。AI问诊完全依赖用户的主观描述,它无法触诊,无法听诊,无法判断那份"从百度下载的检查报告"是不是P的。
更荒诞的是,同一个问题换种问法,AI可能给出完全矛盾的答案。这就像一个"神医",你问"我头疼是不是脑瘤",它说"很有可能";你问"我头疼是不是没睡好",它说"确实如此"。
288个医疗大模型的狂欢:一场危险的泡沫
288个截至2025年5月,中国累计发布了288个医疗大模型,仅2025年就新增133个。AI系统"智医助理"已落地全国超7.5万家基层医疗机构,累计提供超10亿次辅诊建议。
但哈佛这项研究给这股热潮浇了一盆冰水:所有测试的通用大模型,没有一款达到"无需监督的临床级部署"标准。
"现成的LLM不适合在无监督情况下直接用于临床实践。"—— Marc Succi博士
这不是保守,这是对患者生命的尊重。
AI医疗的真正定位:高级打字员,而非替代医生
这项研究最深刻的启示,或许是重新定义了AI在医疗中的角色。
AI不是医生,它是医生的"外接大脑"——在信息完备时帮助整理思路,在文书工作中减轻负担,在基层医疗资源匮乏时提供参考。但诊断的决策权、鉴别诊断的艺术、面对不确定性的人性化判断,必须牢牢掌握在医生手中。
正如研究所示,AI的价值是增强(augment)而非替代(replace)。那些鼓吹"AI将取代医生"的论调,要么是技术乌托邦的幻想,要么是资本推动的叙事。
给普通人的忠告:别让ChatGPT给你下诊断
如果你此刻正拿着手机,准备向AI描述症状,请记住:• AI没有手,没有眼,没有临床经验——它只是在玩文字游戏•80%的鉴别诊断失败率意味着它列出的"可能疾病"大概率不靠谱•幻觉是模型的固有缺陷,不是bug,无法根除• 你的模糊描述 + AI的过度自信 =致命组合身体不舒服,去看医生。AI可以帮你整理症状描述,但别让它替你决定生死。
结语:在狂热中保持清醒
哈佛这项研究不是为了否定AI医疗的未来,而是为了戳破泡沫,回归理性。技术会进步,模型会迭代,但医学的本质——在不确定性中做出最有利于患者的决策——永远是人类的艺术。
在AI真正学会"思考"之前,让我们保持敬畏,保持怀疑,保持对生命的谦卑。
毕竟,没有谁会愿意把命交给一个正确率只有20%的"神医"。
参考文献:
[1] Rao AS, et al. Large Language Model Performance and Clinical Reasoning Tasks.JAMA Network Open. 2026;9(4). doi:10.1001/jamanetworkopen.2026.4003
[2] Mass General Brigham. AI Remains Lacking in Clinical Reasoning Abilities. April 13, 2026
[3] Diagnostic Imaging. Large Language Models and Clinical Reasoning: What New Research Reveals. April 14, 2026
[4] Fierce Healthcare. LLMs still fall short in 'clinical reasoning abilities': study. April 18, 2026
本文基于公开学术研究整理,仅供科普参考,不构成医疗建议




白求恩精神研究会分级诊疗委员会成立于2018年7月,是白求恩精神研究会下设二级分会,在白求恩精神研究会领导下负责组织开展相关活动,主要致力于积极推进分级诊疗制度研究与产学研相结合,努力提升全方位、全周期保障基层群众健康水平!
2025年5月在北京市会议中心举办换届大会,大会选举袁钟教授出任第二届主任委员,选举胡大一教授为名誉主任委员,新一届委员会旨在推动白求恩精神指引下的分级诊疗工作,寻访“白求恩式好医生”“白求恩式分级诊疗学科带头人”“白求恩志愿者”以及推动“白求恩大讲堂”等相关工作!



免责声明:
部分图文来源网络,凡本平台转载的所有的文章、图片、音频、视频文件等资料的版权归版权所有人所有,仅用于个人学习及科普推广,采用的非本平台原创文章及图片等内容无法一一与版权者联系。如果本平台所选内容的文章作者及编辑认为其作品不宜上网供大家浏览,或不应无偿使用请及时用函告或电话通知我们,将在规定时间内给予删除相关内容,避免给双方造成不必要的经济损失。
夜雨聆风