乐于分享
好东西不私藏

哈佛AI诊断研究里,那个67%藏着两个细节

哈佛AI诊断研究里,那个67%藏着两个细节

五月初,哈佛医学院在《Science》发表的一篇研究在英文圈刷屏。

研究里,OpenAI 的 o1 模型在 76 个急诊病例上给出”完全或非常接近”的诊断,准确率 67%;被对照的两位医生分别是 55% 和 50%

所有媒体的标题都很统一——”AI 诊断比急诊医生准 12 个百分点”。Hacker News 头版 304 个赞、253 条评论,TechCrunch、Guardian、NPR 跟进报道。

如果你只看到这一句,结论几乎是注定的:又一篇关于”AI 取代医生”的爆款。

但研究里有两个细节,几乎所有转发都没提到。读懂它们之后,那个 67% 的意思会完全不一样。

一、被比的不是急诊医生

研究地点是波士顿贝丝以色列医院的急诊室,听起来像是一场”AI vs 急诊医生”的对决。

但研究里被拿来和 AI 对比的两位医生,是「内科主治」(internal medicine attending physicians),不是急诊科医生

这两件事的差别比看上去大很多。

内科医生的本职是慢病管理、门诊鉴别诊断、住院病人管理——他们是医院里”想清楚到底是什么病”的那群人。给他们一份完整的病历、足够的时间,他们的强项是把诊断收敛到一个最可能的答案。

而急诊医生的本职是另一件事:在信息最少、时间最紧的情况下,先识别出”这个病人会不会死”——心梗、卒中、肺栓塞、败血症、主动脉夹层。能不能精确给出最终诊断是次要的,先把病人稳住、转给对应专科才是 KPI。

这份研究让两位”想清楚是什么病”的内科医生,去和 AI 比”在初诊触点把诊断猜准”。这本来就是内科医生不擅长、急诊医生不必擅长的题——研究里只有一个角色擅长这道题:AI。

急诊医生 Kristen Panthagani 在公开评论里就指出了这一点。她的原话是这是”一个有趣的研究但被严重过度炒作了“,原因是把内科医生的诊断习惯,去和急诊场景的 KPI 对齐,本身就是错配。

二、”诊断准确”是怎么判定的

第二个细节藏得更深。

研究里两位另外的内科主治,在不知道哪个诊断来自 AI、哪个来自人的情况下,给所有候选诊断打分。打分依据是“是否给出了和最终诊断相同或非常接近的答案”

这听起来公平——但”最终诊断”是病人完成所有检查、影像、实验室结果之后才能确定的答案。在急诊接诊的那一瞬间,没有任何人有这些数据。

换句话说:研究在用“上帝视角的答案”去评判”信息不对称下的判断”。

这个评判方式对医生不利——医生那一刻能拿到的就是病史、生命体征、护士的几句记录,让他做出”和最终诊断一致”的预判,本来就是一道运气题。

但这个评判方式对 AI 倾向性更大。AI 在训练数据里见过无数”初诊信息→最终诊断”的对应关系,这种 pattern 已经被压缩进权重里。AI 不是”更聪明”,它是在做一种特殊的模式补全——见过类似 pattern 的概率远高于任何医生。

这不是说 AI 没用。但这个 67% 不能直接读成”AI 临床能力比医生强 12 个百分点”。

三、但 AI 真正强的地方是什么

说了这么多,是不是整个研究都是水分?

也不是。研究里有一句关键观察被疯转的标题没强调:差距”在初诊触点(initial ER triage)尤其明显——病人信息最少、决策最紧迫的那个时刻“。

这个观察是真实的,也有意义。

医生的临床思维是经验驱动的——见过多少类似的病人,决定能多快锁定可能性。一个见过 10 万例的资深主治医师当然行,但住院医师、年轻医生、刚转科的实习医生,他们的”经验库”是有限的。AI 在这一点上有一个原本就属于它的优势:它”见过”的病例规模超出任何医生几个数量级。

在信息稀缺、需要快速排出鉴别诊断列表(differential diagnosis)的时刻,AI 给一份候选清单的能力,可能确实强于一些角色——尤其是经验不足的住院医师,或者在偏远地区独立值班的全科医生。

研究真正的发现,应该是这一句,而不是 67% vs 50%。

四、研究本身的局限

另外几个限制是研究者自己说的,但传播里被淡化了:

样本量 76 个病例。这个数字小到任何 subgroup 分析(按疾病类型、按医生经验拆分)都不可信。
只用了文本信息——电子病历、生命体征、护士的几句记录。但急诊真正的判断很多依赖现场观察:病人的脸色、呼吸节奏、说话状态、家属的表情。这些 AI 拿不到,研究里也没设计去测。
这是回顾性研究,不是前瞻性试验。所有病例的”最终诊断”都已经存在了,AI 不是在真实临床压力下做决策。研究者自己强调”在临床部署前需要前瞻性试验”——这句话被传播掉了。

研究负责人 Arjun Manrai(哈佛医学院 AI 实验室主任)的原话是:”我们用几乎所有 benchmark 测试了它,它都超过了之前的模型和我们的医生基线。”——但这句话的语境是 benchmark,不是真实临床。

五、这件事的真正信号

那这个研究到底说明了什么?

不是”AI 能取代急诊医生”。这个推论需要更严谨的研究——把 AI 放进真实急诊流程、和真正的急诊医生比、覆盖足够样本量、做前瞻性设计。这些哈佛都没做。

它说明的是另一件更具体、也更有用的事:在”信息稀缺的初诊判断”这个具体任务上,当前的前沿 AI 模型已经接近或超过经验不足的医生。

如果你是医院管理者,这个信号的真正价值是:考虑给住院医师配 AI 副驾——不是替代,是兜底。在医生第一次面对复杂病例、还在脑子里搜索鉴别诊断时,AI 能在 30 秒内给出一份候选清单,可能确实能减少漏诊。

这个结论不性感,但比”AI 取代医生”务实得多,也是这个研究真正能支撑的结论。

67% 不是”AI 比医生强 12 个百分点”——是 AI 在一道对医生不利、对 AI 友好的题目上拿了高分。

这不是说 AI 没用——AI 在初诊触点的鉴别诊断列表上,确实有它独特的优势。但把”benchmark 拿了高分”读成”AI 准备好替代医生了”,是把每一份这类研究都误读了一次。

每一篇这种研究,被读懂和被误读,差距比 12 个百分点大得多。

互动问题:如果你下次进急诊,医生在做初步判断时,电脑屏幕上同时显示一份 AI 给出的鉴别诊断列表——你会觉得这是更安全,还是会担心医生因此放弃自己的判断?

原文来源:Science 期刊(2026 年 4 月)哈佛医学院研究 + STAT News / TechCrunch / Harvard Magazine 报道
研究地点:贝丝以色列医院急诊室,76 个病例,对照对象:两位内科主治医师 vs OpenAI o1 与 GPT-4o