哈佛AI诊断研究里,那个67%藏着两个细节-夜雨聆风

哈佛AI诊断研究里,那个67%藏着两个细节

五月初，哈佛医学院在《Science》发表的一篇研究在英文圈刷屏。

研究里，OpenAI 的 o1 模型在 76 个急诊病例上给出”完全或非常接近”的诊断，准确率 67%；被对照的两位医生分别是 55% 和 50%。

所有媒体的标题都很统一——”AI 诊断比急诊医生准 12 个百分点”。Hacker News 头版 304 个赞、253 条评论，TechCrunch、Guardian、NPR 跟进报道。

如果你只看到这一句，结论几乎是注定的：又一篇关于”AI 取代医生”的爆款。

但研究里有两个细节，几乎所有转发都没提到。读懂它们之后，那个 67% 的意思会完全不一样。

一、被比的不是急诊医生

研究地点是波士顿贝丝以色列医院的急诊室，听起来像是一场”AI vs 急诊医生”的对决。

但研究里被拿来和 AI 对比的两位医生，是「内科主治」（internal medicine attending physicians），不是急诊科医生。

这两件事的差别比看上去大很多。

内科医生的本职是慢病管理、门诊鉴别诊断、住院病人管理——他们是医院里”想清楚到底是什么病”的那群人。给他们一份完整的病历、足够的时间，他们的强项是把诊断收敛到一个最可能的答案。

而急诊医生的本职是另一件事：在信息最少、时间最紧的情况下，先识别出”这个病人会不会死”——心梗、卒中、肺栓塞、败血症、主动脉夹层。能不能精确给出最终诊断是次要的，先把病人稳住、转给对应专科才是 KPI。

这份研究让两位”想清楚是什么病”的内科医生，去和 AI 比”在初诊触点把诊断猜准”。这本来就是内科医生不擅长、急诊医生不必擅长的题——研究里只有一个角色擅长这道题：AI。

急诊医生 Kristen Panthagani 在公开评论里就指出了这一点。她的原话是这是”一个有趣的研究但被严重过度炒作了“，原因是把内科医生的诊断习惯，去和急诊场景的 KPI 对齐，本身就是错配。

二、”诊断准确”是怎么判定的

第二个细节藏得更深。

研究里两位另外的内科主治，在不知道哪个诊断来自 AI、哪个来自人的情况下，给所有候选诊断打分。打分依据是“是否给出了和最终诊断相同或非常接近的答案”。

这听起来公平——但”最终诊断”是病人完成所有检查、影像、实验室结果之后才能确定的答案。在急诊接诊的那一瞬间，没有任何人有这些数据。

换句话说：研究在用“上帝视角的答案”去评判”信息不对称下的判断”。

这个评判方式对医生不利——医生那一刻能拿到的就是病史、生命体征、护士的几句记录，让他做出”和最终诊断一致”的预判，本来就是一道运气题。

但这个评判方式对 AI 倾向性更大。AI 在训练数据里见过无数”初诊信息→最终诊断”的对应关系，这种 pattern 已经被压缩进权重里。AI 不是”更聪明”，它是在做一种特殊的模式补全——见过类似 pattern 的概率远高于任何医生。

这不是说 AI 没用。但这个 67% 不能直接读成”AI 临床能力比医生强 12 个百分点”。

三、但 AI 真正强的地方是什么

说了这么多，是不是整个研究都是水分？

也不是。研究里有一句关键观察被疯转的标题没强调：差距”在初诊触点（initial ER triage）尤其明显——病人信息最少、决策最紧迫的那个时刻“。

这个观察是真实的，也有意义。

医生的临床思维是经验驱动的——见过多少类似的病人，决定能多快锁定可能性。一个见过 10 万例的资深主治医师当然行，但住院医师、年轻医生、刚转科的实习医生，他们的”经验库”是有限的。AI 在这一点上有一个原本就属于它的优势：它”见过”的病例规模超出任何医生几个数量级。

在信息稀缺、需要快速排出鉴别诊断列表（differential diagnosis）的时刻，AI 给一份候选清单的能力，可能确实强于一些角色——尤其是经验不足的住院医师，或者在偏远地区独立值班的全科医生。

研究真正的发现，应该是这一句，而不是 67% vs 50%。

四、研究本身的局限

另外几个限制是研究者自己说的，但传播里被淡化了：

• 样本量 76 个病例。这个数字小到任何 subgroup 分析（按疾病类型、按医生经验拆分）都不可信。
• 只用了文本信息——电子病历、生命体征、护士的几句记录。但急诊真正的判断很多依赖现场观察：病人的脸色、呼吸节奏、说话状态、家属的表情。这些 AI 拿不到，研究里也没设计去测。
• 这是回顾性研究，不是前瞻性试验。所有病例的”最终诊断”都已经存在了，AI 不是在真实临床压力下做决策。研究者自己强调”在临床部署前需要前瞻性试验”——这句话被传播掉了。

研究负责人 Arjun Manrai（哈佛医学院 AI 实验室主任）的原话是：”我们用几乎所有 benchmark 测试了它，它都超过了之前的模型和我们的医生基线。”——但这句话的语境是 benchmark，不是真实临床。

五、这件事的真正信号

那这个研究到底说明了什么？

不是”AI 能取代急诊医生”。这个推论需要更严谨的研究——把 AI 放进真实急诊流程、和真正的急诊医生比、覆盖足够样本量、做前瞻性设计。这些哈佛都没做。

它说明的是另一件更具体、也更有用的事：在”信息稀缺的初诊判断”这个具体任务上，当前的前沿 AI 模型已经接近或超过经验不足的医生。

如果你是医院管理者，这个信号的真正价值是：考虑给住院医师配 AI 副驾——不是替代，是兜底。在医生第一次面对复杂病例、还在脑子里搜索鉴别诊断时，AI 能在 30 秒内给出一份候选清单，可能确实能减少漏诊。

这个结论不性感，但比”AI 取代医生”务实得多，也是这个研究真正能支撑的结论。

67% 不是”AI 比医生强 12 个百分点”——是 AI 在一道对医生不利、对 AI 友好的题目上拿了高分。

这不是说 AI 没用——AI 在初诊触点的鉴别诊断列表上，确实有它独特的优势。但把”benchmark 拿了高分”读成”AI 准备好替代医生了”，是把每一份这类研究都误读了一次。

每一篇这种研究，被读懂和被误读，差距比 12 个百分点大得多。

互动问题：如果你下次进急诊，医生在做初步判断时，电脑屏幕上同时显示一份 AI 给出的鉴别诊断列表——你会觉得这是更安全，还是会担心医生因此放弃自己的判断？

原文来源：Science 期刊（2026 年 4 月）哈佛医学院研究 + STAT News / TechCrunch / Harvard Magazine 报道
研究地点：贝丝以色列医院急诊室，76 个病例，对照对象：两位内科主治医师 vs OpenAI o1 与 GPT-4o