哈佛急诊室试验:OpenAI o1正确诊断率67%,比分诊医生的50-55%高出约15个百分点,但＂能诊断＂和＂能落地＂之间还差着一大截

这个数字出来的时候，医疗圈和AI圈同时沉默了一下。

哈佛的临床试验显示，OpenAI的o1模型在急诊室场景下正确诊断了67%的患者，而同等条件下分诊医生的正确率是50%至55%。差距约12到17个百分点。

这不是实验室里的基准测试，不是精心构造的医学案例集，而是真实急诊室里的真实患者。这是AI医疗诊断第一次在这种条件下系统性地超越人类均值。

在理解这个数字之前，有一个背景值得先说清楚。急诊室分诊是一个信息极度不完整的环境——病人进来可能只知道"我很不舒服"，没有完整病史，没有充分检查，分诊医生需要在几分钟内判断优先级和初步方向。这个场景下，50%到55%的正确率并不是医生水平差，而是这个任务本身的信息条件就决定了上限。

o1能做到67%，说明它在某些类型的症状组合和初步推断上，比人类医生有系统性的优势。这类优势通常来自两个地方：第一，它处理过的医学文献和病例数据远超任何单个医生；第二，它不会因为轮班疲劳、认知负荷或先入为主的经验偏见而降低准确率。人类医生在第100个病人和第1个病人之间，表现会有波动；o1不会。

但这里要特别说一件事，也是这个话题最容易被误读的地方："诊断准确率更高"和"可以在临床落地"是两件不同的事。

医疗AI在真实临床环境里落地，面对的问题远比"准不准"复杂。首先是责任归属——如果AI给出了一个错误的诊断导致漏诊，法律责任怎么界定？目前全球大多数医疗体系都没有成熟的框架来回答这个问题。其次是工作流整合——急诊室的信息系统、电子病历、医嘱流程都是已经运行了几十年的体系，把一个AI模型嵌进去，不是接个API那么简单，需要整个流程的重新设计。第三是监管门槛——在中国，医疗AI产品需要通过国家药监局的三类医疗器械注册，这个流程通常需要3到5年，而且对临床试验的要求非常严格。

从全球来看，目前已经有超过500款AI医疗软件获得美国FDA批准，但真正进入日常临床使用的不到其中的5%。技术可行和临床采用之间的这个鸿沟，是医疗AI最真实的卡脖子问题。

这件事在中国的进展节奏也值得关注。国内已有多家医院和AI公司在影像诊断、病理分析、辅助问诊等细分场景跑通了商业闭环，但落地最成功的方向，恰恰是那些"辅助"而非"替代"的场景——AI给医生看，医生做决定，出了问题医生负责。哈佛这个试验里，o1的角色是独立诊断，这在监管和责任层面的挑战要大得多。

不过有一个趋势是清晰的：AI在医疗诊断上的能力边界，正在以比大多数人预期更快的速度向外推。67%对50%到55%，今天是急诊分诊，明天可能是影像判读，后天可能是复杂病例的鉴别诊断。每一步突破都会重新逼问同一个问题：医疗体系准备好用一个比医生更准的工具，但同时还不知道该让谁负责的时候，它该怎么办？

这个问题没有简单答案。但它已经不是未来的问题了，它是现在的问题。

数据来源

TLDL AI News，2026年5月6日，《Harvard trial shows OpenAI's o1 model correctly diagnosed 67% of ER patients vs. 50-55% by triage doctors》
TLDL AI News，2026年，FDA批准AI医疗软件数量与临床采用率数据
国家药品监督管理局，2026年，三类医疗器械人工智能软件注册相关规

关注锐眼视界行业志，用真实数据看懂行业趋势，不焦虑、不盲从，洞察看得见的变革。