这个数字出来的时候,医疗圈和AI圈同时沉默了一下。
哈佛的临床试验显示,OpenAI的o1模型在急诊室场景下正确诊断了67%的患者,而同等条件下分诊医生的正确率是50%至55%。差距约12到17个百分点。

这不是实验室里的基准测试,不是精心构造的医学案例集,而是真实急诊室里的真实患者。这是AI医疗诊断第一次在这种条件下系统性地超越人类均值。
在理解这个数字之前,有一个背景值得先说清楚。急诊室分诊是一个信息极度不完整的环境——病人进来可能只知道"我很不舒服",没有完整病史,没有充分检查,分诊医生需要在几分钟内判断优先级和初步方向。这个场景下,50%到55%的正确率并不是医生水平差,而是这个任务本身的信息条件就决定了上限。
o1能做到67%,说明它在某些类型的症状组合和初步推断上,比人类医生有系统性的优势。这类优势通常来自两个地方:第一,它处理过的医学文献和病例数据远超任何单个医生;第二,它不会因为轮班疲劳、认知负荷或先入为主的经验偏见而降低准确率。人类医生在第100个病人和第1个病人之间,表现会有波动;o1不会。
但这里要特别说一件事,也是这个话题最容易被误读的地方:"诊断准确率更高"和"可以在临床落地"是两件不同的事。
医疗AI在真实临床环境里落地,面对的问题远比"准不准"复杂。首先是责任归属——如果AI给出了一个错误的诊断导致漏诊,法律责任怎么界定?目前全球大多数医疗体系都没有成熟的框架来回答这个问题。其次是工作流整合——急诊室的信息系统、电子病历、医嘱流程都是已经运行了几十年的体系,把一个AI模型嵌进去,不是接个API那么简单,需要整个流程的重新设计。第三是监管门槛——在中国,医疗AI产品需要通过国家药监局的三类医疗器械注册,这个流程通常需要3到5年,而且对临床试验的要求非常严格。
从全球来看,目前已经有超过500款AI医疗软件获得美国FDA批准,但真正进入日常临床使用的不到其中的5%。技术可行和临床采用之间的这个鸿沟,是医疗AI最真实的卡脖子问题。
这件事在中国的进展节奏也值得关注。国内已有多家医院和AI公司在影像诊断、病理分析、辅助问诊等细分场景跑通了商业闭环,但落地最成功的方向,恰恰是那些"辅助"而非"替代"的场景——AI给医生看,医生做决定,出了问题医生负责。哈佛这个试验里,o1的角色是独立诊断,这在监管和责任层面的挑战要大得多。
不过有一个趋势是清晰的:AI在医疗诊断上的能力边界,正在以比大多数人预期更快的速度向外推。67%对50%到55%,今天是急诊分诊,明天可能是影像判读,后天可能是复杂病例的鉴别诊断。每一步突破都会重新逼问同一个问题:医疗体系准备好用一个比医生更准的工具,但同时还不知道该让谁负责的时候,它该怎么办?
这个问题没有简单答案。但它已经不是未来的问题了,它是现在的问题。
数据来源
TLDL AI News,2026年5月6日,《Harvard trial shows OpenAI's o1 model correctly diagnosed 67% of ER patients vs. 50-55% by triage doctors》
TLDL AI News,2026年,FDA批准AI医疗软件数量与临床采用率数据
国家药品监督管理局,2026年,三类医疗器械人工智能软件注册相关规
关注锐眼视界行业志,用真实数据看懂行业趋势,不焦虑、不盲从,洞察看得见的变革。
夜雨聆风