震惊医学界!哈佛研究证实:AI诊断准确率超越人类医生
震惊医学界!哈佛研究证实:AI诊断准确率超越人类医生
急诊室里的”AI医生”,真的比人类更靠谱?
医学界被投下了一枚重磅炸弹。
2026年4月30日,国际顶级期刊《Science》刊登了一项来自哈佛医学院的震撼研究:在真实的急诊室诊断场景中,AI大语言模型的准确率,竟然超越了人类主治医师。

76名患者,真实急诊室对决
这不是实验室里的模拟测试,而是真实世界的临床对决。
研究团队来自哈佛医学院和贝斯以色列女执事医疗中心,他们选取了76名进入急诊室的患者,设计了一场”盲测”:
-
两位内科主治医师根据电子病历信息做出诊断 -
AI模型(OpenAI的o1和4o)获取完全相同的病历信息 -
另外两位主治医师作为评估者,不知道诊断来源,对结果进行盲评
关键细节:研究人员特别强调,AI获取的数据”完全没有经过预处理”——这意味着,AI面对的,就是真实临床场景中医生看到的那些杂乱、不完整、充满不确定性的原始信息。
67% vs 55% vs 50%:AI初战告捷
结果令人震惊。
在”完全准确或非常接近”的诊断评分标准下:
|
|
|
|---|---|
| OpenAI o1 模型 | 67% |
|
|
|
|
|
|
研究指出:”在每个诊断接触点,o1的表现都优于或与两位主治医师持平。”
最关键的发现:差异在”第一个诊断接触点(初始急诊分诊)”最为显著——这是信息最少、时间最紧迫、决策压力最大的时刻,而AI在这里展现了最大优势。

研究者说:”它超越了所有先前的模型”
Arjun Manrai,哈佛医学院AI实验室负责人,这项研究的主要作者之一,给出了这样的评价:
“我们针对几乎所有基准测试了AI模型,它超越了先前的模型,也超越了我们医师基准。”
这不是小打小闹的改进,而是在真实临床场景中的实质性突破。
专家泼冷水:别急着让AI”上岗”
然而,医学界的专家们并不完全买账。
Kristen Panthagani(急诊科医生)直接批评:这项研究导致了”非常夸张的标题”——因为研究对比的是AI与内科医生,而非急诊科医生。
她强调:”如果要比较AI工具与医生的临床能力,应该与实际从事该专业的医生进行比较。”
更严重的质疑来自Adam Rodman医生(贝斯以色列医生,也是这项研究的共同作者)的警告:
“目前没有正式的AI诊断问责框架,且患者仍希望’由人类引导他们做出生死决策’。”
研究团队的谨慎结论
值得注意的是,研究团队并未声称AI已准备好在急诊室做出真实的生死决策。
他们在论文中强调:
“迫切需要前瞻性试验,来评估这些技术在真实患者护理环境中的表现。”
这意味着,从”实验室突破”到”临床常规应用”,还有很长的路要走。
写在最后:AI医疗的机遇与隐忧
这项研究的意义,不应被标题党的夸张所掩盖,也不应被保守派的质疑所否定。
真正的启示是:
-
AI在信息不完整、时间紧迫的场景下,确实可能提供超越人类初判的诊断参考 -
急诊分诊、初步筛查、辅助决策——这些可能是AI医疗最早落地的场景 -
但”问责框架”、”患者接受度”、”监管审批”——这些非技术难题,可能比算法精度更难解决
对于医疗AI行业来说,这篇《Science》论文既是一枚勋章,也是一张”待办清单”。
技术突破已经完成,剩下的,是社会、法律、伦理的”长征”。
作者手记:AI不会取代医生,但会使用AI的医生,可能会取代不会使用AI的医生。这场医疗革命,才刚刚开始。
作者:影 | 发布时间:2026年5月4日
夜雨聆风