AI诊断准确率超医生?哈佛研究的真相与AI医疗的现实距离-夜雨聆风

AI诊断准确率超医生?哈佛研究的真相与AI医疗的现实距离

前两天刷到一条新闻，把我一下子整不会了。

OpenAI的o1模型，在哈佛大学的急诊分诊测试中，诊断准确率达到了67%。

而两位人类急诊医生的准确率，分别是55.3%和50%。

AI比人强了10个百分点以上。

第一反应是什么？是兴奋，还是后背发凉？说实话，两种感觉都有。

兴奋的是，AI在医疗领域的潜力确实超出很多人预期。后背发凉的是，媒体已经用「AI打败医生」当标题了，这事儿没那么简单。

所以我花了一整晚，把这项发表在《Science》上的原始论文、哈佛医学院的解读、还有各大媒体的报道全扒了一遍。

结论可能跟你想象的不太一样。

这件事到底发生了什么。

先说背景。这项研究由哈佛大学和Beth Israel Deaconess医学中心的团队联合完成，论文发在了《Science》上，不是那种自媒体上的自说自话。

研究团队用的是OpenAI的o1-preview模型，2024年9月发布的那个版本，不是最新的o1。

测试数据来自76个真实的急诊病例，都是波士顿地区医院的实际病例记录。

测试分了两个阶段。

第一阶段叫「分诊场景」，模拟急诊分诊护士给医生的信息。AI和医生只能看到患者的电子病历数据，加上护士提供的一两句描述性语句。比如「男性，45岁，腹痛8小时，伴恶心」。

结果呢？o1-preview的诊断准确率是67.1%。两位参与测试的主治医生，分别是55.3%和50.0%。

第二阶段叫「完整信息场景」，给AI和医生看了完整检查报告，包括血液化验、影像学结果、心电图之类的。

结果o1-preview的准确率跳到了82%。人类专家呢，70%到79%。

两个阶段，AI都赢了。

听起来很炸裂对吧？但仔细想想，有几个很关键的细节，媒体基本都没提。

先说第一个细节，76个病例，到底是多还是少。

76个真实急诊病例。这个数字在临床研究中算什么水平？

坦率的讲，偏少。急诊科每天的接诊量以百计，一个中等医院的急诊科一个月就能看到上万个病例。76个样本，覆盖的疾病类型非常有限。

论文里提到的病例集中在常见急诊病症：胸痛、腹痛、呼吸困难、外伤这些。对于这类「标准化程度高」的病症，AI的优势确实明显，因为有大量文献和指南可以参照。

但如果碰到罕见病、复杂合并症、或者需要临床直觉判断的模糊症状，76个病例根本不足以证明什么。

我自己有个类比。你让一个AI做100道高考数学题，它可能比大部分高中生分数都高。但你给它一道奥赛题，它可能连题目都读不懂。

AI在医疗诊断上的优势，更像是在「做标准化考试题」，而不是「面对真实的临床不确定性」。

说到信息量，这又引出了第二个发现。

这个发现其实比「AI诊断准确率超医生」更有意思。

从67%跳到82%，信息量增加带来的提升幅度，远超人类医生从55%到75%的提升。

这说明了一个很重要的事：AI的诊断能力高度依赖数据完整性。

你想想看，在真实急诊场景里，信息往往是不完整的。患者描述不清、检查结果还没出来、病史资料缺失，这些都是常态。AI在「信息充足」的环境下表现出色，但在「信息不足」的环境下，它的表现会不会打折扣？

论文里没有直接回答这个问题。但它给了我们一个很关键的线索：AI的诊断表现和输入信息的完整度高度正相关。

AI不是替代了医生的临床判断，它只是在更高效地处理已有的信息。

还有第三个细节，经常被人忽略。

这点经常被忽略。研究用的是2024年9月发布的o1-preview版本，不是2025年发布的完整版o1，更别提现在2026年5月已经更新的版本了。

o1-preview是OpenAI推理模型的第一代，参数规模和推理能力都远低于后来的版本。如果换用最新模型，诊断准确率大概率会更高。

但这恰恰是我最担心的地方。

模型越强，媒体越爱用「AI打败XX」当标题。但越是这种标题，越容易让公众产生误解。AI在诊断上的进步，不等于AI能替代医生。它意味着AI能更好地辅助医生。

聊到AI医疗诊断，不能只看OpenAI。各家产品进展其实差别很大。

先说OpenAI这边。o1系列走的是「通用推理模型+医疗微调」的路线。优势是推理能力强，能处理复杂的临床推理链。劣势是缺乏真实医疗场景的训练数据，诊断能力主要靠预训练时学到的医学文献。

再看Google DeepMind。他们的Med-PaLM 2模型直接通过了美国执业医师考试，得分在91.5%以上，超过了88%的参考人群。但那是标准化考试题，跟真实急诊诊断完全是两码事。DeepMind的路线是「医疗专用模型」，优势是数据质量高，劣势是通用能力弱。

国内这边，百度灵医、华为盘古医疗、腾讯觅影都在做AI辅助诊断。但说实话，这些产品目前更多停留在影像辅助诊断层面，比如肺结节CT识别、糖尿病视网膜病变筛查。跟OpenAI这种做临床推理的AI，不在一个赛道。

还有一个值得关注的玩家是Epic Systems。他们的DAX AI系统已经在纽约一家医院正式投入使用了，直接嵌入电子病历系统，在临床医生的日常工作流中提供辅助诊断建议。这是目前走得最远的商业化案例。

各家对比下来，格局其实很清晰：OpenAI和Google走的是「通用模型+医疗应用」路线，国内厂商走的是「专用场景+影像辅助」路线，Epic走的是「嵌入工作流」路线。三条路，各有优劣。

那这个赛道到底有多大呢。

2025年全球AI医疗市场规模大约是350亿美元。预计到2030年，这个数字会翻倍到750亿。但这里面，真正的「AI辅助诊断」只占一小部分，大约15%左右，也就是50多亿美元。

大头在哪里？在医疗影像分析、药物研发、健康管理这些领域。

AI辅助诊断虽然声量大，但商业化落地慢得让人头疼。为什么？

合规是第一个拦路虎。在美国，AI辅助诊断产品需要通过FDA审批，周期通常2到3年，费用几百万到上千万美元不等。在中国，NMPA的审批同样严格，三类医疗器械的审批周期也不短。

第二个是责任归属。AI诊断错了，谁负责？是模型开发者？是医院？还是使用AI的医生？目前法律框架下，这个问题没有标准答案。

第三个是最现实的：医院愿意为此买单吗？一个AI辅助诊断系统的年费可能从几十万到上百万不等，而医院本身已经在控费压力下苦苦支撑。没有明确的ROI证明，采购决策很难推进。

说了这么多，不是要否定这项研究的价值。恰恰相反，我认为这是AI医疗领域非常重要的一个里程碑。

为什么？因为它第一次在真实临床数据上，系统地比较了AI和人类医生的诊断表现。之前的研究要么是模拟数据、要么是标准化考试题，这次用的是真实急诊病例。

而且研究团队的结论也很克制。他们没有说「AI将替代急诊医生」，而是说「AI可以作为医生的第二诊疗意见工具」。

这个定位很重要。第二诊疗意见，就是当你不确定时，让另一个专家看看。在急诊科，相当于给医生多一个参考。

想想看，如果一个疲惫的夜班医生，在凌晨三点面对一个症状模糊的急诊患者，有一个AI助手能帮他快速列出可能的诊断方向，会不会减少误诊？会不会挽救一些生命？

答案很明显。

我觉得这项研究最大的价值，不是证明了AI有多强，而是揭示了AI医疗真正的方向。

不是替代。是增强。

医生不是被AI替代的人，而是被AI增强的人。未来的急诊科，可能是这样的场景：患者进来，AI先快速分析病历和初步检查数据，给出诊断建议。医生再结合临床经验、体格检查、患者家属的描述，做最终判断。AI提供的是「数据驱动的第二意见」，医生提供的是「经验驱动的临床判断」。

两者叠加，诊断准确率可能远超单独的任何一方。

这话听着有点理想化对吧。但别忘了，医学本身就是经验科学的集合。医生看过的病例越多，经验越丰富，诊断越准确。AI呢，它看过的「病例」是数亿级别的文献和数据。把两者的优势结合起来，才是AI医疗的真正价值。

当然，这条路还很长。数据隐私、模型可解释性、临床工作流整合、责任法律框架、伦理边界，每一个都是大山。但至少，我们知道了方向。

最后说一句话。

永远对世界保持好奇。AI在医疗领域的每一次进步，都在让我们离「更好的医疗」更近一步。这不是威胁，是机会。关键是我们能不能找到正确的方式，让技术服务于人，而不是反过来。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～

谢谢你看我的文章，我们，下次再见。

/ 作者：黄美丽