乐于分享
好东西不私藏

AI诊断准确率超医生?哈佛研究的真相与AI医疗的现实距离

AI诊断准确率超医生?哈佛研究的真相与AI医疗的现实距离

前两天刷到一条新闻,把我一下子整不会了。

OpenAI的o1模型,在哈佛大学的急诊分诊测试中,诊断准确率达到了67%。

而两位人类急诊医生的准确率,分别是55.3%和50%。

AI比人强了10个百分点以上。

第一反应是什么?是兴奋,还是后背发凉?说实话,两种感觉都有。

兴奋的是,AI在医疗领域的潜力确实超出很多人预期。后背发凉的是,媒体已经用「AI打败医生」当标题了,这事儿没那么简单。

所以我花了一整晚,把这项发表在《Science》上的原始论文、哈佛医学院的解读、还有各大媒体的报道全扒了一遍。

结论可能跟你想象的不太一样。

这件事到底发生了什么。

先说背景。这项研究由哈佛大学和Beth Israel Deaconess医学中心的团队联合完成,论文发在了《Science》上,不是那种自媒体上的自说自话。

研究团队用的是OpenAI的o1-preview模型,2024年9月发布的那个版本,不是最新的o1。

测试数据来自76个真实的急诊病例,都是波士顿地区医院的实际病例记录。

测试分了两个阶段。

第一阶段叫「分诊场景」,模拟急诊分诊护士给医生的信息。AI和医生只能看到患者的电子病历数据,加上护士提供的一两句描述性语句。比如「男性,45岁,腹痛8小时,伴恶心」。

结果呢?o1-preview的诊断准确率是67.1%。两位参与测试的主治医生,分别是55.3%和50.0%。

第二阶段叫「完整信息场景」,给AI和医生看了完整检查报告,包括血液化验、影像学结果、心电图之类的。

结果o1-preview的准确率跳到了82%。人类专家呢,70%到79%。

两个阶段,AI都赢了。

听起来很炸裂对吧?但仔细想想,有几个很关键的细节,媒体基本都没提。

先说第一个细节,76个病例,到底是多还是少。

76个真实急诊病例。这个数字在临床研究中算什么水平?

坦率的讲,偏少。急诊科每天的接诊量以百计,一个中等医院的急诊科一个月就能看到上万个病例。76个样本,覆盖的疾病类型非常有限。

论文里提到的病例集中在常见急诊病症:胸痛、腹痛、呼吸困难、外伤这些。对于这类「标准化程度高」的病症,AI的优势确实明显,因为有大量文献和指南可以参照。

但如果碰到罕见病、复杂合并症、或者需要临床直觉判断的模糊症状,76个病例根本不足以证明什么。

我自己有个类比。你让一个AI做100道高考数学题,它可能比大部分高中生分数都高。但你给它一道奥赛题,它可能连题目都读不懂。

AI在医疗诊断上的优势,更像是在「做标准化考试题」,而不是「面对真实的临床不确定性」。

说到信息量,这又引出了第二个发现。

这个发现其实比「AI诊断准确率超医生」更有意思。

从67%跳到82%,信息量增加带来的提升幅度,远超人类医生从55%到75%的提升。

这说明了一个很重要的事:AI的诊断能力高度依赖数据完整性。

你想想看,在真实急诊场景里,信息往往是不完整的。患者描述不清、检查结果还没出来、病史资料缺失,这些都是常态。AI在「信息充足」的环境下表现出色,但在「信息不足」的环境下,它的表现会不会打折扣?

论文里没有直接回答这个问题。但它给了我们一个很关键的线索:AI的诊断表现和输入信息的完整度高度正相关。

AI不是替代了医生的临床判断,它只是在更高效地处理已有的信息。

还有第三个细节,经常被人忽略。

这点经常被忽略。研究用的是2024年9月发布的o1-preview版本,不是2025年发布的完整版o1,更别提现在2026年5月已经更新的版本了。

o1-preview是OpenAI推理模型的第一代,参数规模和推理能力都远低于后来的版本。如果换用最新模型,诊断准确率大概率会更高。

但这恰恰是我最担心的地方。

模型越强,媒体越爱用「AI打败XX」当标题。但越是这种标题,越容易让公众产生误解。AI在诊断上的进步,不等于AI能替代医生。它意味着AI能更好地辅助医生。

聊到AI医疗诊断,不能只看OpenAI。各家产品进展其实差别很大。

先说OpenAI这边。o1系列走的是「通用推理模型+医疗微调」的路线。优势是推理能力强,能处理复杂的临床推理链。劣势是缺乏真实医疗场景的训练数据,诊断能力主要靠预训练时学到的医学文献。

再看Google DeepMind。他们的Med-PaLM 2模型直接通过了美国执业医师考试,得分在91.5%以上,超过了88%的参考人群。但那是标准化考试题,跟真实急诊诊断完全是两码事。DeepMind的路线是「医疗专用模型」,优势是数据质量高,劣势是通用能力弱。

国内这边,百度灵医、华为盘古医疗、腾讯觅影都在做AI辅助诊断。但说实话,这些产品目前更多停留在影像辅助诊断层面,比如肺结节CT识别、糖尿病视网膜病变筛查。跟OpenAI这种做临床推理的AI,不在一个赛道。

还有一个值得关注的玩家是Epic Systems。他们的DAX AI系统已经在纽约一家医院正式投入使用了,直接嵌入电子病历系统,在临床医生的日常工作流中提供辅助诊断建议。这是目前走得最远的商业化案例。

各家对比下来,格局其实很清晰:OpenAI和Google走的是「通用模型+医疗应用」路线,国内厂商走的是「专用场景+影像辅助」路线,Epic走的是「嵌入工作流」路线。三条路,各有优劣。

那这个赛道到底有多大呢。

2025年全球AI医疗市场规模大约是350亿美元。预计到2030年,这个数字会翻倍到750亿。但这里面,真正的「AI辅助诊断」只占一小部分,大约15%左右,也就是50多亿美元。

大头在哪里?在医疗影像分析、药物研发、健康管理这些领域。

AI辅助诊断虽然声量大,但商业化落地慢得让人头疼。为什么?

合规是第一个拦路虎。在美国,AI辅助诊断产品需要通过FDA审批,周期通常2到3年,费用几百万到上千万美元不等。在中国,NMPA的审批同样严格,三类医疗器械的审批周期也不短。

第二个是责任归属。AI诊断错了,谁负责?是模型开发者?是医院?还是使用AI的医生?目前法律框架下,这个问题没有标准答案。

第三个是最现实的:医院愿意为此买单吗?一个AI辅助诊断系统的年费可能从几十万到上百万不等,而医院本身已经在控费压力下苦苦支撑。没有明确的ROI证明,采购决策很难推进。

说了这么多,不是要否定这项研究的价值。恰恰相反,我认为这是AI医疗领域非常重要的一个里程碑。

为什么?因为它第一次在真实临床数据上,系统地比较了AI和人类医生的诊断表现。之前的研究要么是模拟数据、要么是标准化考试题,这次用的是真实急诊病例。

而且研究团队的结论也很克制。他们没有说「AI将替代急诊医生」,而是说「AI可以作为医生的第二诊疗意见工具」。

这个定位很重要。第二诊疗意见,就是当你不确定时,让另一个专家看看。在急诊科,相当于给医生多一个参考。

想想看,如果一个疲惫的夜班医生,在凌晨三点面对一个症状模糊的急诊患者,有一个AI助手能帮他快速列出可能的诊断方向,会不会减少误诊?会不会挽救一些生命?

答案很明显。

我觉得这项研究最大的价值,不是证明了AI有多强,而是揭示了AI医疗真正的方向。

不是替代。是增强。

医生不是被AI替代的人,而是被AI增强的人。未来的急诊科,可能是这样的场景:患者进来,AI先快速分析病历和初步检查数据,给出诊断建议。医生再结合临床经验、体格检查、患者家属的描述,做最终判断。AI提供的是「数据驱动的第二意见」,医生提供的是「经验驱动的临床判断」。

两者叠加,诊断准确率可能远超单独的任何一方。

这话听着有点理想化对吧。但别忘了,医学本身就是经验科学的集合。医生看过的病例越多,经验越丰富,诊断越准确。AI呢,它看过的「病例」是数亿级别的文献和数据。把两者的优势结合起来,才是AI医疗的真正价值。

当然,这条路还很长。数据隐私、模型可解释性、临床工作流整合、责任法律框架、伦理边界,每一个都是大山。但至少,我们知道了方向。

最后说一句话。

永远对世界保持好奇。AI在医疗领域的每一次进步,都在让我们离「更好的医疗」更近一步。这不是威胁,是机会。关键是我们能不能找到正确的方式,让技术服务于人,而不是反过来。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~

谢谢你看我的文章,我们,下次再见。

/ 作者:黄美丽