乐于分享
好东西不私藏

AI诊断超越医生:这不是取代,是过滤

AI诊断超越医生:这不是取代,是过滤

今年上半年,哈佛医学院和一个团队在《Science》期刊发了一项研究:让AI模型o1和人类执业医师同时看同样的急诊病例,看谁的诊断更准。结果o1的诊断准确率超过了医生——67.1%对55%。

这个数字上了新闻之后,全网都在写”AI比医生准””AI要取代医生”。

但这是误读。

真正值得看的数字在另一个地方:o1的管理推理得分89%,人类医生34%。

差了55个百分点。

这不是”AI能看病”的故事。这是”医生的脑子怎么工作的”被量化了。


先说清楚一件事。

门急诊大夫一天看多少号?根据丁香园2023年对两千余名执业医师的调查问卷,三甲医院内科医师日均接诊门诊患者约60到80人次,急诊科大夫夜班12小时接诊量常在50到80人次,部分高负荷三甲的热门科室,大夫一天看100个号是常态。

100个号是什么概念?每个号平均六到八分钟,100个号就是十个小时不停地说话、问诊、写病历。中途没有整块时间思考,所有判断都是在嘈杂的分诊台、此起彼伏的叫号声、和下一个患者的催促里完成的。

这100个号里,有多少是”纯粹需要医学判断的”?有医生在社交媒体上写,大概三成。剩下七成,是来”倾诉”的——”大夫我最近睡不着””我孩子不听话我着急””体检报告上有个箭头我也不懂”。这些不是病,是噪声。

不是患者的问题。疾病本身就是混乱的。患者说不清症状,医生听不清重点,信息在传递过程中层层衰减。一个胸痛患者进来,说”胸口疼”,他可能指向心绞痛,可能指向胃食管反流,可能指向焦虑症躯体化表现,也可能什么都不是,就是肌肉拉伤。

医生在这100个号、嘈杂的诊室里,在每一个”噪声”里抽丝剥茧,找出那30个真正需要医学干预的——这才是医生最值钱的能力。不是背诊断手册,是”在噪声里分辨信号”。


o1那89%管的就是这个。

管理推理——说白了就是”下一步该查什么”的决策排序能力,不是”你得了什么病”的终极判断。胸痛来了,先做心电图还是先查心肌酶?要不要做CT肺动脉造影?什么时候该收入院观察?

o1在这套决策排序上拿了89分,人类医生34分。

这不是因为o1比医生聪明。是因为o1不受情绪干扰,不受后面还有80个号等待的时间压力影响,不会在患者说完”我邻居也是胸痛后来心梗了”之后被这个信息过度影响判断。

它是纯推理。医生是人,推理之外还有一整套情绪、经验、疲惫、注意力分配在同时运转。


所以AI不是来取代医生的。

它是来接走那七成噪声的。

患者描述偏差——”我觉得我是心脏病”——这是噪声,AI可以过滤。综合症状+检查结果,给出”心脏病因概率低,建议排查消化系统”,医生拿到的是一个去掉了噪声的信号。

患者说”睡不着”——可能是焦虑症躯体化,可能是抑郁症,可能是单纯咖啡喝多了,也可能是甲亢。AI可以把这个分类做掉,把可能性排序给医生。

医生拿到的是:去掉了噪声之后的信号。接诊一个患者的平均时间可以压缩,判断质量反而可能上升。

北京三甲医院急诊峰值日接诊量可达150到200人次。夜班12小时,有些大夫要处理80到100个患者。如果AI能在这80到100个里自动过滤掉不需要紧急干预的,把真正需要快速判断的病例优先推给医生——这是接诊压力的释放。

不是取代。是减负。


但有两个问题要交代清楚。

第一,76例是小样本,研究者自己说了”不代表AI能取代医生”。在76个病例上赢了两个主治医师,不等于在真实急诊室里能赢整个医疗体系。这个89%是受控条件下的成绩,大规模推开需要更大规模的验证。

第二,67.1%这个准确率,每三个患者可能错一个。放在真实场景里,这个容错率需要监管来划线——AI辅助诊断的失误率上限是多少?谁来承担AI给出错误建议的责任?现在的法律框架没有答案。


但方向是清楚的。

不是”AI医生”上岗,是”AI第二意见”进诊室。医生看AI的排序,AI看患者的描述,各干各的。

一个三甲医院的心内科主任说过,他最怕的不是疑难病例——疑难病例他反而精神集中,注意力反而好。最怕的是”觉得自己没病但其实有病”的患者,和”觉得自己病得很重但其实没病”的患者。前者漏诊,后者过度医疗,都是噪声太多干扰了判断。

AI能干这个。

把噪声滤掉,让医生的脑子用在真正需要判断的地方。

这大概才是这个研究最有价值的地方:它量化了”管理推理”这件事,让医疗系统第一次看见——原来那34%的医生得分,有很大的提升空间。

至于AI取代医生——那是媒体爱吃的快餐,不是这研究要说的东西。