AI诊断超越医生:这不是取代,是过滤-夜雨聆风

AI诊断超越医生:这不是取代,是过滤

先今年上半年，哈佛医学院和一个团队在《Science》期刊发了一项研究：让AI模型o1和人类执业医师同时看同样的急诊病例，看谁的诊断更准。结果o1的诊断准确率超过了医生——67.1%对55%。

这个数字上了新闻之后，全网都在写”AI比医生准””AI要取代医生”。

但这是误读。

真正值得看的数字在另一个地方：o1的管理推理得分89%，人类医生34%。

差了55个百分点。

这不是”AI能看病”的故事。这是”医生的脑子怎么工作的”被量化了。

先说清楚一件事。

门急诊大夫一天看多少号？根据丁香园2023年对两千余名执业医师的调查问卷，三甲医院内科医师日均接诊门诊患者约60到80人次，急诊科大夫夜班12小时接诊量常在50到80人次，部分高负荷三甲的热门科室，大夫一天看100个号是常态。

100个号是什么概念？每个号平均六到八分钟，100个号就是十个小时不停地说话、问诊、写病历。中途没有整块时间思考，所有判断都是在嘈杂的分诊台、此起彼伏的叫号声、和下一个患者的催促里完成的。

这100个号里，有多少是”纯粹需要医学判断的”？有医生在社交媒体上写，大概三成。剩下七成，是来”倾诉”的——”大夫我最近睡不着””我孩子不听话我着急””体检报告上有个箭头我也不懂”。这些不是病，是噪声。

不是患者的问题。疾病本身就是混乱的。患者说不清症状，医生听不清重点，信息在传递过程中层层衰减。一个胸痛患者进来，说”胸口疼”，他可能指向心绞痛，可能指向胃食管反流，可能指向焦虑症躯体化表现，也可能什么都不是，就是肌肉拉伤。

医生在这100个号、嘈杂的诊室里，在每一个”噪声”里抽丝剥茧，找出那30个真正需要医学干预的——这才是医生最值钱的能力。不是背诊断手册，是”在噪声里分辨信号”。

o1那89%管的就是这个。

管理推理——说白了就是”下一步该查什么”的决策排序能力，不是”你得了什么病”的终极判断。胸痛来了，先做心电图还是先查心肌酶？要不要做CT肺动脉造影？什么时候该收入院观察？

o1在这套决策排序上拿了89分，人类医生34分。

这不是因为o1比医生聪明。是因为o1不受情绪干扰，不受后面还有80个号等待的时间压力影响，不会在患者说完”我邻居也是胸痛后来心梗了”之后被这个信息过度影响判断。

它是纯推理。医生是人，推理之外还有一整套情绪、经验、疲惫、注意力分配在同时运转。

所以AI不是来取代医生的。

它是来接走那七成噪声的。

患者描述偏差——”我觉得我是心脏病”——这是噪声，AI可以过滤。综合症状+检查结果，给出”心脏病因概率低，建议排查消化系统”，医生拿到的是一个去掉了噪声的信号。

患者说”睡不着”——可能是焦虑症躯体化，可能是抑郁症，可能是单纯咖啡喝多了，也可能是甲亢。AI可以把这个分类做掉，把可能性排序给医生。

医生拿到的是：去掉了噪声之后的信号。接诊一个患者的平均时间可以压缩，判断质量反而可能上升。

北京三甲医院急诊峰值日接诊量可达150到200人次。夜班12小时，有些大夫要处理80到100个患者。如果AI能在这80到100个里自动过滤掉不需要紧急干预的，把真正需要快速判断的病例优先推给医生——这是接诊压力的释放。

不是取代。是减负。

但有两个问题要交代清楚。

第一，76例是小样本，研究者自己说了”不代表AI能取代医生”。在76个病例上赢了两个主治医师，不等于在真实急诊室里能赢整个医疗体系。这个89%是受控条件下的成绩，大规模推开需要更大规模的验证。

第二，67.1%这个准确率，每三个患者可能错一个。放在真实场景里，这个容错率需要监管来划线——AI辅助诊断的失误率上限是多少？谁来承担AI给出错误建议的责任？现在的法律框架没有答案。

但方向是清楚的。

不是”AI医生”上岗，是”AI第二意见”进诊室。医生看AI的排序，AI看患者的描述，各干各的。

一个三甲医院的心内科主任说过，他最怕的不是疑难病例——疑难病例他反而精神集中，注意力反而好。最怕的是”觉得自己没病但其实有病”的患者，和”觉得自己病得很重但其实没病”的患者。前者漏诊，后者过度医疗，都是噪声太多干扰了判断。

AI能干这个。

把噪声滤掉，让医生的脑子用在真正需要判断的地方。

这大概才是这个研究最有价值的地方：它量化了”管理推理”这件事，让医疗系统第一次看见——原来那34%的医生得分，有很大的提升空间。

至于AI取代医生——那是媒体爱吃的快餐，不是这研究要说的东西。