乐于分享
好东西不私藏

AI 看病,失败率超 80%

AI 看病,失败率超 80%

点击蓝字 关注我们

哈佛最新研究揭开了一个真相:AI在信息齐全时表现惊艳,却在医生最见功力的鉴别诊断环节,失败率超过80%。

“21个主流AI大模型,看病失败率全都超过80%?”

这则消息源于4月13日发表在《美国医学会杂志网络开放版》的一篇哈佛团队研究。AI看病,究竟是“完全不靠谱”,还是我们误解了它的角色?

数据背后的“双面”真相

这项哈佛研究,它模拟了真实的看病流程。

以前我们测试AI,往往是把病人的所有检查报告一次性喂给AI,问它得了什么病。在这种开卷考试下,AI简直是学霸——当信息齐全时,AI给出正确最终诊断的概率超过90%。

但在现实就诊中,医生面对的往往是一团迷雾。病人进门只说肚子疼,医生需要通过问诊、查体、逐步检查,排除掉99种可能,锁定那1个真凶。鉴别诊断的这个过程,是医生的核心价值。

哈佛团队正是模拟了这种信息不全的过程。先告诉AI患者腹痛,再看它能不能提出合理的检查方向。

结果,AI集体挂科。在鉴别诊断环节,所有模型的失败率都超过了80%。

不仅是想不出,它还会瞎编

如果说推理能力弱是能力问题,那么胡说八道就是态度问题了。

这种现象被称为 “AI幻觉” 。为了自圆其说,AI可能会编造患者根本不存在的病史,或者捏造一份看似合理实则杜撰的检查数据。

AI非常“好骗”且“主观”。

今年2月《自然·医学》的一项研究揭露了一组数据:在纯模型测试中,AI识别疾病的准确率高达94.9%;但当真实患者通过对话使用AI时,准确率暴跌至34.5%。

真实世界的患者描述病情是混乱的、主观的、甚至带有情绪的。AI无法像人类医生那样从絮叨中捕捉关键信息,也无法判断患者上传的报告是否真实。甚至,你换一种问法,AI就会给出完全矛盾的答案。

前段时间曝出的AI“洗稿”案例,有人利用AI“洗稿”编造虚假的医疗科普,甚至杜撰医院合作项目来为黑诊所引流。当连基本事实都无法保证时,AI给出的医疗建议无疑是赌命。

还有更危险的:训练数据造假

AI的学习依赖于数据。如果数据是假的,后果难以言喻。

就在哈佛这项研究发表的同时,《自然》杂志网站曝光了一起令人震惊的事件:数十个用于预测中风、糖尿病的AI模型,竟然可能是基于虚假数据训练出来的。

研究人员发现,网上开源的一些医疗数据集存在低级错误,比如成千上万人的血糖值竟然只有18个离散数值,这完全违背医学常识。这些数据集的提供者拒绝透露数据来源,声称保密。

如果连训练AI的数据都是假的,AI给出的诊断建议又从何谈起? 目前,已有基于这些问题数据训练的AI模型被用于印尼和西班牙的医院临床环境中,引发了巨大的伦理担忧。

AI不是替代者,而是辅助者

在特定的、封闭的领域,AI已经展现出了极强的辅助能力。

比如在影像读片方面,斯坦福大学研发的AI工具“Merlin”在分析CT扫描诊断常见病症时,准确率可达81%以上;在急诊脑部CT中,AI检测血管闭塞的灵敏度甚至与经验丰富的放射科医生相当。

AI擅长的是识别,而不是思考;是执行指令,而不是主动探索。

近日,国内40余家顶尖机构联合发布的《医疗机构人工智能应用与治理专家共识(2026版)》明确指出,AI的角色定位是医师的“外脑”与“助手”,而非“替代者”。

结语

医学本质上是一门基于不确定性的实践科学。每一位患者的病情都是独特的,诊断和治疗往往需要在信息不充分的条件下做出判断,并承担相应的风险。这种能力无法仅靠海量数据的训练获得,它来源于长期临床经验的积累、来自失败案例的反思、也来自医生与患者之间面对面的沟通与观察。

AI在医疗领域最合理的角色定位,是辅助者,而非决策者。它可以为医生提供参考信息、提示可能被忽略的方向、帮助节省文书工作的时间,但最终的诊断与治疗方案,还是需要由具备执业资质的专业医生作出。

理性看待AI在医疗领域的应用,让AI成为我们实现目标的有利助手,在涉及自身健康的重大决策前,寻求专业医生的帮助。

蒲公英资讯 | 更懂制药人

专注医药产业与行业技术;

提供深度资讯、专业咨询、媒体宣传与资源链接;

助力企业把握行业脉搏,链接产业价值。

欢迎合作交流!

END

点击名片  欢迎关注我们