AI 看病,失败率超 80%-夜雨聆风

AI 看病,失败率超 80%

点击蓝字关注我们

哈佛最新研究揭开了一个真相：AI在信息齐全时表现惊艳，却在医生最见功力的鉴别诊断环节，失败率超过80%。

“21个主流AI大模型，看病失败率全都超过80%？”

这则消息源于4月13日发表在《美国医学会杂志网络开放版》的一篇哈佛团队研究。AI看病，究竟是“完全不靠谱”，还是我们误解了它的角色？

数据背后的“双面”真相

这项哈佛研究，它模拟了真实的看病流程。

以前我们测试AI，往往是把病人的所有检查报告一次性喂给AI，问它得了什么病。在这种开卷考试下，AI简直是学霸——当信息齐全时，AI给出正确最终诊断的概率超过90%。

但在现实就诊中，医生面对的往往是一团迷雾。病人进门只说肚子疼，医生需要通过问诊、查体、逐步检查，排除掉99种可能，锁定那1个真凶。鉴别诊断的这个过程，是医生的核心价值。

哈佛团队正是模拟了这种信息不全的过程。先告诉AI患者腹痛，再看它能不能提出合理的检查方向。

结果，AI集体挂科。在鉴别诊断环节，所有模型的失败率都超过了80%。

不仅是想不出，它还会瞎编

如果说推理能力弱是能力问题，那么胡说八道就是态度问题了。

这种现象被称为 “AI幻觉” 。为了自圆其说，AI可能会编造患者根本不存在的病史，或者捏造一份看似合理实则杜撰的检查数据。

AI非常“好骗”且“主观”。

今年2月《自然·医学》的一项研究揭露了一组数据：在纯模型测试中，AI识别疾病的准确率高达94.9%；但当真实患者通过对话使用AI时，准确率暴跌至34.5%。

真实世界的患者描述病情是混乱的、主观的、甚至带有情绪的。AI无法像人类医生那样从絮叨中捕捉关键信息，也无法判断患者上传的报告是否真实。甚至，你换一种问法，AI就会给出完全矛盾的答案。

前段时间曝出的AI“洗稿”案例，有人利用AI“洗稿”编造虚假的医疗科普，甚至杜撰医院合作项目来为黑诊所引流。当连基本事实都无法保证时，AI给出的医疗建议无疑是赌命。

还有更危险的：训练数据造假

AI的学习依赖于数据。如果数据是假的，后果难以言喻。

就在哈佛这项研究发表的同时，《自然》杂志网站曝光了一起令人震惊的事件：数十个用于预测中风、糖尿病的AI模型，竟然可能是基于虚假数据训练出来的。

研究人员发现，网上开源的一些医疗数据集存在低级错误，比如成千上万人的血糖值竟然只有18个离散数值，这完全违背医学常识。这些数据集的提供者拒绝透露数据来源，声称保密。

如果连训练AI的数据都是假的，AI给出的诊断建议又从何谈起？目前，已有基于这些问题数据训练的AI模型被用于印尼和西班牙的医院临床环境中，引发了巨大的伦理担忧。

AI不是替代者，而是辅助者

在特定的、封闭的领域，AI已经展现出了极强的辅助能力。

比如在影像读片方面，斯坦福大学研发的AI工具“Merlin”在分析CT扫描诊断常见病症时，准确率可达81%以上；在急诊脑部CT中，AI检测血管闭塞的灵敏度甚至与经验丰富的放射科医生相当。

AI擅长的是识别，而不是思考；是执行指令，而不是主动探索。

近日，国内40余家顶尖机构联合发布的《医疗机构人工智能应用与治理专家共识（2026版）》明确指出，AI的角色定位是医师的“外脑”与“助手”，而非“替代者”。

结语

医学本质上是一门基于不确定性的实践科学。每一位患者的病情都是独特的，诊断和治疗往往需要在信息不充分的条件下做出判断，并承担相应的风险。这种能力无法仅靠海量数据的训练获得，它来源于长期临床经验的积累、来自失败案例的反思、也来自医生与患者之间面对面的沟通与观察。

AI在医疗领域最合理的角色定位，是辅助者，而非决策者。它可以为医生提供参考信息、提示可能被忽略的方向、帮助节省文书工作的时间，但最终的诊断与治疗方案，还是需要由具备执业资质的专业医生作出。

理性看待AI在医疗领域的应用，让AI成为我们实现目标的有利助手，在涉及自身健康的重大决策前，寻求专业医生的帮助。

蒲公英资讯 | 更懂制药人

专注医药产业与行业技术；

提供深度资讯、专业咨询、媒体宣传与资源链接；

助力企业把握行业脉搏，链接产业价值。

欢迎合作交流！

蒲

公

英

资

讯

END

点击名片欢迎关注我们