AI能诊断疾病了,但还不能替你看病

最近你可能刷到过这样的新闻：

"AI在急诊室任务中超越医生。"

"谷歌AI看病的态度比真人医生更好。"

"AI诊断准确率已经超过医生。"

这类标题越来越常见。乍一看，好像AI医生真的要来了。

但等一下——一个AI在测试里答对了诊断题，跟它在真实医院里能帮你看病，是两件完全不同的事。

Nature最近采访了多位医学AI研究者，梳理了AI在医疗诊断中的最新进展。结论很清晰：一些AI系统确实已经在受控任务中表现出接近甚至超过医生的诊断能力；但真实医疗环境的复杂性，仍然是最大的墙。

今天这篇文章，我想帮你理清一个问题：AI医疗真正难的不是答题，而是进入真实医院。

01｜先别急着说"AI医生来了"

先说一组真实数据。

今年4月，Science发表了一项研究：波士顿一家医院的急诊科里，OpenAI的o1模型在评估患者状况时，67%的病例诊断正确或接近正确。而参与实验的两位真人医生，准确率大约在50%到55%。

另一项由Google Research主导的研究测试了AMIE系统——一个通过短信和真实患者聊天、收集病史、讨论诊断的AI。在75%的病例中，正确诊断排进了AMIE前三项建议；在56%的病例中是第一建议。这个表现，跟患者最终见到的主治医生相当。

这些数据是真的。这些研究也是真的。

但"在研究中表现好"和"能用来给你看病"之间，隔着的不是一步，是一整条路。

02｜AI为什么在诊断测试里越来越强？

先搞清楚AI为什么"看起来"已经很强了。

加州大学旧金山分校的医生Robert Wachter说，过去三年里，大语言模型已经从"能做医学多选题"进步到了"输入必要信息后，能在复杂病例中匹敌医生的诊断水平"。

为什么进步这么快？三个原因：

第一，医学知识是结构化的。 症状、检查指标、疾病之间的对应关系，本质上是一个巨大的规则网络。大语言模型最擅长的就是学习这种模式——什么指标组合指向什么病，它比大多数住院医记得多。

第二，测试环境是干净的。 研究中给AI输入的信息，已经是经过整理的病历——症状、体征、检查结果，清清楚楚。就像开卷考试，题干里已经给了你所有线索。

第三，诊断是"静态判断"。 在测试场景里，AI只需要做一件事：根据给定信息，输出最可能的诊断。不需要追问、不需要查体、不需要安排检查、不需要跟患者沟通——这些"脏活累活"，测试里都不包含。

所以在受控条件下，AI确实越来越强。但问题是：真实看病从来不是做选择题。

03｜但真实看病不是一道选择题

哈佛医学院的住院医师David Wu，也是研究AI在医学中应用的学者。他说了一句话很关键：

"医学是混乱的，患者的故事并不总是教科书式的。我不认为我们已经证明这些系统能处理那种混乱。"

什么意思？举个普通人都能懂的例子。

你去医院看病，医生问："哪里不舒服？"你说："肚子有点难受。"——这五个字里，藏着多少信息？

是胃的位置还是肠道的位置？是一阵一阵的疼还是持续的不舒服？吃完饭之后更明显还是空腹时更明显？大便正常吗？最近吃了什么特别的东西？有没有发烧？有没有恶心？以前有过类似的情况吗？

一个"肚子难受"，背后可能有20种不同的疾病方向。

医生靠什么缩小范围？靠追问、靠触诊、靠看你的表情、靠听你描述的方式、靠经验判断——这些能力，AI目前都不具备。

AMIE系统通过短信聊天收集病史，表现确实不错。但你想想，能通过短信清楚描述自己症状的患者，本身就已经帮AI过滤掉了大部分"混乱"。那些说不清自己哪里不舒服的、那些描述混乱的、那些忘记说关键信息的——这些才是真实医院的日常。

04｜没有检查数据，AI再聪明也像闭眼猜

有人问过一个很好的问题："AI能不能自己验血、拍片、知道感染和病灶位置？"

答案是：不能。

这是目前医疗AI最根本的瓶颈之一。

AI可以告诉你"根据你描述的症状，最可能的三种诊断是A、B、C"——但这个判断的可信度，完全取决于输入了什么信息。

如果你只告诉AI"肚子难受"，它给出的诊断列表可能跟百度搜索差不多。

如果你给了它完整的血常规、腹部B超、既往病史、用药记录——它的诊断能力可能确实超过不少住院医。

问题就在这：谁给AI输入这些检查数据？

验血需要抽血、送检、等待结果。拍片需要去影像科、拍完等报告。有些检查需要预约，有些需要空腹，有些需要造影剂——这些全是线下物理流程，AI自己完成不了。

还有人说："AI说的是诊断，不是替代检查。"这话没错。但诊断和检查是一体的——好的医生不是等所有检查结果出来才下判断，而是在问诊过程中就边问边想，有方向地安排检查，用最少的检查最快地锁定问题。这个"边问边想边安排"的能力，恰恰是AI目前最缺乏的。

AI的问题不是不够聪明，而是它看不到、摸不到、也安排不了检查。一个再聪明的医生，如果被蒙上眼睛、绑住双手、只能听患者说话，他也看不了病。

05｜AI更适合做医生助手，而不是医生替身

那AI在医疗里能干什么？

其实已经在干了不少——只是这些事不够"惊艳"，上不了新闻标题：

记录笔记： AI可以自动把医患对话转成结构化病历，医生不用再花半小时敲病历。

辅助处方： 在已确诊的常见病中，AI可以帮忙续开处方、检查药物冲突。

病史整理： 把散落在不同系统里的检查报告、既往病史整理成时间线，帮医生快速了解患者背景。

初筛和分诊： 在急诊或在线问诊场景里，AI可以帮患者做初步分类，判断哪些情况需要紧急处理。

这些事有一个共同特点：它们是流程性的、辅助性的，不涉及最终判断。

AI更像一个超级能干的病历员、一个不知疲倦的助手——它能帮医生省出时间做真正需要判断力的事，但它自己还不能做那个"拍板"的人。

06｜普通人以后该怎么用医疗AI？

现在市面上已经有一些AI健康咨询产品。如果你用过，或者将来打算用，有三个建议：

第一，用AI做"知方向"，不要用AI做"下结论"。

你可以让AI帮你理解一个诊断是什么意思、某项指标偏高可能意味着什么、某个治疗方案的大致逻辑是什么。这是AI的强项——它读过比你多得多的医学资料，解释概念是它的长项。

但不要让AI替你做"是不是这个病""要不要做手术"的判断。这种判断需要结合检查、查体、病史——AI没有这些信息。

第二，你给AI的信息质量，决定它回答的质量。

有人说"AI时代最大的问题是如何正确描述你的问题"——这话说到了点子上。如果你能精确描述症状、提供完整的检查数据，大模型确实可能给你相当靠谱的分析。但如果你只是含糊地说"不太舒服"，那AI的回答跟网上搜到的也没什么区别。

第三，AI的回答永远是参考，不是医嘱。

如果你真的担心自己的健康状况，去看医生。这不是保守，这是基本的判断——因为只有医生能结合检查结果、体格检查和临床经验给出靠谱的判断，而AI目前做不到。

07｜真正的问题：谁负责，谁审核，谁承担后果？

最后说一个技术之外但更根本的问题：责任。

AI诊断错了，谁负责？

是开发AI的公司？是使用AI的医院？是信任AI的患者？

目前，这个问题还没有答案。

从受控实验到真实临床部署，中间横着至少五道坎：

知情同意： 患者有权知道自己的诊断是AI参与的还是纯人工的。

责任归属： AI出错造成的医疗事故，谁来赔偿？

数据隐私： AI需要大量患者数据来训练和运行，这些数据怎么保护？

监管审批： 医疗器械需要审批，AI诊断系统按什么标准审批？各国规则还在制定中。

临床流程嵌入： AI给出的建议怎么嵌入现有的诊疗流程？医生要不要审核AI的每一条建议？如果审核，等于没省时间；如果不审核，出了事谁担？

这些问题不是小问题。它们决定了AI医疗到底能走多远、走多快。

技术上，AI可能已经准备好了。但制度、法律、流程和信任，远远没有。

08｜结尾：AI会改变医疗，但不会让医学变简单

回到最初的问题：AI医生靠谱吗？

靠谱，也不靠谱。

在信息充分、场景受控的条件下，AI的诊断能力已经非常强，甚至超过部分医生——这是事实，不用回避。

但在真实医院里，患者说不清症状、检查结果还没出来、病情复杂多变、需要判断力和经验的时候——AI还差得远，这也是事实，不能忽略。

AI会改变医疗，但不会让医学变简单。

它能帮医生少写病历、快读报告、初步分诊——这些事做多了，确实能省出时间。但省出来的时间，最终还是要花在AI做不了的事情上：跟患者沟通、做复杂判断、承担决策责任。

所以别被"AI超过医生"的标题吓到，也别觉得AI医疗离自己很远。

它已经在帮你了——只不过帮你的是你看不见的那些环节，而不是坐在你面前听你说话的那个人。

医学从来不只是一道题。AI能答对题，但看病这件事，远远不只是答题。

如果这篇文章对你有启发，也欢迎你顺手点个 点赞、在看、转发，让更多人一起看到。

如果你想第一时间收到更新，也可以给公众号点个 星标⭐️。

谢谢你读到这里，我把名片放在下面，欢迎继续关注。