最近你可能刷到过这样的新闻:
"AI在急诊室任务中超越医生。"
"谷歌AI看病的态度比真人医生更好。"
"AI诊断准确率已经超过医生。"
这类标题越来越常见。乍一看,好像AI医生真的要来了。
但等一下——一个AI在测试里答对了诊断题,跟它在真实医院里能帮你看病,是两件完全不同的事。
Nature最近采访了多位医学AI研究者,梳理了AI在医疗诊断中的最新进展。结论很清晰:一些AI系统确实已经在受控任务中表现出接近甚至超过医生的诊断能力;但真实医疗环境的复杂性,仍然是最大的墙。
今天这篇文章,我想帮你理清一个问题:AI医疗真正难的不是答题,而是进入真实医院。
01|先别急着说"AI医生来了"
先说一组真实数据。
今年4月,Science发表了一项研究:波士顿一家医院的急诊科里,OpenAI的o1模型在评估患者状况时,67%的病例诊断正确或接近正确。而参与实验的两位真人医生,准确率大约在50%到55%。
另一项由Google Research主导的研究测试了AMIE系统——一个通过短信和真实患者聊天、收集病史、讨论诊断的AI。在75%的病例中,正确诊断排进了AMIE前三项建议;在56%的病例中是第一建议。这个表现,跟患者最终见到的主治医生相当。
这些数据是真的。这些研究也是真的。
但"在研究中表现好"和"能用来给你看病"之间,隔着的不是一步,是一整条路。
02|AI为什么在诊断测试里越来越强?
先搞清楚AI为什么"看起来"已经很强了。
加州大学旧金山分校的医生Robert Wachter说,过去三年里,大语言模型已经从"能做医学多选题"进步到了"输入必要信息后,能在复杂病例中匹敌医生的诊断水平"。
为什么进步这么快?三个原因:
第一,医学知识是结构化的。 症状、检查指标、疾病之间的对应关系,本质上是一个巨大的规则网络。大语言模型最擅长的就是学习这种模式——什么指标组合指向什么病,它比大多数住院医记得多。
第二,测试环境是干净的。 研究中给AI输入的信息,已经是经过整理的病历——症状、体征、检查结果,清清楚楚。就像开卷考试,题干里已经给了你所有线索。
第三,诊断是"静态判断"。 在测试场景里,AI只需要做一件事:根据给定信息,输出最可能的诊断。不需要追问、不需要查体、不需要安排检查、不需要跟患者沟通——这些"脏活累活",测试里都不包含。
所以在受控条件下,AI确实越来越强。但问题是:真实看病从来不是做选择题。
03|但真实看病不是一道选择题
哈佛医学院的住院医师David Wu,也是研究AI在医学中应用的学者。他说了一句话很关键:
"医学是混乱的,患者的故事并不总是教科书式的。我不认为我们已经证明这些系统能处理那种混乱。"
什么意思?举个普通人都能懂的例子。
你去医院看病,医生问:"哪里不舒服?"你说:"肚子有点难受。"——这五个字里,藏着多少信息?
是胃的位置还是肠道的位置?是一阵一阵的疼还是持续的不舒服?吃完饭之后更明显还是空腹时更明显?大便正常吗?最近吃了什么特别的东西?有没有发烧?有没有恶心?以前有过类似的情况吗?
一个"肚子难受",背后可能有20种不同的疾病方向。
医生靠什么缩小范围?靠追问、靠触诊、靠看你的表情、靠听你描述的方式、靠经验判断——这些能力,AI目前都不具备。
AMIE系统通过短信聊天收集病史,表现确实不错。但你想想,能通过短信清楚描述自己症状的患者,本身就已经帮AI过滤掉了大部分"混乱"。那些说不清自己哪里不舒服的、那些描述混乱的、那些忘记说关键信息的——这些才是真实医院的日常。

04|没有检查数据,AI再聪明也像闭眼猜
有人问过一个很好的问题:"AI能不能自己验血、拍片、知道感染和病灶位置?"
答案是:不能。
这是目前医疗AI最根本的瓶颈之一。
AI可以告诉你"根据你描述的症状,最可能的三种诊断是A、B、C"——但这个判断的可信度,完全取决于输入了什么信息。
如果你只告诉AI"肚子难受",它给出的诊断列表可能跟百度搜索差不多。
如果你给了它完整的血常规、腹部B超、既往病史、用药记录——它的诊断能力可能确实超过不少住院医。
问题就在这:谁给AI输入这些检查数据?
验血需要抽血、送检、等待结果。拍片需要去影像科、拍完等报告。有些检查需要预约,有些需要空腹,有些需要造影剂——这些全是线下物理流程,AI自己完成不了。
还有人说:"AI说的是诊断,不是替代检查。"这话没错。但诊断和检查是一体的——好的医生不是等所有检查结果出来才下判断,而是在问诊过程中就边问边想,有方向地安排检查,用最少的检查最快地锁定问题。这个"边问边想边安排"的能力,恰恰是AI目前最缺乏的。
AI的问题不是不够聪明,而是它看不到、摸不到、也安排不了检查。一个再聪明的医生,如果被蒙上眼睛、绑住双手、只能听患者说话,他也看不了病。

05|AI更适合做医生助手,而不是医生替身
那AI在医疗里能干什么?
其实已经在干了不少——只是这些事不够"惊艳",上不了新闻标题:
记录笔记: AI可以自动把医患对话转成结构化病历,医生不用再花半小时敲病历。
辅助处方: 在已确诊的常见病中,AI可以帮忙续开处方、检查药物冲突。
病史整理: 把散落在不同系统里的检查报告、既往病史整理成时间线,帮医生快速了解患者背景。
初筛和分诊: 在急诊或在线问诊场景里,AI可以帮患者做初步分类,判断哪些情况需要紧急处理。
这些事有一个共同特点:它们是流程性的、辅助性的,不涉及最终判断。
AI更像一个超级能干的病历员、一个不知疲倦的助手——它能帮医生省出时间做真正需要判断力的事,但它自己还不能做那个"拍板"的人。
06|普通人以后该怎么用医疗AI?
现在市面上已经有一些AI健康咨询产品。如果你用过,或者将来打算用,有三个建议:
第一,用AI做"知方向",不要用AI做"下结论"。
你可以让AI帮你理解一个诊断是什么意思、某项指标偏高可能意味着什么、某个治疗方案的大致逻辑是什么。这是AI的强项——它读过比你多得多的医学资料,解释概念是它的长项。
但不要让AI替你做"是不是这个病""要不要做手术"的判断。这种判断需要结合检查、查体、病史——AI没有这些信息。
第二,你给AI的信息质量,决定它回答的质量。
有人说"AI时代最大的问题是如何正确描述你的问题"——这话说到了点子上。如果你能精确描述症状、提供完整的检查数据,大模型确实可能给你相当靠谱的分析。但如果你只是含糊地说"不太舒服",那AI的回答跟网上搜到的也没什么区别。
第三,AI的回答永远是参考,不是医嘱。
如果你真的担心自己的健康状况,去看医生。这不是保守,这是基本的判断——因为只有医生能结合检查结果、体格检查和临床经验给出靠谱的判断,而AI目前做不到。
07|真正的问题:谁负责,谁审核,谁承担后果?
最后说一个技术之外但更根本的问题:责任。
AI诊断错了,谁负责?
是开发AI的公司?是使用AI的医院?是信任AI的患者?
目前,这个问题还没有答案。
从受控实验到真实临床部署,中间横着至少五道坎:
知情同意: 患者有权知道自己的诊断是AI参与的还是纯人工的。
责任归属: AI出错造成的医疗事故,谁来赔偿?
数据隐私: AI需要大量患者数据来训练和运行,这些数据怎么保护?
监管审批: 医疗器械需要审批,AI诊断系统按什么标准审批?各国规则还在制定中。
临床流程嵌入: AI给出的建议怎么嵌入现有的诊疗流程?医生要不要审核AI的每一条建议?如果审核,等于没省时间;如果不审核,出了事谁担?
这些问题不是小问题。它们决定了AI医疗到底能走多远、走多快。
技术上,AI可能已经准备好了。但制度、法律、流程和信任,远远没有。
08|结尾:AI会改变医疗,但不会让医学变简单
回到最初的问题:AI医生靠谱吗?
靠谱,也不靠谱。
在信息充分、场景受控的条件下,AI的诊断能力已经非常强,甚至超过部分医生——这是事实,不用回避。
但在真实医院里,患者说不清症状、检查结果还没出来、病情复杂多变、需要判断力和经验的时候——AI还差得远,这也是事实,不能忽略。
AI会改变医疗,但不会让医学变简单。
它能帮医生少写病历、快读报告、初步分诊——这些事做多了,确实能省出时间。但省出来的时间,最终还是要花在AI做不了的事情上:跟患者沟通、做复杂判断、承担决策责任。
所以别被"AI超过医生"的标题吓到,也别觉得AI医疗离自己很远。
它已经在帮你了——只不过帮你的是你看不见的那些环节,而不是坐在你面前听你说话的那个人。
医学从来不只是一道题。AI能答对题,但看病这件事,远远不只是答题。
如果这篇文章对你有启发,也欢迎你顺手点个 点赞、在看、转发,让更多人一起看到。
如果你想第一时间收到更新,也可以给公众号点个 星标⭐️。
谢谢你读到这里,我把名片放在下面,欢迎继续关注。
夜雨聆风