
这两天,一篇发在 JAMA Network Open 上的研究,给医疗AI这股热气降了降温。
研究团队一口气测试了21款主流通用大模型。结果并不复杂:当病例信息已经比较完整时,头部模型在最终诊断上的表现相当亮眼;但一旦回到真正像临床现场的早期阶段——信息不全、线索模糊、需要先提出鉴别诊断时,所有模型都明显掉链子。研究者给出的结论也很明确:这类现成通用模型,还不能被依赖用于无人监督的患者端临床决策。
这件事,其实很值得认真聊一聊。
因为今天很多人谈医疗AI,最容易犯的毛病,不是低估它,而是高估得太着急。
一看到“大模型最终诊断准确率很高”,就有人开始顺着往下滑:是不是离AI替代医生不远了?是不是门诊以后就是几个大模型轮班坐诊?是不是人类医生这门手艺,已经到了要被重新定价的时候?
热闹归热闹,先别急。
医疗这件事,从来不是“把材料发齐之后再作答”的考试。
真正的临床,更像是在雾里找路。
病人走进诊室的时候,给你的往往不是标准答案,而是几句含混不清的话:胸口不舒服,肚子有点痛,人有些发虚,最近总觉得不对劲。真正决定一个医生水平的,往往不是最后会不会报出那个病名,而是在信息残缺的时候,他先怀疑什么,先排除什么,先追问什么,先查什么。
而研究里恰恰显示,鉴别诊断是这些模型最弱的一环;相比之下,最终诊断和管理建议反而表现更强。
这说明什么?
说明今天很多通用大模型,最像的还不是一个真正成熟的临床医生,而是一个很会做题的优等生。
题目完整,资料充分,知识点覆盖到位,它能答得相当漂亮。
可一旦进入临床第一分钟,进入那个“信息不全、证据矛盾、要边问边改判断”的阶段,它的短板就暴露出来了。
说得再直白一点:
它会给答案,但还不太会在迷雾里找问题。
而临床里最值钱的,偏偏不是答案本身。
临床里最值钱的,是在答案还远远没有浮出水面时,先把问题问对。
这也是为什么,我一直觉得,很多关于“AI能不能取代医生”的讨论,问得就有点外行。
因为“医生”不是一个单一动作。医生不是只负责在最后一刻公布谜底。医生要做的,是在有限时间里采集信息,在有限成本里决定下一步,在有限风险里做取舍,还要在患者情绪快崩的时候,让对方先稳下来。
这里面最难的部分,从来都不是背书,也不是复述指南,而是处理不确定性。
这次研究本身,也是在提醒同一件事。论文特别指出,过去很多医疗AI评估太依赖多选题、执照考试式题库,容易把模型包装成“会考试”,却掩盖了它在真实临床推理中的关键缺口;而这次用的是按临床流程逐步展开的标准化病例,恰恰更能暴露它在早期推理环节的不足。
换句话说,今天很多大模型的强,首先是一种“完整信息条件下的强”。
可临床真正贵的地方,偏偏是一种“不完整信息条件下的稳”。
这差别看起来不大,实际上差着一整层楼。
因为医疗最怕的,不是最后一题答错。
医疗更怕的是,一开始就把题目理解错了。
你把怀疑方向弄偏了,后面检查再多、报告再厚、算法再华丽,都可能是在一条偏了的路上越走越远。
为什么临床上总强调鉴别诊断?
不是因为医生喜欢故弄玄虚,而是因为这一步决定了后面所有动作的效率、成本和风险边界。该先排心梗还是先考虑焦虑,该先怀疑胰腺炎还是先朝胃病方向走,这些都不是“最后报一个答案”能替代的。
所以,真正该问的不是:AI聪不聪明?
而是:它的聪明,落在了临床链条的哪一段?
这个问题一问,很多热闹就会安静不少。
客观说,今天的大模型已经非常适合进入医疗。它能做文书,能做信息检索,能做病历整理,能做患者教育,能做流程辅助,能在很多重复性、消耗性的工作上替医生分担负担。这些价值都是真的,而且会越来越大。与这篇研究同期的评论文章也承认,最新一代推理模型已经展现出更强的逻辑表面和流程能力,只是距离真正安全、可靠地支撑复杂临床诊断,还有关键差距。
但进入医疗,不等于替代临床。
工具进来了,不代表基石被搬走了。
这也是我对当下不少行业叙事最大的警惕。
现在医疗AI行业里,最流行的一种话术,就是把“看起来更像医生”包装成“已经接近医生”。会多轮追问,像医生;会读体检报告,像医生;能连穿戴设备,像医生;会把建议说得头头是道,更像医生。
可医疗不是演示场,不是谁更像,谁就能上。
最后拼的,不是你说话多像,而是你能不能在高风险场景里长期稳定地靠谱。
会聊天,不等于会问诊。
会总结,不等于会推理。
会生成答案,不等于能承担后果。
这句话,放在今天,尤其该多说几遍。
更值得玩味的是,去年 JAMA Network Open 还有一项随机临床试验发现,让医生在诊断推理中使用商用大模型,并没有显著优于使用传统资源的医生组。也就是说,至少到目前为止,大模型并没有自动把临床推理这件事抬到一个新台阶。
所以,如果非要给这轮通用大模型在医疗里的位置下个定义,我更愿意这么说:
它已经是一个重要工具。
但它还不是一个可以放心托付的临床替身。
它能做副手,能做入口,能做索引,能做助手,能做增效器。
它会越来越重要,这一点不用怀疑。
但至少在今天,真正撑住临床的那根梁,仍然不是“知道答案”,而是在答案还没有出现的时候,先知道该往哪里问。
说到底,AI越强,反而越能提醒我们一件事:
医疗从来不是一个只靠正确答案就能运转的行业。
它首先是一个在迷雾里不断逼近真相的行业。
而通用大模型现在最弱的,恰恰就是这部分。
偏偏这部分,又正是临床最值钱的部分。
夜雨聆风