别急着吹AI看病:它最弱的,恰恰是临床最值钱的部分

这两天，一篇发在 JAMA Network Open 上的研究，给医疗AI这股热气降了降温。

研究团队一口气测试了21款主流通用大模型。结果并不复杂：当病例信息已经比较完整时，头部模型在最终诊断上的表现相当亮眼；但一旦回到真正像临床现场的早期阶段——信息不全、线索模糊、需要先提出鉴别诊断时，所有模型都明显掉链子。研究者给出的结论也很明确：这类现成通用模型，还不能被依赖用于无人监督的患者端临床决策。

这件事，其实很值得认真聊一聊。

因为今天很多人谈医疗AI，最容易犯的毛病，不是低估它，而是高估得太着急。

一看到“大模型最终诊断准确率很高”，就有人开始顺着往下滑：是不是离AI替代医生不远了？是不是门诊以后就是几个大模型轮班坐诊？是不是人类医生这门手艺，已经到了要被重新定价的时候？

热闹归热闹，先别急。

医疗这件事，从来不是“把材料发齐之后再作答”的考试。

真正的临床，更像是在雾里找路。

病人走进诊室的时候，给你的往往不是标准答案，而是几句含混不清的话：胸口不舒服，肚子有点痛，人有些发虚，最近总觉得不对劲。真正决定一个医生水平的，往往不是最后会不会报出那个病名，而是在信息残缺的时候，他先怀疑什么，先排除什么，先追问什么，先查什么。

而研究里恰恰显示，鉴别诊断是这些模型最弱的一环；相比之下，最终诊断和管理建议反而表现更强。

这说明什么？

说明今天很多通用大模型，最像的还不是一个真正成熟的临床医生，而是一个很会做题的优等生。

题目完整，资料充分，知识点覆盖到位，它能答得相当漂亮。

可一旦进入临床第一分钟，进入那个“信息不全、证据矛盾、要边问边改判断”的阶段，它的短板就暴露出来了。

说得再直白一点：

它会给答案，但还不太会在迷雾里找问题。

而临床里最值钱的，偏偏不是答案本身。

临床里最值钱的，是在答案还远远没有浮出水面时，先把问题问对。

这也是为什么，我一直觉得，很多关于“AI能不能取代医生”的讨论，问得就有点外行。

因为“医生”不是一个单一动作。医生不是只负责在最后一刻公布谜底。医生要做的，是在有限时间里采集信息，在有限成本里决定下一步，在有限风险里做取舍，还要在患者情绪快崩的时候，让对方先稳下来。

这里面最难的部分，从来都不是背书，也不是复述指南，而是处理不确定性。

这次研究本身，也是在提醒同一件事。论文特别指出，过去很多医疗AI评估太依赖多选题、执照考试式题库，容易把模型包装成“会考试”，却掩盖了它在真实临床推理中的关键缺口；而这次用的是按临床流程逐步展开的标准化病例，恰恰更能暴露它在早期推理环节的不足。

换句话说，今天很多大模型的强，首先是一种“完整信息条件下的强”。

可临床真正贵的地方，偏偏是一种“不完整信息条件下的稳”。

这差别看起来不大，实际上差着一整层楼。

因为医疗最怕的，不是最后一题答错。

医疗更怕的是，一开始就把题目理解错了。

你把怀疑方向弄偏了，后面检查再多、报告再厚、算法再华丽，都可能是在一条偏了的路上越走越远。

为什么临床上总强调鉴别诊断？

不是因为医生喜欢故弄玄虚，而是因为这一步决定了后面所有动作的效率、成本和风险边界。该先排心梗还是先考虑焦虑，该先怀疑胰腺炎还是先朝胃病方向走，这些都不是“最后报一个答案”能替代的。

所以，真正该问的不是：AI聪不聪明？

而是：它的聪明，落在了临床链条的哪一段？

这个问题一问，很多热闹就会安静不少。

客观说，今天的大模型已经非常适合进入医疗。它能做文书，能做信息检索，能做病历整理，能做患者教育，能做流程辅助，能在很多重复性、消耗性的工作上替医生分担负担。这些价值都是真的，而且会越来越大。与这篇研究同期的评论文章也承认，最新一代推理模型已经展现出更强的逻辑表面和流程能力，只是距离真正安全、可靠地支撑复杂临床诊断，还有关键差距。

但进入医疗，不等于替代临床。

工具进来了，不代表基石被搬走了。

这也是我对当下不少行业叙事最大的警惕。

现在医疗AI行业里，最流行的一种话术，就是把“看起来更像医生”包装成“已经接近医生”。会多轮追问，像医生；会读体检报告，像医生；能连穿戴设备，像医生；会把建议说得头头是道，更像医生。

可医疗不是演示场，不是谁更像，谁就能上。

最后拼的，不是你说话多像，而是你能不能在高风险场景里长期稳定地靠谱。

会聊天，不等于会问诊。

会总结，不等于会推理。

会生成答案，不等于能承担后果。

这句话，放在今天，尤其该多说几遍。

更值得玩味的是，去年 JAMA Network Open 还有一项随机临床试验发现，让医生在诊断推理中使用商用大模型，并没有显著优于使用传统资源的医生组。也就是说，至少到目前为止，大模型并没有自动把临床推理这件事抬到一个新台阶。

所以，如果非要给这轮通用大模型在医疗里的位置下个定义，我更愿意这么说：

它已经是一个重要工具。

但它还不是一个可以放心托付的临床替身。

它能做副手，能做入口，能做索引，能做助手，能做增效器。

它会越来越重要，这一点不用怀疑。

但至少在今天，真正撑住临床的那根梁，仍然不是“知道答案”，而是在答案还没有出现的时候，先知道该往哪里问。

说到底，AI越强，反而越能提醒我们一件事：

医疗从来不是一个只靠正确答案就能运转的行业。

它首先是一个在迷雾里不断逼近真相的行业。

而通用大模型现在最弱的，恰恰就是这部分。

偏偏这部分，又正是临床最值钱的部分。