乡村基(坐便器·蹲便器)随笔集529当AI在复杂临床推理里追平甚至超过医生,真正被改写的不是“岗位”,而是“诊疗边界”



人工智能模型在复杂的临床推理任务中与医生匹配
导语
这件事之所以震撼,不只是因为“AI赢了医生”,而是因为它赢在了最难的一块:复杂临床推理。最新发表在 Science 的研究显示,研究团队把一个推理型大模型放进多组临床评估中,与数百名医生同台比较;结果是,随着信息逐步补全,医生、GPT-4o 和 o1 的表现都在上升,但 o1 在总体诊断与管理推理上超过了人类基线。相关报道还强调,这些任务覆盖了真实急诊数据和多项标准化临床场景。
时间线
这条线其实不是突然出现的。更早之前,NEJM AI 和 Nature 上的研究已经分别展示过:GPT-4 在复杂病例诊断上具备相当强的表现,AMIE 这类面向临床对话优化的系统,也能在结构化对话中帮助推进鉴别诊断。换句话说,AI 不是最近才“会看病”,而是先在病例推理、对话诊断、文本管理建议这些环节里,一步一步逼近了医生的工作中枢。
到了这一次,变化更明显。Science 的论文摘要和后续报道都指出,研究者比较的是大模型与医生在“ reasoning tasks of physicians ”上的能力,而不是单纯背知识点;模型不仅在诊断上表现强,在管理建议上也很突出,某些任务里甚至明显领先医生常用工具。对医学界来说,这意味着 AI 的角色已经从“辅助查资料”升级到了“参与推理链条”。
但最值得冷静看的,是边界。Science Media Centre 的专家解读明确提醒:这类结果说明模型在“受控、文本化、结构化”的推理任务中很强,但并不等于它已经能处理真实临床现场里的非语言信息,比如表情、痛苦程度、体征变化和病人的社会背景;研究报道也承认,实验并没有完整检验它在真实世界中的交互表现。
国际视角
放到国际医疗 AI 的竞争图景里看,这类研究有一个非常清晰的信号:全球正在从“AI 能不能诊断”转向“AI 在什么任务上可以稳定地帮助医生”。2025 年的 Nature 研究已经提出,经过对话优化的诊断系统有潜力提升临床准确性,但仍需要真实世界验证;2026 年的新研究则把这个问题推进到更现实的一步——不是问 AI 能不能答题,而是问它能不能在复杂病例里和医生一起做判断。
从国际经验看,最可能先落地的,不是“AI 替代医生”,而是“AI 进入医生的工作流”。这也是为什么不少研究者都在强调 clinical testing、prospective trials 和 safety guardrails:因为一旦模型进入急诊分诊、初步鉴别诊断和治疗建议环节,速度、可解释性、错误责任和过度依赖,都会从学术问题变成真实的医疗治理问题。这个判断不是夸张,而是从这些研究本身的限制条件里自然推出来的。
结尾互动
真正被挑战的,已经不是“AI 会不会看病”,而是医疗体系过去默认成立的一件事:只有医生才能独立完成复杂推理。现在看来,AI 至少已经能在相当一部分文本化临床任务里做到“与医生匹配”,甚至更进一步;接下来要回答的,是我们到底愿不愿意把它放进真实诊疗链条,并为它的错误、偏差和责任重新设计规则。你更担心的是 AI 误判,还是医生在 AI 面前变得过度依赖?

夜雨聆风