乡村基(坐便器·蹲便器)随笔集529当AI在复杂临床推理里追平甚至超过医生,真正被改写的不是“岗位”,而是“诊疗边界”-夜雨聆风

乡村基(坐便器·蹲便器)随笔集529当AI在复杂临床推理里追平甚至超过医生,真正被改写的不是“岗位”,而是“诊疗边界”

人的一生会制造多少粪便？乡村基®告诉你…

全球视野/中国立场/图文并茂/AI筛选

人工智能模型在复杂的临床推理任务中与医生匹配

导语

这件事之所以震撼，不只是因为“AI赢了医生”，而是因为它赢在了最难的一块：复杂临床推理。最新发表在 Science 的研究显示，研究团队把一个推理型大模型放进多组临床评估中，与数百名医生同台比较；结果是，随着信息逐步补全，医生、GPT-4o 和 o1 的表现都在上升，但 o1 在总体诊断与管理推理上超过了人类基线。相关报道还强调，这些任务覆盖了真实急诊数据和多项标准化临床场景。

时间线

这条线其实不是突然出现的。更早之前，NEJM AI 和 Nature 上的研究已经分别展示过：GPT-4 在复杂病例诊断上具备相当强的表现，AMIE 这类面向临床对话优化的系统，也能在结构化对话中帮助推进鉴别诊断。换句话说，AI 不是最近才“会看病”，而是先在病例推理、对话诊断、文本管理建议这些环节里，一步一步逼近了医生的工作中枢。

到了这一次，变化更明显。Science 的论文摘要和后续报道都指出，研究者比较的是大模型与医生在“ reasoning tasks of physicians ”上的能力，而不是单纯背知识点；模型不仅在诊断上表现强，在管理建议上也很突出，某些任务里甚至明显领先医生常用工具。对医学界来说，这意味着 AI 的角色已经从“辅助查资料”升级到了“参与推理链条”。

但最值得冷静看的，是边界。Science Media Centre 的专家解读明确提醒：这类结果说明模型在“受控、文本化、结构化”的推理任务中很强，但并不等于它已经能处理真实临床现场里的非语言信息，比如表情、痛苦程度、体征变化和病人的社会背景；研究报道也承认，实验并没有完整检验它在真实世界中的交互表现。

国际视角

放到国际医疗 AI 的竞争图景里看，这类研究有一个非常清晰的信号：全球正在从“AI 能不能诊断”转向“AI 在什么任务上可以稳定地帮助医生”。2025 年的 Nature 研究已经提出，经过对话优化的诊断系统有潜力提升临床准确性，但仍需要真实世界验证；2026 年的新研究则把这个问题推进到更现实的一步——不是问 AI 能不能答题，而是问它能不能在复杂病例里和医生一起做判断。

从国际经验看，最可能先落地的，不是“AI 替代医生”，而是“AI 进入医生的工作流”。这也是为什么不少研究者都在强调 clinical testing、prospective trials 和 safety guardrails：因为一旦模型进入急诊分诊、初步鉴别诊断和治疗建议环节，速度、可解释性、错误责任和过度依赖，都会从学术问题变成真实的医疗治理问题。这个判断不是夸张，而是从这些研究本身的限制条件里自然推出来的。

结尾互动

真正被挑战的，已经不是“AI 会不会看病”，而是医疗体系过去默认成立的一件事：只有医生才能独立完成复杂推理。现在看来，AI 至少已经能在相当一部分文本化临床任务里做到“与医生匹配”，甚至更进一步；接下来要回答的，是我们到底愿不愿意把它放进真实诊疗链条，并为它的错误、偏差和责任重新设计规则。你更担心的是 AI 误判，还是医生在 AI 面前变得过度依赖？

导语

时间线

国际视角

结尾互动

人的一生会制造多少粪便？11.757吨！