医学AI诊断推理发表Science正刊|推理型大模型接近医生水平,临床落地仍需真实世界验证

Science｜推理大模型诊断推理评估与挑战

蓝字关注（联系方式见文末）

在《Science》期刊上发表的文章《AI can reason like a physician—what comes next?》中，作者围绕推理型大语言模型在医学诊断中的评估证据与临床转化边界进行了评论。文章重点解读Brodeur等人的研究：OpenAI o1系列模型在文本病例、临床病理讨论病例及真实急诊病例的诊断推理任务中，整体优于既往非推理模型，并在部分场景达到或超过医生基线。作者同时强调，这类结果仍主要来自受控文本任务，不能直接等同于安全临床应用；未来需在多模态真实场景、医生协作模式、前瞻性研究以及公平性、安全性和持续监管框架下验证其实际价值。

引言

近年来，大型语言模型（LLMs）在医学知识问答、执业考试和结构化临床测评中表现突出，使其被视为缓解医疗人力不足、辅助临床决策和医学教育的重要技术路径。尤其是具备逐步推理能力的reasoning models（推理模型），不再只是生成相似文本，而是尝试以更接近临床思维的方式，对症状、检查结果和鉴别诊断进行层层展开。这一变化使医学 AI 的评价重点从“是否掌握医学知识”，进一步转向“是否能够在真实诊疗任务中进行可靠推理”。

然而，通过医学考试并不等同于成为医生。既往许多评估依赖标准化题目或合成病例，能够衡量模型对知识点的覆盖，却难以充分反映临床诊断中的不确定性、信息不完整、时间压力以及不同诊疗节点的判断需求。真实医疗场景还要求模型输出可被医生理解、审查和追责；仅凭基准测试上的高准确率，仍不足以证明其适合进入临床工作流。因此，医学界亟需更贴近临床实践的评估框架，将 AI 与医生在同一任务、同一信息条件下进行比较，并进一步考察“AI 单独使用”“医生单独判断”以及“医生结合 AI”之间的实际差异。

在这一背景下，Brodeur 等人在本期 Science 发表的研究聚焦一个关键问题：当前推理型大模型能否在基于文本的真实诊断任务中达到或接近医生级临床推理？研究围绕临床病例 vignette 和真实急诊病例构建评估，尝试把模型表现放到医生基线之下进行检验。该工作的重要性不仅在于衡量单个模型的诊断能力，更在于提示医学 AI 评价正在从“知识平台”走向“专科任务能力”验证；下一步的核心挑战，则是如何在前瞻性、受监督、可追踪的临床环境中，评估这些工具能否真正提升医疗质量，同时满足安全性、公平性和责任边界的要求。

模型介绍

一、模型整体定位

本文讨论的核心对象是OpenAI o1-preview / o1这类推理型大语言模型。与传统问答式LLM相比，推理模型被设计为在给出答案前进行更接近分步骤临床思维的内部推理，因此适合评估其在文本化诊断场景中的临床诊断推理能力。论文关注的不是一般医学知识问答，而是模型能否在真实或近真实病例中达到医生水平的鉴别诊断。

二、输入数据与任务目标

该研究中的输入主要是文本形式的临床病例信息，包括已发表的临床病理讨论病例、临床病例小品，以及来自急诊科的真实病例描述。模型需要基于病史、症状、检查线索和临床上下文生成诊断判断，并在部分实验中与医生或既往模型进行同任务比较。输出重点不是单纯回答选择题，而是最可能诊断及其接近程度，用于衡量模型在真实诊断推理任务中的表现。

三、模型架构与关键模块

原文并未披露o1的完整内部架构，因此不应将其解读为一个可复现的开放模型。可以确定的是，它属于在大规模数据上训练的大语言模型，并在能力层面强化了逐步推理：模型不是仅根据表面模式直接给出答案，而是能够围绕病例线索、候选诊断和不确定性进行结构化推断。该能力使其更接近临床医生处理复杂病例时的思维流程，但研究仍限定在文本输入场景，尚未纳入体格检查中的视觉、听觉等多模态信息。

四、训练与验证方式

文章重点描述的是评估设计而非模型训练细节。Brodeur等人设置了五个实验，将o1-preview在临床病例小品上的诊断表现与医生及既往非推理型模型进行比较；另一个实验则在76例真实急诊病例中，比较o1、既往模型和医生在三个诊断触点上的表现。评估指标强调诊断是否“完全一致或非常接近”，并引入盲法评阅，以判断AI输出在形式和质量上是否可与人类医生区分。

五、核心能力总结

该研究显示，推理型LLM在特定文本诊断任务中已能达到甚至超过部分医生和既往GPT-4等非推理模型的表现，提示医学AI正从知识检索型工具迈向专科任务推理。但其价值更应理解为建立了面向真实临床任务的评估基准，而非证明模型可直接替代医生。后续仍需在多模态输入、前瞻性临床环境、医生-AI协作模式以及安全性、公平性和可解释性方面进行系统验证。

研究结果

一、推理模型在标准化临床病例中显著超过既往非推理模型

数据：Brodeur 等人在 Science 本期论文中，将 OpenAI 首个推理模型 o1-preview 置于一系列文本诊断任务中，与既往非推理型大语言模型及医生表现进行比较。研究共设计了五项基于临床病例摘要的实验，另有第六项实验使用真实急诊病例，在三个诊断触点上比较模型、既往模型与医生的表现。

解读：这一设计的关键不在于再次证明模型能够回答医学考试题，而是将评估对象推进到更接近临床诊断推理的场景：模型需要从病例叙述中提取线索、建立鉴别诊断，并给出最可能诊断。与传统“知识问答”相比，这类任务更能反映医生在真实工作中面对不完整信息时的推理过程。

关键发现：在已发表的临床病理讨论病例中，既往代表性非推理模型 GPT-4 达到“完全正确或非常接近正确”诊断的比例为 72.9%；而 o1-preview 的对应比例提升至 88.6%。这说明，显式逐步推理能力可能为复杂病例诊断带来实质增益，而不仅是模型规模或训练语料扩展带来的边际改善。

二、真实急诊病例中，o1 在初始分诊阶段达到或超过专家医生表现

数据：在第六项实验中，研究者使用76 例真实急诊科病例，比较 o1、既往模型以及医生在不同诊断时间点的表现。结果显示，在初始分诊阶段，o1 达到“完全正确或非常接近正确”诊断的比例为 67.1%，高于两名专家级主治医生的 55.3% 和 50.0%。

解读：急诊初始分诊往往信息有限，且要求在短时间内形成方向性判断，因此是检验临床推理能力的高难度场景。o1 在这一节点取得较高准确率，提示推理型 LLM 已不再只是医学知识库式工具，而可能在早期鉴别诊断、风险提示和候选诊断排序中提供有价值的辅助。

谨慎评价：需要强调的是，这里的任务仍然主要基于文本信息，并不等同于完整临床诊疗。真实诊断还依赖体格检查、影像、检验动态变化、医患沟通以及对病情演变的连续观察。因此，模型在文本病例上的优势应被理解为“特定任务中的诊断推理能力提升”，而不是可以直接外推为独立临床执业能力。

三、盲法评审显示 AI 输出已接近医生书写风格，但这也提高了评估门槛

数据：在真实急诊病例评估中，盲法评审者无法可靠区分诊断输出来自 AI 还是人类医生。这一结果表明，推理模型不仅在诊断正确性上接近医生，在语言组织、推理表达和临床叙述形式上也已具备较强拟人化特征。

解读：这类表现一方面提高了模型作为临床决策支持工具的可用性，因为医生更容易理解结构化、接近临床语境的推理文本；另一方面，也意味着仅凭输出形式判断可靠性已经不够。未来评估必须采用清晰的任务定义、透明的人类基准和独立盲法评价，而不能只依赖模型回答“看起来是否专业”。

四、研究建立了更接近临床真实任务的评价基准

数据：文章指出，Brodeur 等人的贡献在于将 AI 评价从医学考试、结构化题库和合成任务，推进到与医生表现直接对照的真实诊断任务。尤其是急诊病例实验，将模型与医生置于同一信息条件下比较，使结果更具临床解释价值。

解读：这一评价范式的重要性在于，它回答的不是“模型是否知道医学知识”，而是“模型在给定临床信息时，是否能形成与医生相当的诊断判断”。这为未来医学 AI 评估提供了更严格的基线：不仅要报告模型准确率，还要同时给出医生对照、任务边界、评审方式和临床场景。

进一步含义：随着模型从静态问答工具发展为能够读取病历、监听临床对话、联动预测模型的 AI 智能体，单一基准测试的意义将更加有限。临床 AI 的关键终点应逐步转向真实世界有效性，即是否改善患者结局、提升效率、降低负担，并在不同人群中保持公平和安全。

五、结果支持“协作评估”而非简单替代叙事

数据：文章强调，尽管 o1-preview/o1 在多个诊断任务中达到或超过医生水平，当前更合理的临床路径仍不是“AI 替代医生”，而是比较AI 单独使用、医生单独判断、医生联合 AI三种模式。既往研究中，使用 GPT-4 辅助的医生与 GPT-4 单独工作相比，并未显示显著性能差异，但两者均优于仅使用常规资源的医生。

解读：这提示临床部署不能默认“医生加 AI”一定优于“AI 单独”或“医生单独”。不同任务可能需要不同配置：某些边界清晰、输入标准化的任务，AI 独立运行可能效率更高；而涉及复杂价值判断、风险沟通、责任承担和患者偏好的场景，医生监督仍不可替代。

结论性提示：Brodeur 等人的研究表明，推理型大语言模型已经从医学知识平台迈向专科任务表现阶段。下一步更关键的是在受监督临床环境中开展前瞻性、多中心和公平性评估，并扩展到影像、语音、体征、检验和病历等多模态输入。只有当模型在真实工作流中证明其有效性、安全性、可解释性和可追责性时，才可能真正成为可靠的临床基础设施。

结论

在研究定位层面：这篇 Science 观点文章并不是宣称大语言模型已经可以独立承担临床诊断，而是借 Brodeur 等人的研究指出：以 o1-preview 为代表的推理型大模型，已经在若干文本化临床诊断任务中达到甚至超过医生参照水平。这一变化意味着，医学 AI 的评价重点正在从“是否掌握医学知识”转向“能否在真实或接近真实的临床情境中进行可验证的诊断推理”。

在方法学意义层面：文章特别强调，人机比较必须建立在清晰任务定义和透明医生基线之上。无论是临床病例小样本、急诊真实病例，还是未来的多模态诊断场景，仅报告模型准确率都不足以支持临床部署；更关键的是比较 AI 单独使用、医生单独判断、医生联合 AI 三种模式，明确 AI 在何种任务边界内真正改善决策质量。

在临床转化层面：作者对“替代医生”的叙事保持谨慎。即便推理模型在特定文本任务中表现突出，临床实践仍需要医生承担情境判断、责任归属、患者沟通和安全监督。未来更重要的方向，是在前瞻性、受监管、真实世界环境中验证这些模型是否能够带来更公平、更安全、更具成本效益的医疗结果，而不是停留在基准测试上的性能领先。

总体而言：这篇文章的核心价值在于为医学大模型设定了更高的证据门槛：从考试成绩、结构化问答和静态评测，走向与医生并行的真实临床任务验证。对于 AI 医疗领域而言，推理能力的提升只是起点，能否被安全、透明、持续监测地嵌入临床流程，才是下一阶段必须回答的问题。

关于葩米学术

葩米AI—专注于医疗大模型科研、影像组学与人工智能算法的科研探索者。我们面向医疗场景致力于AI科研算法服务，专注于将前沿人工智能技术融入医学研究和临床应用，产品包括面向医生的影像组学科研平台，医疗多模态大数据中心以及医疗AI大模型研发平台。联系我们，开启您的医疗AI科研之旅，一起成为医疗AI的探路者。

科研合作请联系

微信号：radiomier

邮箱：pami2018@163.com