Nat Med | 医学AI:请拿出医学价值的证据-夜雨聆风

Nat Med | 医学AI:请拿出医学价值的证据

2026年4月21日，世界著名科学期刊Nature Medicine发表了一篇题为“Show us the evidence for the value of medical AI”的编者按文章，呼吁“AI正在改善医疗的宣称，必须基于切实可靠的证据”。

文章认为，当前快速发展的医学AI正面临着“采用速度远超价值验证速度”的系统性风险，建议医学AI领域构建一个类似药物研发I-IV期临床试验的证据等级系统，将医学AI的研发重心从“模型能否做”彻底转向”临床上是否值得做“的模式。以下是该文全文的中文翻译。

医学AI：

请拿出医学价值的证据

Show Us The Evidence For The Value Of Medical AI

AI正在改善医疗的宣称，必须基于切实可靠的证据

由人工智能（AI）驱动的工具正在快速进入医疗体系的各个层面。预测模型、决策支持工具和生成式模型已进入临床实践，大语言模型也越来越多地被公众用于获取医疗信息和建议。然而，AI工具是否为患者、医疗服务提供者和医疗系统创造了真正的医学价值，有关证据却寥寥无几。

尽管如此，宣称它们临床有效的宣传和产品介绍却越来越常见。但是，在何种类型和等级的证据下此类宣称才能被视作真实可信，目前尚无明确共识。其结果不仅造成科学上的不确定性，而且常常导致过早的临床采纳和应用。如果使AI能真正意义上改善医疗照护，就必须开始统一、系统地将有关效用的宣称与“相称”或恰当的证据挂钩。然而，在如何评估医学AI技术、以何种指标来衡量、以什么为参照基准的问题上，目前尚缺乏完整的工作框架。

迄今为止，医学AI技术的评估主要是基于统计学指标，如区分度、校准度、灵敏度和特异度，这些指标衡量的是工具的计算能力和技术性能。它们毫无疑问是重要的，但本身并不能反映真正的临床价值。一个工具可能在过去数据的验证中表现优异，但如果使用时机不当、结果难以理解、无明确临床用点或干扰临床工作流程，将仍然无法真正改善医疗服务的效率。因此，在缺乏衡量临床效用具体指标的情况下投入、引进此类工具，对于医疗系统与使用者来说，最好也不过是不确定的医疗价值，但其潜在的意外不良风险可能是严重的。

在医学领域，宣称临床有用，历来要求的都不仅仅是技术性能的展示。例如，在临床价值被认可之前，药物开发通常需要一步一步地展示越来越有说服力的证据，并由政府机构的监管机制来确定证据何时足以支持批准、推荐和纳入医保。由于技术变革速度快、应用场景复杂多样以及缺乏合理的产生证据的激励机制等原因，医学AI领域尚未形成类似的行业规范。尽管人们一直在辩论和建构监管框架，但它们仍然不够完善。发表的研究强调的往往是技术的有效性而非临床的实用性。因此，在可操作性、可行性、安全性和有效性等核心问题得到充分解答之前，人们常常就做出了投入、引进和采用的决定。在缺乏证据标准共识的情况下，这些决定可能更多是基于尽早引入的愿景，而非统一的评判标准。在没有明确的规则和强制要求提供可靠相关证据的情况下，声称临床有用的门槛将仍然过于随意。

未来，医学AI领域必须建立一个统一的评估框架，将关于AI工具临床价值的结论与支持该结论所需的证据类型严格挂钩。例如，关于AI工具性能的结论，应要求在有关环境和人群中进行严格的可重复性验证；关于AI工具临床可操作性的结论，应要求结果的可解释性以及可改善决策的证据；关于AI工具可改善工作流程的声称，应要求实施性研究的证据，证明有关工具可以在不造成工作延迟、无额外负担以及无意外风险的情况下整合到现有临床工作流程中；关于AI工具可改善健康结局或临床效果的结论，则应要求更强有力的前瞻性研究证据，并包括在合适的情况下与标准治疗效果进行比较。此外，由于模型的性能可能随时间推移而发生变化，部署后监测应被视为制度性要求，而非后期可有可无的补充。

当然，即使有了这样一个框架，也并不意味着每个AI工具在被采纳之前都必须像对其他医疗干预措施通常要求的那样，经历所有每一个阶段的测试直至最终的随机对照试验。在许多情况下，由于高昂的成本、底层模型的快速更新，以及开展此类研究的复杂性和时间长度，这将是不切实际的。但是，将信任仅建立在回顾性数据验证的基础上，在科学上是不够严格的。因此，目标应该是对不同的宣称要求“相称”的证据：即宣称或建议越强烈，所需的证据等级也应越高。

这一原则对所有利益相关方都具有实际意义。例如，监管机构应明确界定哪些类别的医学AI工具需要前瞻性研究展示其临床效果，哪些可以在有限制的应用条件下进入临床实践。医疗机构和管理部门应区分实验性使用、常规运营使用和可获益的证据，而不是将这三者混为一谈。在这些不同场景中，证据标准应做到透明且具有针对性，并随着工具的演进而保留修订的可能性。

科学期刊作为研究生态系统的一部分，在界定可接受的证据类型方面拥有独特的作用。在新兴领域中，已发表的文献常常被视为确立某一研究或实践领域何为有效证据的参考依据。通过执行“相称”的证据标准，期刊可以确保发表的研究反映的是真正的临床价值，而非仅仅是技术承诺。《自然·医学》杂志将继续扮演这一重要角色。

未来的进展不仅取决于更好的模型和新的应用，还取决于如何地定义、评估和宣传医学AI的临床价值。如果没有推荐与证据之间的严格挂钩，医学AI就有可能在其实际临床价值未被充分证实之前就被过早地采用。

译者 | 唐金陵郑玲玲

唐金陵，深圳理工大学计算机科学与人工智能学院讲席教授，循证医学与人工智能中心主任；郑玲玲，深圳理工大学在读博士生。