Nat Med|RCT|AI读胸片到底有没有用?这项9.7万张图像的RCT给了出乎意料的答案

当国内各家医院还在忙着招标采购AI胸片系统的时候，一篇发在Nature Medicine上的大规模随机对照试验，给所有人泼了一盆冷水。

AI胸片工作列表优先排序——这项被寄予厚望的功能，在9.7万张胸片的真实世界测试里，没能缩短哪怕一天的肺癌诊断时间。

更令人意外的是：这篇论文的结果是「阴性」的——AI没有显著效果，但Nature Medicine照样发表了。这正是我们需要的科研态度。

为什么这篇论文值得关注

过去五年，AI辅助读胸片的商用产品如雨后春笋。厂商宣传的核心价值主张有两个： • 提高诊断准确率（少漏诊） • 优先处理高危病例（缩短诊断时间）第一个主张已有较多验证，但第二个——「优先排序让癌症患者更早得到CT和诊断」——一直缺乏高质量RCT证据。英国NHS是最早大规模部署胸片AI的卫生系统之一。这套系统的实际效果，直接影响全球无数医院的采购决策。

2026年3月，Nature Medicine发表了来自英国多中心的大型随机对照试验：

AI-based chest X-ray prioritization in the lung cancer diagnostic pathway: the LungIMPACT randomized controlled trial 基于AI的胸片优先级排序对肺癌诊断路径的影响：LungIMPACT随机对照试验

在NHS基层医疗的真实场景中，AI胸片工作列表优先排序，未能显著缩短患者从胸片到CT、从胸片到肺癌诊断的时间。

研究方法

项目	内容
研究类型	前瞻性、多中心、随机对照试验（RCT）
注册号	ISRCTN78987039
研究时间	2023年7月 — 2024年12月（随访至2025年6月）
样本量	97,731张胸片，86,945名患者
AI模型	qXR v4.0（Qure.ai，深度学习，检测29种异常）
干预措施	AI优先排序「开启」——异常胸片在工作列表置顶
对照措施	AI优先排序「关闭」——常规放射科报告流程
主要终点	① 胸片至CT的时间 ② 胸片至肺癌诊断的时间
研究中心	5家NHS信托医院（莱斯特、诺丁汉、伦敦、伯明翰等）

随机化设计

随机化：按日期+中心区组随机（1:1）胸片数：45,987张（49.3%）AI实时分析胸片，异常病例在工作列表置顶放射科医师看到优先处理的提示

随机化：按日期+中心区组随机（1:1）胸片数：47,339张（50.7%）AI同样分析胸片，但优先排序功能关闭放射科医师按常规顺序读片

关键设计要点：非知情同意设计（患者可选择退出），两组均进行了AI分析——这意味着研究衡量的是「优先排序」的效果，而非「AI有无」的效果。

AI优先排序的逻辑与现实

这套逻辑听起来无懈可击： • 放射科医师每天读几十甚至上百张胸片，高危病例容易被「排队」耽误 • 如果AI能把最可疑的胸片自动置顶，医师先读这些，就能更快触发CT检查 • 更早的CT = 更早的诊断 = 更早的治疗 —— 肺癌预后大幅改善理论很美好。但LungIMPACT试验把这套逻辑放在了真实世界的NHS路径里检验，结果……真相：AI读了胸片、给了提示，但整个临床路径的「瓶颈」并不在「读片顺序」这个地方。

核心发现

发现一：主要终点——毫无悬念的「阴性」结果

这是本研究最核心、也最令人意外的发现。研究者预设了两个主要终点，结果双双「阴性」：

终点指标	AI ON	AI OFF	P值
中位「胸片→CT」时间	53天（IQR 17–145）	53天（IQR 19–141）	0.31（无显著差异）
几何均值比（95%CI）	0.97（0.93–1.02）	参照
中位「胸片→诊断」时间	44天（IQR 26–90）	46天（IQR 24–105）	0.84（无显著差异）
几何均值比（95%CI）	0.98（0.83–1.16）	参照

也就是说：统计上，AI优先排序组和常规处理组，在「多久做CT」和「多久确诊肺癌」这两个核心指标上，完全没有显著差异。

发现二：为什么AI「失效」了？关键的次要分析

研究者做了一系列深入分析，试图理解为什么AI优先排序没有产生预期效果。答案藏在「医师行为」里：

场景	中位CT时间	临床含义
放射科+AI均报「正常」	72天	最长——两人都漏了，警觉性低
放射科+AI均报「异常」	8天	最短——两人一致，快速行动 ✓
放射科正常 / AI异常	106天	AI发现了，但人被忽视了——耗时最长 ✗
放射科异常 / AI正常	50天	人发现了，AI没提示——中等耗时

这个表格是整个论文最值得细读的部分。它告诉我们：

• 当人和AI一致时（都报异常），患者很快得到CT——这部分没问题 • 但当AI报「异常」而人报「正常」时，人类医师倾向于忽视AI的提示——平均要等106天，比标准流程慢了3倍多！ • 这就是「优先排序」失效的根本原因：AI给出了提示，但医师的工作列表再怎么排序，如果医师不信任AI的判断，依然不会优先处理。

发现三：AI与放射科医师的「不一致率」高达30.3%

尽管主要终点是阴性的，但这篇论文贡献了一个极具价值的发现：AI与放射科医师判断不一致的比率高达30.3%（28,261/93,326）。在经过专家复核的26,505例不一致病例中： • 真阳性：5.5% —— AI正确发现了人被漏诊的异常 • 假阳性：11.6% —— AI误报，给人增加了不必要的工作量 • 假阴性：2.3% —— AI漏掉了人发现的异常 • 真阴性：81.2% —— 两人判断一致，没问题最关键的是：在「放射科报正常、AI报异常」的病例中，最终有53例被确诊为肺癌——这意味着AI发现了53例放射科医师漏诊的肺癌。这个结论值得每个放射科医师深思。

核心数据总览

指标	结果	临床意义
胸片总数	97,731张	迄今最大规模胸片AI RCT
肺癌检出率	0.6%（558/86,945）	与流行病学数据吻合
主要终点（CT时间）	53天 vs 53天（P=0.31）	阴性结果——优先排序无效
主要终点（诊断时间）	44天 vs 46天（P=0.84）	阴性结果——优先排序无效
AI-人不一致率	30.3%（2.8万张）	近1/3胸片AI与人判断不同
AI发现但人漏诊的癌症	53例	AI的价值在这里——但不能靠「排序」实现 ✓

局限性讨论

局限性一：衡量的是「排序」而非「AI有无」

由于采用了非知情同意设计，研究无法让患者随机分到「AI组」和「无AI组」——那样需要每位患者签署知情同意，会严重干扰日常临床路径。于是研究设计了一个巧妙但有限制的方案：按「日期」随机——某些天AI优先排序「开启」，某些天「关闭」。但AI分析本身在两组都运行了。这意味着：这个试验告诉我们「优先排序」没用，但不能直接推广到「AI读片」没用。这是两个不同层次的问题。

局限性二：单款AI产品，结论能否推广？

本研究只使用了Qure.ai的qXR v4.0这一款产品。其他厂商（如Google的CXR Foundation、Infervision、Airdoc等）的算法表现可能不同，优先排序功能的设计也有差异。不过，qXR是获得CE Class IIb认证的商业产品，在英国NHS已实际部署——选择它有很强的现实代表性。

局限性三：主要终点被「稀释」了

研究界定「胸片→CT时间」时，把患者在此期间做的所有CT都算进去了——但很多CT其实和肺癌无关（例如骨折复查、腹部检查等）。研究者也意识到了这个问题，做了敏感性分析：只保留「胸片14天内的CT」，此时两组中位时间都是8天（P=0.96）——依然没有差异。

局限性四：放射科医师行为受干扰

由于AI在两组都运行，部分放射科医师可能在某些日子「偷偷看」AI的结果，即使那天排序功能是关闭的。这种跨越组的「污染」会稀释真实效应量。

科研王师兄的解读

为什么阴性结果的RCT能发Nature Medicine？

规模够大：9.7万张胸片、5家中心、前瞻性RCT设计——这个样本量在医疗AI领域是天花板级别的。大数据量的阴性结果，比小样本量的阳性结果更有说服力。

问题够重要：NICE（英国国家卫生与临床优化研究所）在制定胸片AI评估指南时，唯一引用的RCT就是这项。说明指南制定者渴求这类证据。

诚实够勇敢：很多企业资助的AI研究只发表阳性结果。这篇论文没有隐藏「无效」的结论，反而因此被顶刊接收——这就是科研诚信的力量。

值得深入思考的三个洞见

洞见一：「优先排序」是个伪需求吗？不一定。本研究暴露的问题可能是「人机协作界面」设计不当，而非「优先排序」本身无用。如果AI提示能以更好的方式呈现（例如直接在胸片上标注可疑区域，而非仅仅在工作列表置顶），医师可能会更信任并响应AI的判断。

洞见二：30.3%的不一致率，是危机也是机会。一半以上的不一致，经过专家复核后被判定为「AI正确」。这意味着AI有潜力作为「第二读片人」，捕捉人类疲劳或分心时的漏诊。但目前的部署方式（工作列表排序）显然没有用好这个潜力。

洞见三：阴性结果也是「前浪」。这篇论文实际上为后来的研究者扫清了方向：不要再拿资源去验证「优先排序」这个功能了，去验证更有临床意义的东西——例如AI提示直接嵌入报告、AI-医师联合决策对诊断准确率的提升等。

启示速查表

启示方向	具体建议
选题	阴性结果也是好选题——只要你的问题重要、方法严谨、样本量足够
设计试验	主要终点要选「临床硬终点」（如诊断时间、生存率），而非 surrogate（如AUC、灵敏度）
做人机协作	别再研究「AI排序」了——研究「AI如何更好地呈现提示」才有价值
发表策略	阴性结果发顶刊不是梦——关键是研究问题本身的重要性
选模型	不要只测一款AI产品——你的结论会被质疑「是否只适用于这款模型」
做转化	优先排序功能 → 直接嵌入报告的建议功能 —— 这才是NHS真正需要的产品形态

总结

AI读胸片的价值，不在于「谁先读」，而在于「读的时候有没有看到该看到的」
LungIMPACT告诉我们：再好的AI提示，如果医师不信任、不响应，也只是一行被忽略的工作列表置顶。

衷心感谢、致敬原作者团队的贡献

如果你也想，系统掌握AI辅助科研的完整工作流，在高质量期刊上发表你的第一篇或下一篇SCI，加入使用AI科研工作流，欢迎扫描下方二维码咨询「科研王师兄」，开启你的光速科研之旅。