Nat Med|RCT|AI读胸片到底有没有用?这项9.7万张图像的RCT给了出乎意料的答案当国内各家医院还在忙着招标采购AI胸片系统的时候,一篇发在Nature Medicine上的大规模随机对照试验,给所有人泼了一盆冷水。AI胸片工作列表优先排序——这项被寄予厚望的功能,在9.7万张胸片的真实世界测试里,没能缩短哪怕一天的肺癌诊断时间。更令人意外的是:这篇论文的结果是「阴性」的——AI没有显著效果,但Nature Medicine照样发表了。这正是我们需要的科研态度。为什么这篇论文值得关注过去五年,AI辅助读胸片的商用产品如雨后春笋。厂商宣传的核心价值主张有两个: • 提高诊断准确率(少漏诊) • 优先处理高危病例(缩短诊断时间)第一个主张已有较多验证,但第二个——「优先排序让癌症患者更早得到CT和诊断」——一直缺乏高质量RCT证据。英国NHS是最早大规模部署胸片AI的卫生系统之一。这套系统的实际效果,直接影响全球无数医院的采购决策。2026年3月,Nature Medicine发表了来自英国多中心的大型随机对照试验:AI-based chest X-ray prioritization in the lung cancer diagnostic pathway: the LungIMPACT randomized controlled trial 基于AI的胸片优先级排序对肺癌诊断路径的影响:LungIMPACT随机对照试验在NHS基层医疗的真实场景中,AI胸片工作列表优先排序,未能显著缩短患者从胸片到CT、从胸片到肺癌诊断的时间。研究方法项目内容研究类型前瞻性、多中心、随机对照试验(RCT)注册号ISRCTN78987039研究时间2023年7月 — 2024年12月(随访至2025年6月)样本量97,731张胸片,86,945名患者AI模型qXR v4.0(Qure.ai,深度学习,检测29种异常)干预措施AI优先排序「开启」——异常胸片在工作列表置顶对照措施AI优先排序「关闭」——常规放射科报告流程主要终点① 胸片至CT的时间 ② 胸片至肺癌诊断的时间研究中心5家NHS信托医院(莱斯特、诺丁汉、伦敦、伯明翰等)随机化设计随机化:按日期+中心区组随机(1:1)胸片数:45,987张(49.3%)AI实时分析胸片,异常病例在工作列表置顶放射科医师看到优先处理的提示随机化:按日期+中心区组随机(1:1)胸片数:47,339张(50.7%)AI同样分析胸片,但优先排序功能关闭放射科医师按常规顺序读片关键设计要点:非知情同意设计(患者可选择退出),两组均进行了AI分析——这意味着研究衡量的是「优先排序」的效果,而非「AI有无」的效果。AI优先排序的逻辑与现实这套逻辑听起来无懈可击: • 放射科医师每天读几十甚至上百张胸片,高危病例容易被「排队」耽误 • 如果AI能把最可疑的胸片自动置顶,医师先读这些,就能更快触发CT检查 • 更早的CT = 更早的诊断 = 更早的治疗 —— 肺癌预后大幅改善理论很美好。但LungIMPACT试验把这套逻辑放在了真实世界的NHS路径里检验,结果……真相:AI读了胸片、给了提示,但整个临床路径的「瓶颈」并不在「读片顺序」这个地方。核心发现发现一:主要终点——毫无悬念的「阴性」结果这是本研究最核心、也最令人意外的发现。研究者预设了两个主要终点,结果双双「阴性」:终点指标AI ONAI OFFP值中位「胸片→CT」时间53天(IQR 17–145)53天(IQR 19–141)0.31(无显著差异)几何均值比(95%CI)0.97(0.93–1.02)参照中位「胸片→诊断」时间44天(IQR 26–90)46天(IQR 24–105)0.84(无显著差异)几何均值比(95%CI)0.98(0.83–1.16)参照也就是说:统计上,AI优先排序组和常规处理组,在「多久做CT」和「多久确诊肺癌」这两个核心指标上,完全没有显著差异。发现二:为什么AI「失效」了?关键的次要分析研究者做了一系列深入分析,试图理解为什么AI优先排序没有产生预期效果。答案藏在「医师行为」里:场景中位CT时间临床含义放射科+AI均报「正常」72天最长——两人都漏了,警觉性低放射科+AI均报「异常」8天最短——两人一致,快速行动 ✓放射科正常 / AI异常106天AI发现了,但人被忽视了——耗时最长 ✗放射科异常 / AI正常50天人发现了,AI没提示——中等耗时这个表格是整个论文最值得细读的部分。它告诉我们: • 当人和AI一致时(都报异常),患者很快得到CT——这部分没问题 • 但当AI报「异常」而人报「正常」时,人类医师倾向于忽视AI的提示——平均要等106天,比标准流程慢了3倍多! • 这就是「优先排序」失效的根本原因:AI给出了提示,但医师的工作列表再怎么排序,如果医师不信任AI的判断,依然不会优先处理。发现三:AI与放射科医师的「不一致率」高达30.3%尽管主要终点是阴性的,但这篇论文贡献了一个极具价值的发现:AI与放射科医师判断不一致的比率高达30.3%(28,261/93,326)。在经过专家复核的26,505例不一致病例中: • 真阳性:5.5% —— AI正确发现了人被漏诊的异常 • 假阳性:11.6% —— AI误报,给人增加了不必要的工作量 • 假阴性:2.3% —— AI漏掉了人发现的异常 • 真阴性:81.2% —— 两人判断一致,没问题最关键的是:在「放射科报正常、AI报异常」的病例中,最终有53例被确诊为肺癌——这意味着AI发现了53例放射科医师漏诊的肺癌。这个结论值得每个放射科医师深思。核心数据总览指标结果临床意义胸片总数97,731张迄今最大规模胸片AI RCT肺癌检出率0.6%(558/86,945)与流行病学数据吻合主要终点(CT时间)53天 vs 53天(P=0.31)阴性结果——优先排序无效主要终点(诊断时间)44天 vs 46天(P=0.84)阴性结果——优先排序无效AI-人不一致率30.3%(2.8万张)近1/3胸片AI与人判断不同AI发现但人漏诊的癌症53例AI的价值在这里——但不能靠「排序」实现 ✓局限性讨论局限性一:衡量的是「排序」而非「AI有无」由于采用了非知情同意设计,研究无法让患者随机分到「AI组」和「无AI组」——那样需要每位患者签署知情同意,会严重干扰日常临床路径。于是研究设计了一个巧妙但有限制的方案:按「日期」随机——某些天AI优先排序「开启」,某些天「关闭」。但AI分析本身在两组都运行了。这意味着:这个试验告诉我们「优先排序」没用,但不能直接推广到「AI读片」没用。这是两个不同层次的问题。局限性二:单款AI产品,结论能否推广?本研究只使用了Qure.ai的qXR v4.0这一款产品。其他厂商(如Google的CXR Foundation、Infervision、Airdoc等)的算法表现可能不同,优先排序功能的设计也有差异。不过,qXR是获得CE Class IIb认证的商业产品,在英国NHS已实际部署——选择它有很强的现实代表性。局限性三:主要终点被「稀释」了研究界定「胸片→CT时间」时,把患者在此期间做的所有CT都算进去了——但很多CT其实和肺癌无关(例如骨折复查、腹部检查等)。研究者也意识到了这个问题,做了敏感性分析:只保留「胸片14天内的CT」,此时两组中位时间都是8天(P=0.96)——依然没有差异。局限性四:放射科医师行为受干扰由于AI在两组都运行,部分放射科医师可能在某些日子「偷偷看」AI的结果,即使那天排序功能是关闭的。这种跨越组的「污染」会稀释真实效应量。科研王师兄的解读为什么阴性结果的RCT能发Nature Medicine?规模够大:9.7万张胸片、5家中心、前瞻性RCT设计——这个样本量在医疗AI领域是天花板级别的。大数据量的阴性结果,比小样本量的阳性结果更有说服力。问题够重要:NICE(英国国家卫生与临床优化研究所)在制定胸片AI评估指南时,唯一引用的RCT就是这项。说明指南制定者渴求这类证据。诚实够勇敢:很多企业资助的AI研究只发表阳性结果。这篇论文没有隐藏「无效」的结论,反而因此被顶刊接收——这就是科研诚信的力量。值得深入思考的三个洞见洞见一:「优先排序」是个伪需求吗?不一定。本研究暴露的问题可能是「人机协作界面」设计不当,而非「优先排序」本身无用。如果AI提示能以更好的方式呈现(例如直接在胸片上标注可疑区域,而非仅仅在工作列表置顶),医师可能会更信任并响应AI的判断。洞见二:30.3%的不一致率,是危机也是机会。一半以上的不一致,经过专家复核后被判定为「AI正确」。这意味着AI有潜力作为「第二读片人」,捕捉人类疲劳或分心时的漏诊。但目前的部署方式(工作列表排序)显然没有用好这个潜力。洞见三:阴性结果也是「前浪」。这篇论文实际上为后来的研究者扫清了方向:不要再拿资源去验证「优先排序」这个功能了,去验证更有临床意义的东西——例如AI提示直接嵌入报告、AI-医师联合决策对诊断准确率的提升等。启示速查表启示方向具体建议选题阴性结果也是好选题——只要你的问题重要、方法严谨、样本量足够设计试验主要终点要选「临床硬终点」(如诊断时间、生存率),而非 surrogate(如AUC、灵敏度)做人机协作别再研究「AI排序」了——研究「AI如何更好地呈现提示」才有价值发表策略阴性结果发顶刊不是梦——关键是研究问题本身的重要性选模型不要只测一款AI产品——你的结论会被质疑「是否只适用于这款模型」做转化优先排序功能 → 直接嵌入报告的建议功能 —— 这才是NHS真正需要的产品形态总结AI读胸片的价值,不在于「谁先读」,而在于「读的时候有没有看到该看到的」LungIMPACT告诉我们:再好的AI提示,如果医师不信任、不响应,也只是一行被忽略的工作列表置顶。衷心感谢、致敬原作者团队的贡献 如果你也想,系统掌握AI辅助科研的完整工作流,在高质量期刊上发表你的第一篇或下一篇SCI,加入使用AI科研工作流,欢迎扫描下方二维码咨询「科研王师兄」,开启你的光速科研之旅。