《柳叶刀》正刊报道:有史以来最大的AI医疗随机试验,10万人的擂台上,赢得毫无争议

背景

乳腺癌是全球女性最常见的癌症。早期发现、早期治疗，是提高生存率最有效的手段，而乳腺 X 线摄影（俗称"钼靶"）是目前覆盖最广的筛查工具——就是定期去医院拍的那个，用低剂量 X 光照乳腺，看有没有可疑阴影。

问题在于，读片是一件极需专注、极易疲劳的工作。为了减少漏诊，很多国家采用"双读"标准——每张片子由两名放射科医生分别独立阅读，再对比结论。这样固然更可靠，代价是需要两倍的人力。而全球放射科医生本就短缺，随着筛查规模扩大，缺口还在拉大。

有没有办法让一个医生的工作质量，达到两个人的水平？

AI 读片的想法，就是在这个背景下被认真讨论起来的。过去几年积累了不少研究，但真正能说服人的证据始终缺一块：大规模、随机分组、严格对照的临床试验——也就是那种"公平擂台"式的较量。

MASAI 试验，就是来打这场擂台赛的。

最大的擂台，怎么打的

试验在瑞典西南部四个筛查点展开，从 2021 年 4 月到 2022 年 12 月，共纳入 105,934 名 40 至 74 岁的女性。她们被随机分成两组，各约五万人，像抛硬币一样，不由患者或医生选择。

一组：一名放射科医生 + AI。AI 先给每张片子打风险分数，大多数看起来没问题的片子，交给一名医生看就够了；少数被 AI 标记为高风险的，再加派一名医生复核。整个过程里，AI 还会在图像上圈出它认为可疑的区域，相当于在医生耳边轻声提醒："这里，你再看看。"

另一组：两名放射科医生，各自独立阅片，互不参考——这是目前欧洲乳腺癌筛查的通行标准。

读完片子，两年后再来对比：哪组漏掉的癌更少？哪组发现的更多？哪组误判的更少？

这也是为什么心脏科权威、医疗 AI 研究者 Eric Topol 在推文里称之为"有史以来最大规模的医疗 AI 随机试验"——10 万人，真实随访，没有捷径。这个体量在医疗 AI 的研究历史里，迄今没有先例。

AI 实际上起了什么作用

先说一个关键指标：灵敏度，通俗讲就是"有癌的人，有多大比例被检查出来了"。灵敏度越高，漏诊越少。

数据出来后，AI 组的灵敏度是 80.5%，对照组（两名放射科医生）是 73.8%——差了近 7 个百分点。换句话说，同样是一百个真正患癌的女性，AI 辅助那组，多发现了将近七个人。这个差异在统计上成立，不是运气使然。

与此同时，另一个关键指标——特异性，也就是正常人不会被误报为患病的概率——两组完全相同，均为 98.5%。发现更多，没有误诊更多。这是个罕见的"双赢"。

但最让研究者惊喜的，是另一个数字——间期癌。

所谓间期癌，是指在两次定期筛查之间被临时发现的癌症——也就是上次筛查时漏掉了、直到症状出现或下次筛查才被诊断出来的那些。这类癌症往往长得快、恶性程度高，是衡量筛查质量的一把重要尺子：间期癌越少，说明筛查越扎实。

AI 组每千人 1.55 例，对照组 1.76 例，AI 组更低。虽然这个差距还没达到严格的统计显著标准，但两年里，五万人里少了十几个被漏掉的癌症，这不是可以轻描淡写的数字。

更有意思的，是被漏掉的癌症的"脾气"。AI 组的间期癌里：凶险的侵袭性癌症少了 16%，长得较大的肿瘤少了 21%，最难缠的分子亚型（发展快、预后差的那种）少了 27%。就算 AI 也有漏掉的，漏掉的是相对"温顺"的那种；最难缠的那些，被更多地揪了出来。

44% 的工作量减少，是更安静的那个重磅消息

这篇 2026 年的论文关注间期癌和灵敏度，但整个 MASAI 系列研究里，有一个数字早在 2023 年就已经出现，只是时常被人忽略——放射科医生的阅片工作量减少了 44%，同时癌症检出率比对照组高了 29%。

44%。 这意味着，原本需要两个人分担的工作，现在一个人加一个 AI 就能完成，质量没有下降，某些指标反而更好。

背后的逻辑并不神秘。AI 先把大量"看起来没问题"的片子快速过滤出去，只需要一名医生确认，把宝贵的双读时间集中留给真正高风险的病例。不是 AI 在取代医生，而是 AI 在帮医生把注意力花在真正值得的地方。

从这个角度看，MASAI 真正的价值，也许不止于"AI 读片准不准"，而是它展示了一种新的工作流程：同样数量的医生，可以覆盖更多的人。

这不是完美答案，但已经是很好的开始

任何临床试验都有它的边界，这项研究也不例外，有几点值得坦诚说清楚。

这项试验的设计目的，是证明 AI 组"不比两名医生差"，而非证明它一定更好。间期癌减少的趋势是真实存在的，但还没到可以拍胸脯说"AI 大幅降低了间期癌"的程度，需要更长时间的随访来确认。

此外，试验只在瑞典进行，那里的医疗基础设施较为完善，人口也相对单一。能否直接套用到中国、印度、撒哈拉以南非洲等地，还需要本地数据说话。

还有一个更根本的问题，目前无法回答：发现了更多早期癌、漏掉了更少凶险的癌，最终会不会真正降低死亡率？乳腺癌的自然病程可以长达十年以上，两年的随访看到的还只是冰山一角。

一个医生少了，医疗的账应该怎么算

Eric Topol 的推文发出后，讨论很快蔓延开来。有人分析数字，有人谈放射科的职业未来，有人盘算商业机会。

对放射科医生来说，44% 的工作量被 AI 接管，眼下是释放，是喘息；但如果 AI 的能力还在持续提升，这个数字会是多少？职业定义会不会被重写？

对医院和公共卫生系统来说，这是一个罕见的"省人力还不降质"的方案。欧洲委员会的乳腺癌筛查指南已经在讨论引入 AI 的路径。如果每个筛查中心都能用 AI 扛起一半的读片，那些原本因为没有足够医生而无法开展筛查的地区，也许也能覆盖到。

对患者来说，答案是最直接的：更高的灵敏度，更少漏掉凶险的癌症，早一点发现，治愈的概率就高一分。

结语

这场试验的意义，不只停留在乳腺癌和影像科。

它第一次用最严格的方式回答了一个一直悬而未决的问题：AI 能不能在临床诊断里真正顶上一个人的位置？答案，现在有了。

更重要的是，它打开了一种想象：如果 AI 在乳腺癌筛查里做到了这一点，在肺癌筛查里呢？眼底病变里呢？皮肤科、病理科、超声科呢？全球每年有数以百万计本可早期发现的癌症，因为资源匮乏、医生不够、地处偏远而被拖到中晚期。这些人，原本不是没有机会，只是那个机会太贵，或者太远，或者根本不存在。

AI 的潜力，不在于让顶级医院更好，而在于让那些原本什么都没有的地方，也有一双怜悯世人眼睛。

这场擂台赢了。接下来，是把这场胜利，变成更多人活下去的机会。

参考资料

• Gommers J, et al. Interval cancer, sensitivity, and specificity comparing AI-supported mammography screening with standard double reading without AI in the MASAI study. The Lancet 2026; 407: 505–14.
• Lång K, et al. Artificial intelligence-supported screen reading versus standard double reading in the MASAI trial (clinical safety analysis). Lancet Oncol. 2023; 24: 936–944.
• Hernström V, et al. Screening performance and characteristics of breast cancer detected in the MASAI trial. Lancet Digit Health. 2025; 7: e175–e183.
• Eric Topol. X (formerly Twitter), April 2026. https://x.com/EricTopol/status/2017021728694948142