AI病理文摘|eClinicalMedicine:POLARIS,真实世界肠镜活检样本中的病理预筛查研究-夜雨聆风

AI病理文摘|eClinicalMedicine:POLARIS,真实世界肠镜活检样本中的病理预筛查研究

点击下方卡片关注AI病理视界。

这里持续追踪病理AI前沿论文、深度行业观察与工具方法更新。我们不只关注模型做了什么，也关注它离真实场景还有多远。

推文概览

病理AI对结直肠息肉活检标本进行分类，不是什么全新的研究方向。最近发表于EclinicalMedicine的POLARIS 研究把AI模型放进了结直肠癌筛查的病理工作流中：在大量肠镜活检样本中，哪些可以被安全地归为低风险，从而减少专家病理医生的审阅负担；哪些必须被优先标记出来，交给病理医生判断。

这项研究可以概括为一项基于超大规模真实世界筛查队列的回顾性外部验证研究。模型开发使用超过1.5万张全切片图像，外部验证队列超过1万张切片。它给病理AI临床转化提供了一个重要参照：临床价值未必来自最新、最大的模型，也可能来自更准确的任务定义、更真实的目标人群、更严格的验证设计，以及能否真正嵌入病理科的日常工作流。

如果你希望围绕相关项目、技术方向进一步沟通，欢迎扫码联系。

一、最值得关注的地方

这篇文章的新意，首先不在于病理AI对结直肠息肉样本进行分类。类似研究此前已有不少，单纯做息肉分类或病变识别，已经不足以构成真正的临床转化亮点。

POLARIS更重要的变化，是把任务从图像分类推进到工作流分流。它不追求替代病理医生完成完整诊断，而是把模型放在病理工作流的前端，用于识别两类最有实际意义的样本：一类是可以考虑从专家审阅流程中分流出去的低风险样本，包括正常组织和低级别异型增生管状腺瘤；另一类是必须进入病理医生审阅流程的样本，包括更复杂的息肉类型、锯齿状病变、高级别异型增生和腺癌。

这种任务设计比单纯提高多分类准确率更接近临床。病理科真正需要解决的问题，往往不是AI能否给每张切片一个标签，而是在筛查项目带来的高通量样本中，如何把病理医生有限的时间优先分配给更高风险、更复杂、更需要专业判断的病例。

第二个亮点，是研究设计更接近临床顶刊所重视的证据逻辑。它使用真实筛查项目来源的大规模队列，开发集、外部测试集和外部验证集分工清楚，验证方案预先设定，并专门纳入不同扫描仪平台，评估模型对非生物学差异的鲁棒性。

第三个值得注意的地方，是技术的平权。这项研究使用的技术路线并不激进：基础模型提取特征、注意力MIL聚合、弱监督训练、模型集成和热图可视化，都是病理AI领域已经相对成熟的组件。它说明，在很多具体临床场景中，能否接近应用并不完全取决于模型是否足够新，而更取决于是否找到合适的临床切入点，并用足够扎实的队列和验证设计去证明其安全性与实用性。

这也给当前病理大模型热潮提供了一个参照。基础模型当然重要，但临床真正需要的不是“模型更大”本身，而是大模型或基础模型能否在明确的临床任务、真实的目标人群和可执行的工作流中完成验证。POLARIS的方法并不复杂，却比许多停留在模型性能展示阶段的研究更接近临床转化。

二、研究背景与问题定义

结直肠癌筛查项目的推广，带来了大量肠镜活检和息肉标本。对于病理科来说，压力并不只来自癌症病例本身，更来自筛查体系中不断增加的低风险、常规性和重复性样本。这些样本大多仍需要病理诊断、分级和报告，但真正需要专家病理医生投入大量判断资源的病例只占一部分。

这正是病理AI适合切入的场景之一。AI不必一开始就完成完整诊断，可以先帮助病理科回答一个更现实的问题：哪些样本风险足够低，可以从专家审阅流程中分流出去；哪些样本存在高级别病变或诊断复杂性，必须优先交由病理医生查看。

POLARIS的临床问题定义比较清晰。它围绕筛查工作流建立一个预筛查工具：一端尽可能安全地识别正常组织和低级别异型增生管状腺瘤，另一端确保高级别异型增生和腺癌不被漏掉。

因此，这项研究的评价重点也不是普通意义上的分类准确率，而是两个更接近临床的问题：第一，高风险病变能否被足够敏感地识别出来；第二，在保证安全的前提下，能否减少病理医生需要审阅的低风险切片数量。

三、研究设计与方法学拆解

这项研究包括开发集、外部测试集和外部验证集三个层次。开发集来自英国肠癌筛查项目及专家委员会病例，共15,079张全切片图像，用于模型训练和调参。外部测试集来自荷兰Utrecht，刻意富集高级别异型增生病例，用于检验模型对高风险病变的识别能力。真正承担主要验证任务的是Cheltenham General Hospital的外部验证队列，覆盖2008—2019年间2514名患者，最终包含超过1万张全切片图像，并同时使用Aperio AT2和NanoZoomer XR两种扫描仪。

这种设计的优点在于，开发和验证队列均与目标应用场景高度相关。模型不是在远离临床流程的数据集上展示能力，而是在真实筛查体系产生的样本中进行检验。尤其是外部验证队列规模大、时间跨度长、扫描仪平台不同，使其更接近未来部署时可能遇到的实际环境。

在标签设计上，研究将结直肠活检切片分为五个风险递增的组织学类别。class 0对应正常组织，class 1对应低级别异型增生管状腺瘤，class 2包括管状绒毛状或绒毛状腺瘤及其他需要病理判断的非肿瘤性病变，class 3对应锯齿状病变，class 4对应高级别异型增生和腺癌。随后，研究再将class 0–1合并为“不需要专家病理审阅”的低风险组，将class 2–4合并为“建议病理医生审阅”的高风险或复杂组

方法学上，POLARIS采用的是比较成熟的弱监督病理AI路线。全切片经过质量控制后，在20×、0.5μm/px分辨率下切分为224×224图块，与H-optimus-0的输入尺度相匹配。背景过多的图块被剔除，图块经颜色扰动和噪声增强后，由H-optimus-0提取特征。下游模型使用注意力MIL，将图块特征聚合为切片级表示，并输出五个类别得分。

为了降低扫描仪差异对模型的影响，研究利用同一组织在不同扫描仪上的配准图像，在训练过程中加入约束，使模型尽量减少对非生物学信息的依赖。最终模型由10次独立训练结果集成而来，并在调参集上确定阈值。阈值确定后，模型直接应用于外部测试集和外部验证集，没有再根据验证集重新调整。

POLARIS将MIL模型的可视化热图映射为风险分数分布，并突出更高风险区域，使病理医生可以看到模型为何将某张切片判为高风险，尤其有助于定位局灶性高级别形态或诊断边界区域。

四、结果与验证表现

在预设主要分析中，POLARIS在外部验证队列的Aperio AT2图像上取得86.65%的整体平衡准确率。对于临床最关心的高级别异型增生和腺癌，模型将98.94%的病例判为POLARIS阳性；对于正常组织和低级别异型增生管状腺瘤，模型将83.04%的病例判为POLARIS阴性。

这一结果的临床含义在于：模型在尽量不漏掉高级别病变的前提下，能够识别出相当一部分可分流的低风险样本。对于筛查项目这样的高通量场景，这种“安全前提下的减负”比单纯提高总体准确率更有实际意义。

ROC分析进一步显示，POLARIS区分低风险样本与需病理医生审阅样本的AUROC为0.9449；若只关注高级别异型增生和腺癌，AUROC达到0.9788。这说明模型并非只能在单一阈值下使用，而是可以根据不同机构对安全性和效率的偏好进行阈值调整。对于筛查项目，通常会优先选择高敏感性操作点；对于有完善复核机制的机构，也可以在保证安全的前提下探索更高特异性的工作点。

扫描仪鲁棒性是另一个重要结果。NanoZoomer XR图像上的表现与Aperio AT2接近：平衡准确率86.29%，高级别异型增生和腺癌识别率98.80%，正常和低级别管状腺瘤阴性识别率83.45%。同一病例在两种扫描仪图像上的二分类一致性达到97.93%，五分类最高得分一致性为97.71%。对于数字病理部署而言，扫描仪差异往往是模型跨中心应用的重要障碍，因此这一结果具有实际意义。

研究还对模型与原始诊断严重不一致的病例进行了专家复核。三位病理医生在不知道模型输出的情况下，对40个不一致病例进行独立评估并达成共识。结果显示，病理医生共识在34/40个病例中与POLARIS最高得分类别一致，在37/40个病例中与POLARIS二分类结果一致。

这个结果提示，所谓“模型错误”并不总是模型本身的问题，也可能反映原始标签的不稳定性或病理诊断边界的模糊性。尤其在高级别异型增生范围较小、锯齿状病变分类、炎症性改变或上皮错位等场景中，病理诊断本身就存在观察者差异。

最值得注意的是，原始主要分析中被认为是高级别异型增生或腺癌假阴性的病例，在专家复核后只剩下一个真正需要重点讨论的病例。而对于这个病例，POLARIS的热图仍然标出了病理医生认为可疑的区域。这说明模型并不能消除诊断灰区，但它可能帮助病理医生更快发现灰区所在的位置。

当然，结果中也有需要谨慎解读的地方。class 0正常组织的表现相对较弱，原始分析中敏感性只有57.43%。进一步复核显示，部分原始标记为正常的病例本身可能存在标签不稳定。对于未来部署而言，低风险类别的定义、复核规则和质控标准仍然非常关键。

五、讨论与总结

POLARIS的临床转化意义，可以概括为一句话：它证明了在结直肠癌筛查活检这一高通量、相对标准化的场景中，病理AI有可能承担低风险排除和高风险提示的前置角色。

这项研究的价值不在于重新发明了一种病理AI模型，也不在于再次证明结直肠息肉可以被AI分类。它更重要的意义，是把一个相对成熟的AI技术路线，放进了超大规模真实世界筛查队列和明确的病理工作流问题中：如何在尽量不漏掉高级别异型增生和腺癌的前提下，把病理医生有限的注意力留给更复杂、更高风险、更需要专业判断的病例。

但也要看到，POLARIS目前仍然不是一个已经完成临床闭环验证的系统。现有结果来自回顾性外部验证，虽然队列规模很大、来源接近真实筛查场景，并且采用了预设验证方案，但模型尚未真正嵌入病理科日常工作流。因此，文章中提示的工作负荷减少，仍是基于回顾性数据的潜在估计，并不等同于真实部署后的报告时间缩短、人力成本下降或诊断质量改善。

真正落地时，还需要回答一系列工作流问题：POLARIS阴性病例是否可以不由病理医生审阅？是否需要技术人员或初级医生复核？资深病理医生是否应进行抽样质控？模型结果与内镜信息、临床信息或肉眼描述不一致时如何处理？这些问题涉及责任边界和质量控制，不能仅靠模型性能解决。

因此，POLARIS更适合作为一种有监督的分流工具，而不是独立诊断系统。更稳妥的使用方式，是由模型先完成风险排序，低风险病例进入简化审阅或质控流程，高风险和复杂病例优先推送给病理医生；热图则作为辅助定位工具，帮助读片者更快关注可疑区域

从这个角度看，POLARIS提供了一个有价值的样板：病理AI的临床价值未必来自更复杂的模型，而是来自清晰的任务边界、真实的目标人群、严格的外部验证、符合临床风险的阈值选择，以及能够嵌入现有工作流的输出方式。

AI病理视界团队在病理AI竞赛、研究发表与项目案例方面有丰富积累，覆盖病理AI模型开发、数据分析、研究方案设计与技术支持等多个环节。

如果你来自病理科、科研团队、药企/CRO或相关企业，正在推进病理AI任务设计、模型研发或转化项目，欢迎进一步交流。

如果你具备病理AI、基础模型或工具链相关背景，也欢迎围绕兼职、实习或技术合作与我们联系。

AI病理文摘｜术中冰冻不止看诊断：甲状腺癌淋巴结转移与基因突变，能否一起从HE中读出？

AI病理文摘｜即插即用！MAMMOTH模块：打破线性层瓶颈，让病理MIL无缝接入混合专家MoE架构

AI病理文摘｜MOOZY：首个患者级病理基础模型，预训练为何要从切片走向病例？