AI病理文摘|Nature Cancer:无需训练,几例足矣?看PRET如何把少样本上下文学习带入病理

点击下方卡片关注AI病理视界。这里持续追踪病理AI前沿论文、深度行业观察与工具方法更新。我们不只关注模型做了什么，也关注它离真实场景还有多远。

推文概览

今天解读的是一项发表于Nature Cancer的最新研究，题为“PRET is a few-shot system for pan-cancer recognition without example training”。研究团队提出了一个名为PRET（泛癌免示例训练识别系统）的框架，旨在解决当前病理AI模型对海量标注数据和任务特定训练的依赖。

核心亮点是：PRET无需任何模型微调，仅凭几张（1-8张）标注示例WSI，即可在23个基准测试集的20个任务上超越现有方法，甚至在CAMELYON16淋巴结转移检测任务上，仅用8张示例就超越了11位病理学家的平均水平。

在性能光环之下，更应关注其方法学的本质创新及真正的应用边界。PRET的最大价值或许不在于挑战已被充分研究的“红海”任务，而在于为资源匮乏的“蓝海”场景（如罕见病、长尾肿瘤亚型）提供了一种切实可行的病理AI实施路径。

如果你希望围绕相关项目、技术方向进一步沟通，欢迎扫码联系。

一、最值得关注的地方

在深入细节前，先抛出我觉得最值得深思的一点：PRET的范式创新点在于其“免训练”的极低部署成本，但这在CAMELYON16这类已有大量公开标注数据、强监督模型性能趋于饱和的任务上，并不能完全体现其颠覆性价值。它的真正用武之地，也许在于那些因病例稀少而无法进行传统监督学习的“长尾”临床问题。

因此，阅读本文时，应带着两个层次的问题：

1.方法学层面：PRET如何实现“免训练”且“高性能”的few-shot学习？它解决了哪些旧范式的痛点？

2.应用价值层面：论文的实验设计是否充分论证了其最不可替代的应用场景？如何客观看待它在不同任务中的性能表现？

二、研究背景与问题定义

传统病理AI的开发遵循“一任务一模型”的范式。然而，像OncoTree数据库收录了近900种肿瘤类型，为每一种肿瘤都收集海量数据并训练特定任务模型，在实践中几乎是不可能的，尤其是在医疗资源匮乏的地区。

近年来，病理基础大模型的兴起为解决此问题带来曙光。但它们在各个下游任务中的应用，依然普遍依赖微调或多个弱监督模型训练，这需要可观的标注数据、计算资源和AI专家。而现有的免训练方法（如基于KNN聚类的方法），又往往将WSI聚合为单一的全局特征向量，丢失了关键的局部信息，导致性能不佳。

PRET正是针对这一痛点而设计：如何在完全无需训练的前提下，充分利用病理基础模型的表征能力和WSI的局部信息，仅凭极少示例就实现灵活、高性能的泛癌识别？

三、方法学拆解

在深入PRET的具体设计之前，有必要先了解一个关键概念：In-Context Learning（上下文学习，ICL）。

ICL最早在大语言模型（如GPT-3）中被发现并引起广泛关注。它的核心现象是：模型无需更新任何参数，仅凭在输入中给出的几个示例（即上下文），就能理解并完成一个新的任务。

ICL的本质，是将学习从训练阶段转移到了推理阶段，模型不是从海量数据中归纳规则，而是从当前给出的极少示例中临时领悟任务模式。

PRET的核心创新，正是将这一思想首次系统性地迁移到了计算病理学领域。它的完整工作流由六个模块构成：特征提取器、上下文标记器、判别性实例挖掘器、信息性上下文分类器、注意力聚合器、后处理器。针对不同任务（筛查、分型、分割），可灵活组合这些模块。

特征提取器：冻结的基石

PRET首先用一个完全冻结的病理基础模型（基于DINO自监督方法在TCGA上预训练的ViT-S/8模型）将所有WSI切分成256×256的patch，并提取为特征向量。论文也系统测试了与CHIEF、Virchow、UNI、Prov-GigaPath、TITAN等主流病理基础大模型的兼容性，结果显示，基础模型越强，PRET的性能水涨船高，证明它是一个“放大器”而非“替代者”。

上下文标记器：弱标注的智能翻译官

这是PRET区别于所有现有方法的第一道分水岭。它支持四种视觉提示：切片标签（L）、边界框（B）、粗略掩膜（R）、精细肿瘤掩膜（M）。这些提示的标注成本差异巨大：切片标签平均15.4秒，而精细掩膜需537.2秒。

对于L、B、R这类弱提示，标记器的任务是将它们转化为实例级的正负样本标签。其核心算法通过计算patch与已知正/负样本的余弦相似度，并利用OTSU二值化动态划分正、负和不确定实例。

例如，当仅有切片标签时，标记器会先用已知良性切片的特征作为“负样本参照”，从癌症切片中筛选出与参照最不像的patch作为“正样本”，最像的作为“负样本”，中间地带作为“不确定样本”。

这意味着什么？病理医生只需花几十秒画一个框，PRET就能自动“脑补”出成千上万个精确的patch级标签，极大降低了高质量上下文信息的获取门槛。

信息性上下文分类器：拒绝“平均主义”

这是PRET性能碾压基线方法（如MI-SimpleShot、原型网络）的关键。所有传统few-shot方法都有一个共同缺陷：将示例的所有特征压缩成一个“原型向量”，丢失了局部细节。

PRET的做法截然不同：保留示例中所有patch的局部特征，不做任何池化或平均。

在推理时，对于测试WSI中的每一个patch，分类器计算它与所有示例正样本patch的余弦相似度，取top-k个最高值的均值；同时计算与所有示例负样本patch的top-k相似度均值；两者相减即为该测试patch的预测分数。

这种方法的核心优势有三：

动态匹配：每个测试patch都能从示例库中找到与自己最相似的“参照物”，而非被迫与一个平均化的“大众脸”比对。
信息保真：完整保留了示例中的局部形态异质性，对于识别微小病灶（如淋巴结中的单个肿瘤细胞巢）至关重要。
免于过拟合：没有可训练参数，天然避免了小样本下的过拟合风险。

判别性实例挖掘器与注意力聚合器

对于肿瘤亚型分类任务，仅靠标记器还不够，因为不同亚型的正常组织背景是相似的。此时需要“判别性实例挖掘器”介入，它利用已知负样本从测试WSI中筛选出最不像正常组织的区域（即肿瘤区域），仅对这些区域进行分类，避免了背景噪声干扰。

最后，一个无参数的“注意力聚合器”将所有patch级分数融合为切片级预测。它通过计算测试patch之间的自注意力权重，对高分patch进行加权求和，确保模型聚焦于最相关的区域。

总体而言，PRET的方法学创新不在于提出新的网络架构，而在于重构了few-shot学习的推理流程。它将推理过程从一个“全局特征比对”问题，转变为一个“局部特征检索与动态匹配”问题，并通过“上下文标记器”和“拒绝平均化”的实例级分类器，将极少示例中的信息榨取到了极致。

四、结果与验证表现

PRET在23个数据集、4484张WSI（约1.24亿个patch）上进行了系统验证。

全面超越基线方法

vs免训练方法：在20/23个任务上超越MI-SimpleShot、KNN-Mean等基线。例如在CAMELYON16上，AUC从62.40%提升至95.27%，绝对提升32.87%。

vs需微调的弱监督方法：在少样本设置下，PRET（82.58% AUC）远超TransMIL（71.64% AUC）等需要训练的方法。

vs全量数据训练的方法：在CAMELYON16上，PRET仅用8张示例（AUC 98.71%），就超越了使用243张WSI训练的TransMIL、CLAM等方法。

各类提示方式性能对比

提示方式与肿瘤大小的关系：对于肿瘤较小的癌症（如PTC、ESCC），精细掩膜（M）效果最佳；对于肿瘤较大且易定位的癌症（如CRC、NSCLC），切片标签（L）已足够好。

弱提示可以逼近强提示：在分割任务中，使用B或R弱提示的PRET性能与使用M强提示的差距通常<5%，而基线方法的差距可达10%-20%。

具体案例：在PTC筛查任务中，1-shot下PRET使用切片标签的AUC已达93.3%，而对比的方法仅63.6%。

泛化能力：免训练的结构性优势

PRET在跨中心、跨扫描仪、跨种族测试中展现出卓越的鲁棒性。

扫描伪影：在CAMELYON16-C（模拟染色不均、失焦等伪影）上，PRET的AUC仅下降3.44%，而最佳基线下降7.55%。

跨中心验证：用CAMELYON16的示例直接测试CAMELYON17（五个外部中心），PRET的AUC保持在94%以上。

跨种族公平性：在TCGA-NSCLC数据上，用白人样本作示例测试黑人/亚裔群体，PRET的AUC差异仅1.32%，远低于其他方法。

消融实验：每个模块都不可或缺

消融实验清晰地表明：关闭上下文标记器（LVI），直接使用全部patch：AUC从92.2%降至73.8%（淋巴瘤8-shot）。关闭注意力聚合器（AA），改用最大池化：AUC从92.2%降至82.6%。对于分型任务，关闭判别性实例挖掘器（DIM）：AUC从78.6%降至64.1%。

五、讨论与总结：PRET的方法学意义、现实考量与未尽之路

PRET推动的是“更晚压缩信息”的建模思路

如果要用一句话概括PRET的方法学贡献，我觉得是：这篇文章真正推进的，不是病理基础模型本身，而是基础模型之上任务适配的方式。过去许多工作虽已使用病理基础模型，但下游范式并无本质变化——依然是全局池化、MIL聚合、线性探测或参数微调。PRET证明，在完全冻结表征的前提下，存在另一条路线：尽量保留局部信息，尽量延后压缩，把分类决策推迟到支持集与测试集发生动态交互之后。

这一思路对病理图像尤为重要。WSI并非一个“全局均值表征”能完整描述的模态——一个直径仅200微米的转移灶，在全局池化后可能被完全淹没。PRET通过保留patch级特征、使用基于top-k相似度的实例级分类器，确保了小病灶的局部信号不被“平均掉”。这正是其在CAMELYON16上超越病理学家、在微小肿瘤数据集上表现优异的原因。

它的最大价值，可能不在性能极限，而在监督设计和资源组织

PRET最值得重视的，是它给出了一种更现实的资源配置思路：Backbone不必每个任务重训，标注不必每个任务都做到最细，新任务不必重新走完整训练流水线，少量示例即可形成可用的推理上下文。

PRET更像是在重新定义一个问题：什么样的监督足够让一个病理基础模型开始工作？ 它的回答是：极少的、粗粒度的、低成本的监督，配合精巧的上下文利用机制，就足以解锁强大的临床能力。

真正适合PRET的任务

这是理解PRET应用边界的关键。论文将CAMELYON16作为临床级性能的标杆，用8-shot超越了11位病理学家，这无疑证明了PRET在数据效率上的惊人能力。

但需要清醒认识到，CAMELYON16本身是一个有像素级详尽标注的公开数据集，全监督模型性能已非常成熟。 PRET在此的胜利，更多是证明了方法的可行性，而非找到了其最不可替代的应用场景。

从应用逻辑看，PRET最值得期待的未来场景，或许是另一类问题：数据很少，很难标注。例如，某些肿瘤存在大量稀有亚型、罕见形态变体、特殊免疫表型；某些中心会不断遇到低频但临床重要的新问题；某些科研任务只需快速验证一个小样本假设，根本不值得为它单独训练一个完整模型。对这些长尾问题，PRET的价值不仅是省训练，更是让病理AI第一次拥有了低门槛进入的能力。

因此，CAMELYON这类任务适合证明PRET有实力，但长尾任务才更可能证明PRET有必要。

它还没有彻底回答“开放类别病理识别”这件事

PRET离真正意义上的开放类别识别——例如“这张切片里有什么异常形态？”——还有明显距离。此外，PRET并非“零监督”，它只是将监督从精细标签转成了少量示例和视觉提示。对于真正罕见且边界模糊的病理类别，示例如何选、提示如何给、支持集是否代表目标类别，都会成为新的瓶颈。

现实考量：推理速度与示例选择策略

推理速度是PRET走向实用必须面对的问题。论文报告的7.41秒/张WSI（CAMELYON16，8-shot）有一个重要前提：所有示例和测试WSI的patch特征均已预先提取。在实际即时预测中，测试WSI需先完成特征提取（通常数分钟），之后才是约7秒的推理计算——总耗时在临床场景中仍可接受，但并非“秒级响应”。

更关键的是示例选择策略：若每次更换示例都需重新提取其特征，PRET“即插即用”的灵活性将大打折扣。这意味着在实际部署中，需要一个预提取好特征的示例特征库作为基础设施，才能真正实现低延迟的任务切换。论文未展开讨论这一点，但这是从方法学原型走向实用系统的关键一步。

总结

PRET最重要的贡献，在于提出了一套在不再训练的前提下，如何把冻结病理表征转化为多任务识别系统的方法框架。它将弱提示处理、局部上下文保留、判别实例筛选和非参数推理组织成一个完整闭环。

对那些数据充足、标签成熟、任务定义稳定的问题，全监督训练模型仍然会长期存在，甚至在很多场景下依然是更优解。可对那些长尾、稀有、中心特异、不断变化的问题，PRET代表的路线可能更值得重视。

AI病理视界团队在病理AI竞赛、研究发表与项目案例方面有丰富积累，覆盖病理AI模型开发、数据分析、研究方案设计与技术支持等多个环节。

如果你来自病理科、科研团队、药企/CRO或相关企业，正在推进病理AI任务设计、模型研发或转化项目，欢迎进一步交流。

如果你具备病理AI、基础模型或工具链相关背景，也欢迎围绕兼职、实习或技术合作与我们联系。

AI病理文摘｜Gut: 从一个数值到一种建模线索，肿瘤间质比如何引导HCC预后预测

AI病理文摘｜Arxiv预印本抢先看：SEAL如何用空间转录组重新校准病理基础模型