细胞学AI文献回顾:从局部异常到全片诊断-夜雨聆风

细胞学AI文献回顾:从局部异常到全片诊断

目前我也已经看了一部分细胞学 AI相关的文献了，它们涉及的应用场景并不完全一样，但有一个共性是它们都在围绕着细胞学诊断里的几个问题做优化或者解决：异常细胞很少，正常细胞和肿瘤细胞形态有时很像；病理医师阅片依赖经验，标注本身有主观性；一张 WSI 太大，不能简单把整张图丢进模型；最后，模型即使在测试集上表现很好，也未必能真正进入临床流程。

scDNA-seq结合深度学习用于肺癌早期诊断

人工智能技术提高甲状腺细针穿刺细胞学诊断准确性

AI提升尿液细胞学对尿路上皮癌的检测敏感性

深度学习用于胸腹水细胞学恶性检测与肿瘤来源预测

深度学习实现基于液体细胞学模型的宫颈癌前病变及癌症检测

人工智能实现宫颈细胞学分级与宫颈癌的精准诊断

TORCH：深度学习用于胸腹水细胞学肿瘤溯源

因为单看某一篇文献的感觉太分散了，这次我就对前面看过的文章做一次回顾性的总结。为了方便称呼，这些文章分别按照顺序被叫做：LESSL、甲状腺 FNA、PUCAS、MAMILE-UNI、LBC-DL、AICCS和TORCH。

一、可信的细胞学标签

在细胞学 AI 里，标签往往比模型更关键，因为细胞学诊断本身就存在主观性，如果训练标签主要来自形态学判断，那么模型学到的可能只是某一组病理医师的判断习惯。

LESSL 用 scDNA-seq 检测单细胞的拷贝数变异，由于肿瘤细胞常具有克隆性拷贝数异常，即使在 Pap 染色下形态多样，也可以通过 CNA 图谱来确认，把存在克隆性 CNA 异常的细胞定义为肿瘤细胞，再用这些细胞训练模型。

相比之下，甲状腺 FNA 的研究中，patch 由两位病理医师判断良恶性，如果判定不一致，这个 patch 会被从数据集中移除。这种做法能提高训练标签的一致性，但也意味着模型主要学习的是“专家高度一致的典型区域”，对于真实临床中那些更模糊的 patch，模型是否同样稳健，还需要进一步验证。LBC-DL 和 AICCS 都是在模型开发中引入局部细胞或异常细胞标注，最终服务于整张液基细胞学切片的诊断输出，区别在于 LBC-DL 更偏向 CIN2+ 筛查任务，而 AICCS 更偏向细胞学分级任务。

PUCAS、MAMILE-UNI 和 TORCH 主要是 WSI /病例级弱监督标签。PUCAS 的最终标签主要依托组织病理学诊断，模型需要从整张尿液细胞学切片中学习哪些区域提示尿路上皮癌；MAMILE-UNI 把胸腹水细胞学或组织病理 WSI 作为 bag，用 WSI 级良恶性和肿瘤来源标签训练 MIL 模型；TORCH 同样基于胸腹水细胞学图像进行弱监督学习，但数据规模更大，并通过专家共识和证据强度分层来确定良恶性和器官系统级来源标签。总的来说，标签只告诉模型“这张切片/这个病例最终是什么”，至于哪些局部区域真正贡献了诊断，需要模型通过 WSI 分类、MIL、注意力或集成策略自己学出来。

二、模型结构的差异

不同研究选择不同模型，是由图像特点和临床任务决定的。

LESSL 先用 YOLOX 从 WSI 中提取单细胞，再用 EfficientNet-B2 训练质控模型，去掉碎片、背景杂质和不完整细胞，之后用 U-net 做单细胞分割，最后根据细胞大小分成大细胞和小细胞，分别用 EfficientNet-B4 做良恶性分类。这种流程比较适合 BAL 中识别稀有脱落的肿瘤细胞。

甲状腺 FNA 研究采用 patch 级 CNN 分类。它没有先分割单个细胞，而是将 WSI 网格化切成 1024×1024 patch，并缩放到 256×256 作为输入。模型预选多个 CNN，最终采用 Inception ResNet v2 。这种方法实现简单，也更适合细胞团、滤泡结构等局部形态信息对判断有帮助的任务。

PUCAS 更强调 WSI 级集成。它先将高分辨率 WSI 切成不重叠 patch，再用 YOLOv7、EfficientNet 和 ConvNeXt-B 提取与非典型或恶性细胞相关的特征；随后使用 Attention Bi-directional LSTM、Transformer 和 Top-N Feature model 三类结构对 WSI 级特征进行预测，并加权平均得到最终置信度。这反映出尿液细胞学的特点：关键证据可能分散且稀少，模型既要捕捉局部强阳性区域，也要利用全切片整体分布信息。

MAMILE-UNI 和 TORCH 是典型的 MIL 思路。MAMILE-UNI 先用 VFEM 找到前景区域，再提取 patch，用 UNI 作为特征编码器，之后通过多层注意力 MIL 聚合成 slide-level 特征；注意力权重还能映射回原始切片生成 heatmap，帮助解释模型关注区域。TORCH 同样把图像切成 patch，并把每张细胞学图像视为 bag，先用 MoCo 自监督训练 ResNet 特征提取器，再训练 AbMIL、TransMIL 等多个模型，并融合细胞学、组织学和临床参数形成集成预测。这种框架的优势是弱监督、可扩展，并且能处理恶性检测和肿瘤来源预测两类任务。

AICCS 则是先在 patch/cell level 用 RetinaNet 检测异常细胞，再基于检测结果提取全切片特征，最后用随机森林完成 WSI-level 分级。这个设计很符合宫颈细胞学的临床逻辑：病理医师先找出异常细胞，再结合异常细胞的数量、类型和形态严重程度给出分级诊断。

总体来看，这些模型的结构差异可以归纳为三类。第一类是显式细胞检测/分割型，优势是解释性强，适合稀有恶性细胞检出。第二类是patch 分类/集成型，实现简单，适合局部图像证据比较明确的任务。第三类是WSI 弱监督/MIL 型，适合大规模切片标签训练，也更容易扩展到复杂任务。

三、从局部到整体的判断

细胞学 AI 真正进入临床时，真正需要的其实是病例级的判断。因此，模型必须解决局部证据到整体诊断的聚合问题。

LESSL 统计 WSI 中模型预测为恶性的细胞比例，超过预设阈值则诊断为阳性。这种方法清晰、可解释性强，但它依赖阈值设定，且阈值可能随样本类型、制片方式、扫描质量和疾病患病率变化。

PUCAS 使用 Top-N Feature model、Transformer 和 attention Bi-LSTM 等结构，既考虑最可疑局部区域，也考虑全切片特征分布，并通过集成得到最终预测。这种方法通常性能更强，但解释成本更高，需要通过热图、错误分析和临床亚组分析证明模型没有依赖伪影或批次特征。

MAMILE-UNI 的 attention-MIL 是让模型自动为不同 patch 分配重要性权重，再加权得到 slide-level 表征。可解释性分析显示，attention heatmap 可以回映射到原始切片空间，用于观察模型主要关注哪些区域。这类方法尤其适合切片标签明确但局部标注成本高的任务。

AICCS 是先将异常细胞检测结果转化为整张切片的统计特征，再输入随机森林完成分级。

这些方法没有绝对优劣。对于稀有肿瘤细胞检测，显式细胞级聚合更容易解释；对于 WSI 级复杂模式，MIL 和 Transformer 更有优势；对于已经有明确报告体系的筛查任务，检测特征加传统机器学习分类器反而可能更容易融入临床流程。

四、临床验证

甲状腺 FNA 研究不仅报告模型测试集准确率，还比较了 AI 与病理专家平均水平，并观察医师参考 AI 后的敏感度、特异性和准确率变化。宫颈 LBC-DL 和 AICCS 在这一点上更进一步。LBC-DL 进行了多中心外部验证、MRMC 研究以及社区筛查和医院机会性筛查两类应用验证；结果显示，模型辅助对初级细胞病理医师提升更明显，并能缩短阅片时间。AICCS 则纳入 16,056 名受试者，并设置内部验证、外部验证、前瞻性验证和随机观察性试验，评估 AICCS 单独判读、病理医师单独阅片以及 AICCS 辅助病理医师三种方式。

尿液 PUCAS 的研究包括回顾性训练队列、回顾性验证队列、不一致队列和前瞻性队列。不一致队列指的是病例组织病理已确诊为尿路上皮癌，但病理学家尿液细胞学诊断为阴性，用于检验 AI 是否能发现人工漏诊的恶性信号。

MAMILE-UNI 的临床价值则体现在另一个方向：在判断恶性的基础上还预测肿瘤来源。胸腹水细胞学常用于转移性肿瘤诊断，临床上不仅需要判断是否恶性，还希望推测原发部位。MAMILE-UNI 在 TSGH 细胞学 smear 数据上进行肿瘤来源预测，整体 accuracy 约 85%；在 TCGA 多中心 H&E 数据上来源预测性能更高，提示组织病理切片中的来源信息更容易被模型捕捉。

TORCH 的临床验证不仅在多个内部和外部测试集中验证模型表现，还进行了人机对比和 AI 辅助判读实验，显示 TORCH 可以提升初级医师的判断能力。更重要的是，TORCH 还分析了模型预测来源与 CUP 患者实际治疗方案之间的一致性，发现治疗方案与 TORCH 预测来源一致的患者预后更好。这使 TORCH 的验证不再只是停留在分类准确率，而是开始接近“模型输出是否可能影响治疗决策和患者结局”的层面。

五、当前局限和未来方向

首先是数据规模和数据分布问题。细胞学样本制备方式多样，包括 smear、cell block、LBC、FNA、BAL、尿液离心涂片等，不同染色、扫描仪、焦面、细胞保存状态都会造成图像域偏移。MAMILE-UNI 的结果中，cell block 整体优于 smear，胸水整体优于腹水，说明制片方式和样本类型会显著影响模型表现。未来模型需要在更多制片方式和中心中验证，不能只依赖单一来源数据。

其次是标签不确定性。病理医师标注存在主观差异，patch 级或细胞级标签尤其容易受阅片者经验影响。scDNA-seq 提供了一个有力方向，但目前成本和规模限制明显。未来可能需要建立多层标签体系：单细胞分子证据、组织病理证据、影像证据、临床随访和专家共识共同参与标签定义。

第三是模型解释性。细胞学 AI 如果只输出一个概率，临床接受度有限。MAMILE-UNI 的 attention heatmap、AICCS 的异常细胞检测结果、LESSL 的单细胞级输出，都在一定程度上增强了可解释性。

第四是临床流程落地。AI 模型即使 AUC 很高，也不等于能直接部署。需要考虑扫描成本、切片质量控制、模型运行时间、报告方式、医生如何采纳 AI 提示、阳性阈值如何设定、不同医院如何校准，以及出现错误时责任如何界定。