你的AI病理分析该做质量控制了——GrandQC实操指南

做过计算病理的人大概都经历过这样的场景:训练好的模型在验证集上表现优异,一换数据集就翻车。排查半天,发现不是模型的问题,而是切片上一个不起眼的记号笔痕迹、一团气泡、或者一块组织折叠区域,悄悄喂给了模型一堆无效信息。
AI病理分析中的伪影
全切片图像(WSI)从组织取样、固定、包埋、切片、染色,到最终扫描成数字图像,每一个环节都可能引入伪影(artifact)。常见的包括:组织折叠、气泡、墨水/记号笔标记、异物、黑斑、边缘模糊和失焦区域。对病理医生而言,这些伪影在镜下一眼就能跳过;但对AI算法来说,它们是像素层面的噪声炸弹。

研究表明,伪影区域会直接导致细胞分类错误。在一项针对200张结直肠癌WSI的评估中,病理学家确认单细胞误分类与伪影区域高度相关——模型并非”学不会”,而是”学错了”。这意味着,如果不在分析流程的最前端加入质量控制步骤,后续所有的分割、分类、预后预测都可能建立在不可靠的基础之上。
换句话说:质量控制是计算病理工作流的必经之路。
GrandQC:目前最全面的开源WSI质控工具
2024年底,德国科隆大学Tolkach团队在Nature Communications上发表了GrandQC工具。它的核心思路很直接:用深度学习在像素级别完成两件事——第一,精确分割出组织区域(tissue detection);第二,在组织区域内识别并标注七类常见伪影(artifact detection),包括组织折叠、记号笔标记、气泡与边缘、失焦、黑斑及异物等。

GrandQC的几个关键优势值得关注。
首先是精度高。组织分割的Dice系数达到0.957,去除伪影后的洁净组织分割Dice在0.919到0.938之间,具体取决于所选的放大倍数模型(5×、7×或10×)。
其次是多器官、多中心泛化。训练数据涵盖多个器官、多家机构,并由专业病理学家进行逐像素标注,属于监督学习。这使它不像某些工具那样局限于前列腺等单一组织类型。
第三是速度快。组织分割平均每张WSI仅需0.4秒,伪影分割根据模型不同在27到45秒之间完成。如果有NVIDIA GPU加持,整个流程可以进一步加速,非常适合批量处理大型数据集。
在与HistoQC、PathProfiler、HistoROI三款现有开源工具的对比中,GrandQC在多器官测试集上展现出了明显优势。

实际使用:从安装到与QuPath联动
GrandQC的安装建议严格按照官方GitHub仓库的步骤,使用conda环境逐步配置依赖。由于开发时间较早(约2022-2023年),部分依赖库版本较旧,不建议随意替换包管理工具,以免出现兼容性问题。安装完成后,需要下载两个预训练模型文件:一个用于tissue detection,一个用于artifact detection,两者配合使用效果最佳。

在实际工作中,GrandQC的一个非常实用的特性是支持输出GeoJSON格式的结果。这意味着你可以直接将质控结果导入QuPath——把生成的GeoJSON文件拖入QuPath项目,所有合格的tile区域会自动显示为独立的注释区块。每个区块保留了完整的空间位置信息,可以直接用于下游分析:分类、分割、特征提取,或者结合WSInfer等工具进行深度学习推理。
使用建议和局限
实际测试中,GrandQC对记号笔标记的检测相当准确,大片墨迹区域都能被完整识别。但也存在一些可优化的空间:比如对笔迹周边区域的排除范围有时偏大,会导致少量有效组织被误排;对黑斑类伪影的识别也可能会过度扩展检测区域。另外,部分组织折叠区域如果折叠程度较轻,可能不会被完全捕获。

但总体而言,它在宁可多去一点,也不要漏掉伪影这个方向上的设计取舍是合理的——对于AI分析而言,假阳性(多去掉一些好组织)的代价远低于假阴性(让伪影混入训练或推理数据)。
需要特别注意的是,GrandQC采用CC BY-NC-SA 4.0协议,仅限非商业用途。
写在最后
数字病理的技术栈已经越来越成熟:从扫描到分析,从分割到分类,开源工具层出不穷。但在这条流水线上,质量控制环节长期处于手动检查或直接跳过的状态。GrandQC提供了一个高效、自动化、精度可靠的方案,把这块短板补上了。
GitHub: https://github.com/cpath-ukk/grandqc
阿图的第五期QuPath图像处理训练营将在5月16,17日;5月23,24日两个周末开营,8个名额(还有3个名额)。欢迎加阿图咨询报名:

夜雨聆风