香草最近在看病理AI方向的东西,发现一个很有意思的现象。

病理学——就是医生在显微镜下看组织切片、判断是不是癌的那门学科——可能是医学领域里最后被AI大规模改造的环节之一。不是因为它难,而是因为数据太宝贵了。一张全切片病理图像(WSI)动辄几十GB,比一张CT影像大几百倍。

但偏偏就在这个领域,有一个开源项目在GitHub上默默长了1679颗星,被发表在Nature Biomedical Engineering上。
它叫CLAM(全称:Clustering-constrained Attention Multiple-instance learning),来自哈佛大学Mahmood Lab的团队。502个Fork、GitHub Star稳步增长,GitHub Topics标签有15个,从"weakly-supervised-learning"到"digital-pathology",覆盖了整个计算病理学技术栈。
CLAM解决的核心问题是什么?
传统的病理AI需要病理学家手动标注图像中的每个区域——"这里正常,这里癌变,这里癌前病变"——这个标注过程是病理AI商业化的最大瓶颈。一个有经验的病理医生一天最多标注几十张切片,而一家医院一天产生上千张。

非小细胞肺癌
CLAM的思路很聪明:它用弱监督学习(Weakly Supervised Learning),只需要知道整张切片有没有癌,不需要知道癌具体在哪。然后模型自己学会"关注"那些最可疑的区域。
你可以把它理解成:不是让AI去记答案,而是让AI学会怎么找答案。
技术原理其实比想象中直白。

CLAM的核心是注意力机制(Attention Mechanism),就是Transformer里那个"QKV注意力"。整张切片被切分成成千上万个小块(patch),每个小块通过一个预训练的特征提取器编码成一个向量。然后CLAM训练一个注意力网络,学会给每个patch打分——把注意力集中在和疾病最相关的区域。

这个"注意力分数"有个很实用的副产品:它可以直接用来做热力图可视化。病理医生打开CLAM的分析结果,一眼就能看到模型认为哪块区域"可疑"。说白了,它给了一个"第二双眼睛"。
实际用起来效果怎么样?
在临床数据上,CLAM在四个独立测试集上达到了相当高的准确率。针对肺癌(TCGA-NSCLC)亚型分类,AUC达到0.94以上。对于肾癌和乳腺癌的多分类任务,也在0.92-0.96之间。最关键的是,CLAM在做分类的同时还能给出注意力热力图,告诉病理医生"我是怎么得出这个结论的"。

这和很多AI"黑箱"方案完全不一样。
横向对比一下。同样做弱监督病理AI的还有TissueImageAnalytics的TIAToolbox(528星)和Dana-Farber的PathML(452星)。TIAToolbox强在全面的计算病理流程管线,PathML侧重标准化特征提取。而CLAM的核心竞争力在于它的注意力可视化能力——它不只是给结论,而是给证据。

香草觉得,CLAM代表了医疗AI的一个正确方向:不是替代医生,而是让医生更强。
尤其是对于中国这样的医疗资源分布极不均衡的国家,一个能装在任何病理科电脑上的开源AI辅助诊断工具,比花几百万买一台进口设备,对基层医院的意义要大得多。病理医生的培养周期是10到15年,而AI的部署周期是几周。

未来CLAM这类工具如果能在国内医院真正落地,香草觉得最大的价值不是代替哪个专家,而是让每个县级医院的病理科都拥有一个"哈佛级别的第二诊疗意见"。
参考来源
1. CLAM GitHub仓库(mahmoodlab/CLAM):https://github.com/mahmoodlab/CLAM
2. CLAM论文 - Nature Biomedical Engineering:https://www.nature.com/articles/s41551-024-01232-w
3. Mahmood Lab(哈佛医学院/布里格姆妇女医院):https://lab.mahmoodlab.org/
4. TIAToolbox(计算病理学工具箱):https://github.com/TissueImageAnalytics/tiatoolbox
5. PathML(Dana-Farber癌症研究所):https://github.com/Dana-Farber-AIOS/pathml
6. TRIDENT(大型全切片图像处理工具包):https://github.com/mahmoodlab/TRIDENT
7. TOAD(AI癌症不明原发灶起源预测):https://github.com/mahmoodlab/TOAD
8. Nature BME综述 - 计算病理学综述:https://www.nature.com/articles/s41551-024-01232-w
9. TCGA癌症基因组图谱数据:https://www.cancer.gov/tcga
10. CAMELYON病理AI挑战赛:https://camelyon16.grand-challenge.org/
夜雨聆风