可解释 AI + 多组学:Transformer 替代经典 MIL,肿瘤术后风险分层
视频信息更丰富!
可解释多模态深度学习提升多中心队列中肝内胆管癌的术后风险分层

文字解读更精炼!
本文融合了临床、放射组学、病理组学三类异质数据,实现肝内胆管癌术后生存风险的精准预测。
提取特征的方法,核磁影像使用的是PyRadiomics软件包;病理组学针对细胞核使用的是Cellprofiler软件,并使用病理大模型提取了深度表征(都是常规方法,在我们的课程中也均有讲解🙂)。
模型训练时以Transformer架构替代了多实例学习(CLAM)的核心特征聚合与建模模块,属于方法学上的关键替换;相比于传统MIL,当前的主要优势在于纳入了跨模态融合。(因为其他步骤,如组织分割、裁切、训练方式等,影响较小,能进行创新的自由度也低;而提取特征使用的病理大模型,大多数实验室都不具备创新的条件,一般使用的都是成熟的大模型;只有多实例聚合的阶段,比较适合替换新的算法,操作简单,可行性高。类似的文章可见:病理 AI 落地:MAMILE-UNI 全自动诊断胸腹水,准确率超传统方法。“套路”学习——病理AI案例1,肺癌biomarker检测病理模型的实际部署,医学AI研究最不重要的可能就是算法和模型)
文献学习
一、文章摘要
手术切除是肝内胆管癌(ICC)的主要根治性治疗手段,但术后高复发率是一项重大挑战。我们开发了一套可解释的、基于Transformer的深度学习流程,通过将预训练编码器与Transformer网络融合,整合了临床变量、放射组学特征和全切片病理图像等多模态数据。为对模型进行生物学验证,我们利用空间转录组学和蛋白质组学解析了其预测背后的注意力机制。该模型在预测2年总生存率方面表现出优异的稳健性,在三个独立验证队列中的曲线下面积(AUC)分别为0.952(95%置信区间:0.909–0.983)、0.924(95%置信区间:0.804–1.000)和0.924(95%置信区间:0.828–0.993)。通过空间多组学分析发现,该模型的注意力优先集中在组织学和分子层面与肿瘤侵袭及侵袭性行为相关的区域。本研究提出了一种新型可解释的多模态深度学习框架,可实现ICC患者术后风险的精准分层。

二、数据预处理与队列质控
(一)研究队列筛选与标准化
模型训练与验证基于多中心临床数据,严格遵循“统一纳入-分层验证”原则:
-
队列构成:共纳入4家医院2012年1月-2022年6月接受根治性手术的654例ICC患者,其中训练集402例(浙江大学医学院附属第一医院),外部验证集252例(南方医科大学南方医院151例、顺德医院62例、西南医科大学附属医院39例),另纳入前瞻性II期临床研究(NCT06298968)患者进行实战验证。 -
纳入排除标准:纳入病理确诊ICC、术前30天内完成MRI检查、临床与病理资料完整、随访≥2年的患者;排除非ICC病理类型、影像/病理数据缺失、术前接受抗肿瘤治疗的病例,确保数据一致性。 -
数据质控流程:临床信息由2名医师独立提取,1名资深医师复核;病理切片经2名 hepatobiliary病理学家标注,分歧由第三方专家裁决;MRI影像由2名10年以上经验的放射科医师共同勾画感兴趣区(ROI),避免人为误差。
(二)多模态数据标准化处理
针对不同模态数据的异质性,采用针对性预处理策略:
-
临床数据:提取年龄、性别、TNM分期、肿瘤大小、淋巴结转移等11项核心变量,二进制变量编码为1/0,多分类变量采用整数编码,缺失值通过多重插补法补充,最终保留11维临床特征。 -
MRI放射组学数据:将DICOM格式影像转换为.nii格式,采用Z-score标准化消除不同扫描仪的系统误差,通过固定灰度级离散化(bin width=5)提升纹理特征稳定性;利用ITK-SNAP手动勾画肿瘤ROI,排除伪影与非肿瘤组织。 -
病理全切片(WSI)数据:将H&E染色切片以20× magnification(0.5μm/pixel)数字化,采用Macenko染色标准化统一染色差异;通过CLAM框架的组织分割算法去除背景与artifact,保留有效组织区域。

三、多模态特征提取技术
(一)放射组学特征提取
基于PyRadiomics(v3.0.1)工具包,从MRI T2加权影像中提取多维度特征:
-
特征类型:涵盖形状特征(肿瘤大小、形态)、一阶统计特征(均值、方差等)、纹理特征(GLCM、GLRLM、GLSZM等6类矩阵特征),以及经Laplacian of Gaussian(σ=1.0/3.0/5.0)和小波变换后的衍生特征,单患者初始提取704维特征。 -
特征筛选流程:第一步通过Spearman相关性分析(阈值|r|=0.8)去除多重共线性特征;第二步采用Cox多因素回归(P<0.1)筛选预后相关特征;第三步通过近零方差过滤剔除无区分度特征,最终经PCA降维保留100维核心放射组学特征。
(二)病理组学特征提取
分为细胞核特征与WSI嵌入特征两类,实现微观形态的量化表征:
-
细胞核特征提取:利用CellProfiler(v4.2.5)工具,对WSI进行512×512像素切片分割,通过阈值分割与形态学操作实现肿瘤细胞核的半自动识别;提取3类核心特征(形态学特征:面积、周长等+Zernike矩;强度特征:苏木精通道均值、中位数等;位置特征:几何重心等),经批次聚合(均值、中位数、标准差等)后获得345维初始特征,最终经Cox回归与FDR校正筛选,保留50维核组学特征。 -
WSI transformer嵌入特征:采用“预训练模型+特征编码”策略,将WSI分割为256×256像素无重叠patch,通过UNI病理基础模型(在大规模病理切片库上预训练)将每个patch编码为1024维特征向量;保留每个patch的空间坐标信息,形成“特征向量+空间位置”的WSI表征,经PCA降维后保留100维全局嵌入特征。
(三)特征融合准备
将临床特征(11维)、放射组学特征(100维)、核组学特征(50维)、WSI嵌入特征(100维)进行标准化处理(Z-score),确保各模态特征尺度一致,为后续融合奠定基础。
四、多模态Transformer模型架构设计
模型核心在于通过Transformer实现跨模态特征的深度融合,整体架构分为三大模块:
(一)模态特异性投影头
针对不同模态特征的维度与分布差异,设计轻量化全连接层作为投影头:
-
临床特征(11维)→ 128维嵌入向量; -
放射组学/核组学特征(100维/50维)→ 128维嵌入向量; -
WSI patch特征(100维)→ 128维嵌入向量; 所有模态经投影后映射至统一嵌入空间,解决异质数据融合的维度不匹配问题。
(二)Transformer编码器核心
采用6层Transformer编码器作为特征融合 backbone,关键设计包括:
-
位置编码:为WSI patch特征添加2D空间位置编码,保留病理组织的空间拓扑信息;为临床/放射组学/核组学特征添加模态标识编码,区分不同数据来源; -
多头注意力机制:采用8头自注意力,允许模型同时关注不同模态间的关联(如放射组学纹理特征与病理核形态特征的相关性)与模态内的关键信息(如WSI中肿瘤边缘区域的高权重特征); -
层归一化与残差连接:每个编码器层包含层归一化(LayerNorm)、多头注意力、全连接层与残差连接,缓解训练过程中的梯度消失问题,提升模型稳定性。
(三)分类预测头
Transformer编码器输出的全局特征向量(128维)输入至两层全连接网络:
-
第一层采用ReLU激活函数,添加0.3 dropout防止过拟合; -
第二层采用Sigmoid激活函数,输出0-1之间的风险评分,以0.5为阈值划分高风险(≤0.5)与低风险(>0.5)患者。
五、模型训练与优化策略
(一)训练环境与超参数设置
-
硬件配置:基于8×NVIDIA Tesla V100-SXM2-32GB GPU,采用分布式数据并行(DDP)训练,支持混合精度计算(AMP)提升训练效率; -
核心超参数:批大小(batch size)=16,初始学习率=1e-4,训练轮数(epochs)=50,权重衰减=1e-5;WSI数据下采样3倍以平衡显存占用与预测性能。
(二)优化器与损失函数
-
优化器:采用Adam优化器,结合余弦退火学习率调度(cosine-annealed LR schedule),在训练过程中动态调整学习率,避免局部最优; -
损失函数:采用类别平衡的二元交叉熵(class-balanced binary cross-entropy),解决高/低风险患者样本分布不平衡问题(训练集中事件发生率约68.4%)。
(三)正则化与早停策略
-
除dropout(rate=0.3)外,对全连接层权重施加L2正则化; -
以验证集AUC为监控指标,采用早停策略(patience=10),当验证集性能连续10轮无提升时停止训练,保存最优模型权重,避免过拟合。
(四)可解释性技术实现
突破深度学习“黑箱”局限,通过双重机制实现模型可解释:
-
注意力可视化:提取Transformer最后一层的patch级注意力权重,映射回WSI原始坐标,生成注意力热图,直观展示模型关注的关键病理区域(如肿瘤侵袭边缘); -
特征重要性评分:通过全局特征排列检验(permutation test)计算各模态特征对预测结果的贡献度,明确临床、放射组学、病理组学中核心预后因子; -
多组学验证:结合空间转录组(10x Genomics Visium)解析注意力区域的分子特征(如EMT通路激活、CAF浸润),通过蛋白质组学(TMT-based)验证风险评分与转移相关蛋白的相关性,为模型预测提供生物学机制支撑。
六、核心技术创新与方法学优势
-
多模态融合策略:采用“投影头统一嵌入+Transformer跨模态注意力”架构,而非简单特征拼接,有效捕捉模态间互补信息,显著优于单模态模型; -
预训练模型迁移:引入UNI病理基础模型,利用大规模通用病理数据的预训练权重,提升小样本ICC数据的特征学习能力; -
严谨的验证流程:经多中心回顾性验证+前瞻性验证+亚组验证三重检验,模型泛化性与稳定性显著高于现有研究; -
可解释性与机制结合:通过注意力热图+空间多组学验证,实现“预测结果-关键区域-分子机制”的完整链路,提升临床接受度。



七、参考文献
-
参考文献:Wan, M., Ding, Y., Wang, Y. et al. Interpretable multimodal deep learning improves postoperative risk stratification in intrahepatic cholangiocarcinoma in multicentre cohorts. npj Digit. Med. 9, 95 (2026). https://doi.org/10.1038/s41746-025-02282-x
-
原文地址:https://www.nature.com/articles/s41746-025-02282-x
夜雨聆风