乐于分享
好东西不私藏

可解释 AI + 多组学:Transformer 替代经典 MIL,肿瘤术后风险分层

可解释 AI + 多组学:Transformer 替代经典 MIL,肿瘤术后风险分层

视频信息更丰富!

已关注

关注

重播 分享

可解释多模态深度学习提升多中心队列中肝内胆管癌的术后风险分层

文字解读更精炼!

本文融合了临床、放射组学、病理组学三类异质数据,实现肝内胆管癌术后生存风险的精准预测。

提取特征的方法,核磁影像使用的是PyRadiomics软件包;病理组学针对细胞核使用的是Cellprofiler软件,并使用病理大模型提取了深度表征(都是常规方法,在我们的课程中也均有讲解🙂)。

模型训练时以Transformer架构替代了多实例学习(CLAM)的核心特征聚合与建模模块,属于方法学上的关键替换;相比于传统MIL,当前的主要优势在于纳入了跨模态融合。(因为其他步骤,如组织分割、裁切、训练方式等,影响较小,能进行创新的自由度也低;而提取特征使用的病理大模型,大多数实验室都不具备创新的条件,一般使用的都是成熟的大模型;只有多实例聚合的阶段,比较适合替换新的算法,操作简单,可行性高。类似的文章可见:病理 AI 落地:MAMILE-UNI 全自动诊断胸腹水,准确率超传统方法“套路”学习——病理AI案例1,肺癌biomarker检测病理模型的实际部署,医学AI研究最不重要的可能就是算法和模型

文献学习

一、文章摘要

手术切除是肝内胆管癌(ICC)的主要根治性治疗手段,但术后高复发率是一项重大挑战。我们开发了一套可解释的、基于Transformer的深度学习流程,通过将预训练编码器与Transformer网络融合,整合了临床变量、放射组学特征和全切片病理图像等多模态数据。为对模型进行生物学验证,我们利用空间转录组学和蛋白质组学解析了其预测背后的注意力机制。该模型在预测2年总生存率方面表现出优异的稳健性,在三个独立验证队列中的曲线下面积(AUC)分别为0.952(95%置信区间:0.909–0.983)、0.924(95%置信区间:0.804–1.000)和0.924(95%置信区间:0.828–0.993)。通过空间多组学分析发现,该模型的注意力优先集中在组织学和分子层面与肿瘤侵袭及侵袭性行为相关的区域。本研究提出了一种新型可解释的多模态深度学习框架,可实现ICC患者术后风险的精准分层。

图1:工作流程概述与模型可解释性。从常规诊断到疾病管理,我们获取了多种数据模态:治疗前经预训练模型CLAM(搭配预训练UNI)处理的H&E染色全切片图像(WSIs)、由病理学家勾勒出肿瘤区域的手术切除标本H&E染色切片、肝脏治疗前磁共振成像(MRI)扫描、从医院信息系统获取的临床信息,以及随访数据。研究采用基于Transformer的深度学习方法,捕捉不同患者生存周期内的多模态特征。通过三个独立的多中心队列开展外部独立验证。运用空间转录组学和蛋白质组学进行模型解读与深入的机制探究。图表由BioRender制作。张,S.(2025)https://BioRender.com/fpgikbc。

二、数据预处理与队列质控

(一)研究队列筛选与标准化

模型训练与验证基于多中心临床数据,严格遵循“统一纳入-分层验证”原则:

  1. 队列构成:共纳入4家医院2012年1月-2022年6月接受根治性手术的654例ICC患者,其中训练集402例(浙江大学医学院附属第一医院),外部验证集252例(南方医科大学南方医院151例、顺德医院62例、西南医科大学附属医院39例),另纳入前瞻性II期临床研究(NCT06298968)患者进行实战验证。
  2. 纳入排除标准:纳入病理确诊ICC、术前30天内完成MRI检查、临床与病理资料完整、随访≥2年的患者;排除非ICC病理类型、影像/病理数据缺失、术前接受抗肿瘤治疗的病例,确保数据一致性。
  3. 数据质控流程:临床信息由2名医师独立提取,1名资深医师复核;病理切片经2名 hepatobiliary病理学家标注,分歧由第三方专家裁决;MRI影像由2名10年以上经验的放射科医师共同勾画感兴趣区(ROI),避免人为误差。

(二)多模态数据标准化处理

针对不同模态数据的异质性,采用针对性预处理策略:

  1. 临床数据:提取年龄、性别、TNM分期、肿瘤大小、淋巴结转移等11项核心变量,二进制变量编码为1/0,多分类变量采用整数编码,缺失值通过多重插补法补充,最终保留11维临床特征。
  2. MRI放射组学数据:将DICOM格式影像转换为.nii格式,采用Z-score标准化消除不同扫描仪的系统误差,通过固定灰度级离散化(bin width=5)提升纹理特征稳定性;利用ITK-SNAP手动勾画肿瘤ROI,排除伪影与非肿瘤组织。
  3. 病理全切片(WSI)数据:将H&E染色切片以20× magnification(0.5μm/pixel)数字化,采用Macenko染色标准化统一染色差异;通过CLAM框架的组织分割算法去除背景与artifact,保留有效组织区域。
图2:ICC-PPS训练与验证队列的临床病理特征。a 训练队列和验证队列的筛选流程。b 对比训练队列与验证队列总生存期(OS)的Kaplan–Meier曲线。c 训练队列和验证队列的分期与淋巴结转移分布情况。d 各研究组间患者基线及肿瘤特征的分布情况。OS 总生存期。

三、多模态特征提取技术

(一)放射组学特征提取

基于PyRadiomics(v3.0.1)工具包,从MRI T2加权影像中提取多维度特征:

  1. 特征类型:涵盖形状特征(肿瘤大小、形态)、一阶统计特征(均值、方差等)、纹理特征(GLCM、GLRLM、GLSZM等6类矩阵特征),以及经Laplacian of Gaussian(σ=1.0/3.0/5.0)和小波变换后的衍生特征,单患者初始提取704维特征。
  2. 特征筛选流程:第一步通过Spearman相关性分析(阈值|r|=0.8)去除多重共线性特征;第二步采用Cox多因素回归(P<0.1)筛选预后相关特征;第三步通过近零方差过滤剔除无区分度特征,最终经PCA降维保留100维核心放射组学特征。

(二)病理组学特征提取

分为细胞核特征与WSI嵌入特征两类,实现微观形态的量化表征:

  1. 细胞核特征提取:利用CellProfiler(v4.2.5)工具,对WSI进行512×512像素切片分割,通过阈值分割与形态学操作实现肿瘤细胞核的半自动识别;提取3类核心特征(形态学特征:面积、周长等+Zernike矩;强度特征:苏木精通道均值、中位数等;位置特征:几何重心等),经批次聚合(均值、中位数、标准差等)后获得345维初始特征,最终经Cox回归与FDR校正筛选,保留50维核组学特征。
  2. WSI transformer嵌入特征:采用“预训练模型+特征编码”策略,将WSI分割为256×256像素无重叠patch,通过UNI病理基础模型(在大规模病理切片库上预训练)将每个patch编码为1024维特征向量;保留每个patch的空间坐标信息,形成“特征向量+空间位置”的WSI表征,经PCA降维后保留100维全局嵌入特征。

(三)特征融合准备

将临床特征(11维)、放射组学特征(100维)、核组学特征(50维)、WSI嵌入特征(100维)进行标准化处理(Z-score),确保各模态特征尺度一致,为后续融合奠定基础。

四、多模态Transformer模型架构设计

模型核心在于通过Transformer实现跨模态特征的深度融合,整体架构分为三大模块:

(一)模态特异性投影头

针对不同模态特征的维度与分布差异,设计轻量化全连接层作为投影头:

  1. 临床特征(11维)→ 128维嵌入向量;
  2. 放射组学/核组学特征(100维/50维)→ 128维嵌入向量;
  3. WSI patch特征(100维)→ 128维嵌入向量; 所有模态经投影后映射至统一嵌入空间,解决异质数据融合的维度不匹配问题。

(二)Transformer编码器核心

采用6层Transformer编码器作为特征融合 backbone,关键设计包括:

  1. 位置编码:为WSI patch特征添加2D空间位置编码,保留病理组织的空间拓扑信息;为临床/放射组学/核组学特征添加模态标识编码,区分不同数据来源;
  2. 多头注意力机制:采用8头自注意力,允许模型同时关注不同模态间的关联(如放射组学纹理特征与病理核形态特征的相关性)与模态内的关键信息(如WSI中肿瘤边缘区域的高权重特征);
  3. 层归一化与残差连接:每个编码器层包含层归一化(LayerNorm)、多头注意力、全连接层与残差连接,缓解训练过程中的梯度消失问题,提升模型稳定性。

(三)分类预测头

Transformer编码器输出的全局特征向量(128维)输入至两层全连接网络:

  1. 第一层采用ReLU激活函数,添加0.3 dropout防止过拟合;
  2. 第二层采用Sigmoid激活函数,输出0-1之间的风险评分,以0.5为阈值划分高风险(≤0.5)与低风险(>0.5)患者。

五、模型训练与优化策略

(一)训练环境与超参数设置

  1. 硬件配置:基于8×NVIDIA Tesla V100-SXM2-32GB GPU,采用分布式数据并行(DDP)训练,支持混合精度计算(AMP)提升训练效率;
  2. 核心超参数:批大小(batch size)=16,初始学习率=1e-4,训练轮数(epochs)=50,权重衰减=1e-5;WSI数据下采样3倍以平衡显存占用与预测性能。

(二)优化器与损失函数

  1. 优化器:采用Adam优化器,结合余弦退火学习率调度(cosine-annealed LR schedule),在训练过程中动态调整学习率,避免局部最优;
  2. 损失函数:采用类别平衡的二元交叉熵(class-balanced binary cross-entropy),解决高/低风险患者样本分布不平衡问题(训练集中事件发生率约68.4%)。

(三)正则化与早停策略

  1. 除dropout(rate=0.3)外,对全连接层权重施加L2正则化;
  2. 以验证集AUC为监控指标,采用早停策略(patience=10),当验证集性能连续10轮无提升时停止训练,保存最优模型权重,避免过拟合。

(四)可解释性技术实现

突破深度学习“黑箱”局限,通过双重机制实现模型可解释:

  1. 注意力可视化:提取Transformer最后一层的patch级注意力权重,映射回WSI原始坐标,生成注意力热图,直观展示模型关注的关键病理区域(如肿瘤侵袭边缘);
  2. 特征重要性评分:通过全局特征排列检验(permutation test)计算各模态特征对预测结果的贡献度,明确临床、放射组学、病理组学中核心预后因子;
  3. 多组学验证:结合空间转录组(10x Genomics Visium)解析注意力区域的分子特征(如EMT通路激活、CAF浸润),通过蛋白质组学(TMT-based)验证风险评分与转移相关蛋白的相关性,为模型预测提供生物学机制支撑。

六、核心技术创新与方法学优势

  1. 多模态融合策略:采用“投影头统一嵌入+Transformer跨模态注意力”架构,而非简单特征拼接,有效捕捉模态间互补信息,显著优于单模态模型;
  2. 预训练模型迁移:引入UNI病理基础模型,利用大规模通用病理数据的预训练权重,提升小样本ICC数据的特征学习能力;
  3. 严谨的验证流程:经多中心回顾性验证+前瞻性验证+亚组验证三重检验,模型泛化性与稳定性显著高于现有研究;
  4. 可解释性与机制结合:通过注意力热图+空间多组学验证,实现“预测结果-关键区域-分子机制”的完整链路,提升临床接受度。
图3:模态总结与多模态性能对比。a 系统从全切片图像(WSI)内识别的组织区域中提取图像块。b 每个提取的图像块都被精确映射到其在原始玻片上的空间坐标。c 计算流程为每个映射坐标生成一个1024维特征向量;为清晰起见,可视化仅展示100个代表性坐标中的三个选定维度。d 在全切片图像(WSI)上勾勒出肿瘤细胞核感兴趣区域(ROI),将其分割为512×512像素的瓦片;以50个瓦片为一批计算特征,并将生成的瓦片级特征聚合至患者水平。e 展示细胞核特征比例分布的饼图。f 经错误发现率(FDR)校正和Cox回归分析后,展示细胞核特征间关系的相关矩阵。g 用于生成特征的肝胆磁共振成像(MRI)感兴趣区域(ROI)标注。h 展示放射组学特征比例分布的饼图。i 经错误发现率(FDR)校正和Cox回归分析后,展示放射组学特征与总生存期(OS)关系的森林图。j 基于内部胆管癌预后预测系统(ICC-PPS)模型在验证队列中划分的高、低风险组的Kaplan–Meier曲线图。k 受试者工作特征(ROC)曲线展示了内部胆管癌预后预测系统(ICC-PPS)、CLAM和TNM分期三种模型在外部验证队列1、2、3中对2年总生存期(OS)的预测性能。采用DeLong非参数法计算95%置信区间(CI)的曲线下面积(AUC)值。l 受试者工作特征(ROC)曲线展示了内部胆管癌预后预测系统(ICC-PPS)、CLAM和TNM分期三种模型在所有外部验证队列中对1年、2年和3年总生存期(OS)的预测性能。采用DeLong非参数法计算95%置信区间(CI)的曲线下面积(AUC)值。m 组织玻片上内部胆管癌预后预测系统(ICC-PPS)模型注意力图与原始感兴趣区域(ROI,红线)的可视化对比,展示了肿瘤边缘勾勒及放大倍数。n 组织玻片上内部胆管癌预后预测系统(ICC-PPS)模型注意力图与原始感兴趣区域(ROI)的对比。FDR:错误发现率;OS:总生存期;ROI:感兴趣区域;ROC:受试者工作特征;ICC-PPS:肝内胆管癌预后预测系统。
图4:空间转录组学揭示不同风险水平患者的肿瘤边缘侵袭特征。a 主要细胞群分布的UMAP可视化。b 患者分布的UMAP可视化。c 肿瘤细胞亚型的UMAP可视化。d 利用Seurat的“addmodulescore”函数计算侵袭性与非侵袭性肿瘤细胞的EMT和增殖评分。e 不同细胞类型中差异表达基因的KEGG通路富集分析。f 相互作用的数量和权重差异。边宽代表整体通讯强度(上图);边宽代表显著配体-受体对的数量(下图)。g 用于空间转录组数据注释的SPOTlight反卷积分析(左图),正常组织分布的SpaCET分析(中图),以及P1与P2细胞间相互作用中TGF-β、WNT和VEGF信号网络(右图)。h MKI67、TOP2A、UBE2C、CDH2、CDH1和VIM表达的小提琴图及空间分布。i 可视化患者肿瘤细胞与正常组织间细胞通讯模式的弦图。j 不同区域差异表达基因的GO通路富集分析。k SpaCET反卷积分析揭示的癌相关成纤维细胞空间分布模式。KEGG:京都基因与基因组百科全书;CAF:癌相关成纤维细胞;EMT:上皮-间质转化;DEG:差异表达基因。
图5:蛋白质组学分析验证了患者风险组之间的差异蛋白表达谱。a 细胞分数与参考图谱的相关性(P1)。b 高、低风险组中与转移和癌相关成纤维细胞相关的差异表达蛋白热图。c 基因集变异分析比较高、低风险组的通路活性。d 转移和癌相关成纤维细胞相关通路的基因集富集分析富集图。e 基于鉴定的基因特征构建的肝内胆管癌蛋白评分模型的受试者工作特征曲线,展示1、2、3、4、5年总生存期的预测性能。f 基于肝内胆管癌蛋白评分模型分层的总生存期卡普兰-迈耶图(肝内胆管癌蛋白评分低和高)。g 前瞻性队列中肝内胆管癌预后预测系统的注意力特征,以及前瞻性验证队列入组患者的磁共振成像扫描及对应注意力图可视化。h 基于肝内胆管癌预后预测系统预测结果的前瞻性队列泳道分析。差异表达蛋白,基因集富集分析,基因集变异分析,癌相关成纤维细胞,肝内胆管癌蛋白评分,肝内胆管癌预后预测系统。

七、参考文献

  • 参考文献:Wan, M., Ding, Y., Wang, Y. et al. Interpretable multimodal deep learning improves postoperative risk stratification in intrahepatic cholangiocarcinoma in multicentre cohorts. npj Digit. Med. 9, 95 (2026). https://doi.org/10.1038/s41746-025-02282-x

  • 原文地址:https://www.nature.com/articles/s41746-025-02282-x