往期推荐:
文献分享:通过协作式人工智能辅助胸部X光片报告增强放射科工作流程,利用大型视觉语言模型:一项概念验证研究
AI驱动的体积分析方法在结直肠肝转移化疗反应评估中的应用
AI-driven volumetric approach for automatic chemotherapy response assessment in colorectal liver metastases
期刊: European Radiology (2026) DOI: 10.1007/s00330-026-12610-8 作者: Abbas M., Andrade-Miranda G., Bourbonne V., Jaouen V., Lepage C., Aparicio T., Visvikis D., Badic B., Conze P-H. 单位: IMT Atlantique, Brest University Hospital, Université Paris Cité等
一、研究背景与意义
癌症治疗反应评估对于治疗决策和预后判断至关重要。实体肿瘤反应评估标准(RECIST 1.1)自2009年更新以来一直是评估治疗反应的金标准,然而该标准在转移性疾病评估中面临诸多局限性。传统RECIST方法依赖于对靶病灶的一维测量,每个器官最多选取两个靶病灶,全身最多五个。这种方法无法充分捕捉肿瘤形态的复杂性和生长模式,且观察者间变异性是一个重大问题,已有研究证实不同放射科医师之间存在显著的测量差异。此外,这种评估方式对临床工作流程施加了大量时间限制,而最关键的是,固有的二维局限性可能遗漏非对称生长肿瘤的重要体积变化。
这些局限性在结直肠肝转移(CRLM)中尤为突出。CRLM患者经常表现为多个形态各异的肝脏病灶,而肝脏是结直肠癌最常见的转移部位,约50%的患者在病程中会发生肝转移。对这些患者的治疗反应评估对于指导管理决策至关重要,包括手术干预时机和全身治疗方案的调整。近年来,人工智能特别是深度学习在医学影像分析中展现出巨大潜力,能够实现自动化病灶检测和分割,提供一致的测量方法,快速处理大量影像数据集,并实现全面的体积评估。
既往研究已探索过体积分析方法在CRLM治疗反应评估中的应用,证明其在可重复性和预后价值方面优于RECIST 1.1。然而,这些研究大多依赖手动或半自动分割方法,耗时且需要临床实践中并不广泛可用的专业软件。近期研究强调,必须开发全自动体积算法才能真正在临床实践中实现总体积(TTV)评估。本研究旨在提出一种基于AI驱动的全自动体积分析方法,以解决上述临床需求。
二、研究目的
本研究旨在评估基于AI驱动的体积分析方法在评估结直肠肝转移化疗反应方面的临床效用,并将其与传统RECIST 1.1测量方法进行比较。具体而言,研究希望验证AI驱动的体积评估是否能为总生存期提供显著的预后信息,尤其是在仅有肝脏转移的患者中,以及自动化深度学习方法是否能使全面的三维评估在临床常规中变得可行。
三、研究方法
3.1 AI分割流程与训练数据
研究团队基于nnU-Net框架开发并验证了一个AI分割流程。nnU-Net是一种自配置的深度学习方法,能够自动适应每个分割任务的特性。该架构基于传统U-Net设计,由编码器路径(捕获上下文信息)和解码器路径(实现精确定位)组成,并通过跳跃连接保留空间信息。研究采用了nnU-Net的默认三维配置,该配置以全分辨率处理体积CT数据,能够在连续层面之间保持空间关系,从而更精确地在三维空间中描绘病灶边界。网络使用Dice损失和交叉熵损失的组合进行训练,其中Dice损失处理类别不平衡问题(考虑到转移瘤相对于整体扫描体积较小),交叉熵损失提供体素级监督。所有计算在单块48GB NVIDIA RTX A6000 GPU上执行。
训练数据来自三个数据集的588例CT扫描:D1(LiTS挑战赛的131例CT扫描)、D2(癌症影像档案库中结直肠肝转移的197例术前CT扫描)和D3(Brest大学医院收集的260例CRLM CT扫描)。这些数据被整合为队列A(588例CT扫描),其中476例用于训练(队列A1),112例留作独立验证(队列A2)。训练数据集的多样性涵盖了多家医疗机构、不同扫描仪类型和采集方案,确保了在各种成像参数下的稳健性能。
图1 患者筛选流程图

图1(原文Fig. 1)患者筛选流程图:展示了从PRODIGE 9-FFCD临床试验中筛选患者的过程,以及训练数据集(队列A1,476例CT扫描用于训练nnU-Net)和验证数据集(队列A2,112例CT扫描用于分割验证)的划分方式。临床验证队列(队列B)包含157例患者、314例CT扫描(基线加首次随访),用于外部治疗反应评估验证。
3.2 临床验证队列
临床验证使用了PRODIGE 9-FFCD临床试验的数据,该试验是一项针对接受一线化疗的转移性结直肠癌患者的III期临床试验,共纳入491例患者。经过严格筛选(排除基线和3个月随访期间缺乏CT数据、影像数据不完整或临床常规中未进行RECIST 1.1全局反应评估的患者),最终纳入157例患者(314例CT扫描),用于外部治疗反应评估验证。另有12例患者因无肝转移或无总生存信息而被排除。
3.3 AI驱动的体积反应评估方法
AI驱动的体积治疗反应评估方法涉及两个关键步骤:肿瘤检测与分割,以及体积量化。在肿瘤检测与分割步骤中,将训练好的nnU-Net模型应用于基线和随访CT扫描,生成所有肝转移灶的初始分割图。在体积量化步骤中,计算每个时间点CT扫描的TTV,并计算连续扫描之间的百分比变化。与RECIST 1.1将评估限制在有限数量的靶病灶不同,本研究的体积方法涵盖了所有可检测的肝转移灶,对肝脏肿瘤负荷进行全面评估。TTV通过将肝脏内所有分割出的转移瘤体积(以立方毫米为单位)求和来计算。
治疗反应分类采用与RECIST 1.1阈值平行的体积标准:体积部分缓解(vPR)定义为TTV较基线降低≥30%,体积进展性疾病(vPD)定义为TTV较最低点升高≥20%,体积稳定疾病(vSD)定义为变化不足以归类为vPR或vPD。研究还通过敏感性分析探索了替代阈值,以识别预后分层的最佳截断值。
图2 AI驱动体积反应评估工作流程

图2(原文Fig. 2)AI驱动体积反应评估工作流程图:展示了从输入CT图像经自动分割到体积量化和反应分类的完整流程。左侧为基线CT扫描(诊断时、系统治疗开始前),右侧为随访CT扫描(治疗3个月后)。中间步骤为肿瘤分割阶段(使用训练好的nnU-Net管线进行推理),将CT输入转化为肿瘤分割图。底部展示了基于AI的体积肿瘤负荷变化分类,通过计算TTV的变化百分比(TTV随访 - TTV基线)/ TTV基线 × 100%),将患者分为应答者(≤λ阈值)和非应答者(>λ阈值)。
3.4 统计分析
分割性能使用Dice相似系数(DSC)进行定量评估。为评估RECIST 1.1和AI体积反应评估的预后意义,研究进行了Kaplan-Meier生存分析。患者被分为两组:应答者(包括PR和SD)和非应答者(PD)。使用log-rank检验比较生存曲线,p<0.05被认为具有统计学显著性。
四、研究结果
4.1 分割性能
nnU-Net模型实现了可靠的分割精度,平均全局Dice评分为0.775±0.211。正如预期的那样,大病灶(DSC=0.899±0.046)和中等病灶(DSC=0.821±0.135)的分割精度最高,小病灶(DSC=0.566±0.330)的性能相对有限。这种与病灶大小相关的性能表现与既往研究一致,反映了在描绘较小病灶时面临的固有挑战——这些病灶通常边界不够清晰,与周围肝实质的对比度较低。
模型的实例检测性能显示出稳健的能力,召回率为0.915,精确度为0.714,F1分数为0.803。模型成功检测了超过90%的所有转移性病灶,假阳性率适中。整体F1分数0.803反映了精确度和召回率之间的平衡,表明该模型在自动化病灶检测方面具有临床实用性。定性评估显示,模型通常能够准确描绘较大的转移瘤,而较小病灶的表现则相对多变。
图3 nnU-Net分割结果

图3(原文Fig. 3)nnU-Net在轴位CT层面的分割结果:展示了Ground Truth(真实标注)与nnU-Net模型预测结果的对比。上排和下排分别展示了不同患者病例的分割效果,红色轮廓区域为AI自动分割的肝脏转移瘤区域,可见模型对中等和大型病灶的分割准确性较高,能够较好地勾画肿瘤边界。
4.2 预后评估价值
在整体验证队列(队列B)中,RECIST 1.1和体积评估均显示出显著的预后价值。使用RECIST 1.1,应答者(n=50)的中位生存期为34.3个月,而非应答者(n=107)为18.1个月(p<0.0001)。同样,使用-30%阈值的体积评估显示,应答者(n=103)的中位生存期为26.7个月,非应答者(n=54)为15.0个月(p<0.0001)。值得注意的是,RECIST 1.1评估的是多个解剖部位的靶病灶,而本研究的体积方法仅聚焦于肝脏肿瘤负荷。
最具说服力的结果出现在分析仅有肝脏转移的亚组(队列B1)时。在该队列中,RECIST 1.1分类在预后分层方面未能达到统计学显著性(p=0.2088),应答者(n=17)的中位生存期为30.3个月,非应答者(n=26)为21.0个月。相比之下,使用-30%阈值的AI驱动体积评估在该亚组中表现出显著的预后价值,应答者(n=29)的中位生存期为30.3个月,非应答者(n=14)为15.0个月(p=0.0150)。这一直接比较消除了多器官疾病的混杂因素,证明了在相同解剖区域内,全面体积评估相对于靶病灶采样的更高敏感性。
图4 仅肝转移亚组的Kaplan-Meier生存曲线

图4(原文Fig. 4)仅肝转移亚组(队列B1)的Kaplan-Meier总生存曲线:上图为基于RECIST 1.1的应答者与非应答者生存曲线对比(应答者n=17,中位生存30.3个月;非应答者n=26,中位生存21.0个月;p=0.2088,无统计学显著性)。下图为基于体积评估(-30%阈值)的应答者与非应答者生存曲线对比(应答者n=29,中位生存30.3个月;非应答者n=14,中位生存15.0个月;p=0.0150,具有统计学显著性)。该结果表明在仅有肝脏转移的患者中,AI体积评估相比RECIST 1.1具有更优的预后分层能力。
4.3 TTV减少阈值分析
为全面评估阈值选择对仅有肝脏转移疾病预后分层的影响,研究进行了系统性的可变阈值分析。该分析揭示了一个显著的阈值范围(-65%至-20%),在该范围内均能产生具有统计学意义的预后分层(p<0.05)。在这一范围内出现的小的非显著性峰值可能代表统计伪影,源于样本量有限(n=43)时阈值的微小调整导致组间暂时失衡,从而降低了统计效能。这种阈值选择的灵活性是体积评估相对于RECIST 1.1固定阈值的一个重要优势,使临床医师能够根据具体临床情境调整截断值。

图5 TTV减少阈值分析

图5(原文Fig. 5)队列B1(仅肝转移疾病)的TTV减少阈值分析。上图展示了p值(对数尺度),绿色区域表示产生显著预后分层的阈值范围(-65%至-20%)。中图显示了在不同阈值下被分类为应答者(蓝色)与非应答者(橙色)的患者数量。下图展示了两组在不同阈值下的中位生存期(月),可见在显著阈值范围内,应答者组的中位生存期明显优于非应答者组。
4.4 多器官转移亚组结果
对于有多器官受累的患者(队列B2),RECIST 1.1和体积评估均提供了显著的预后分层。RECIST应答者(n=33)的中位生存期为38.3个月,非应答者(n=81)为16.1个月(p<0.0001);体积应答者(-30%阈值,n=74)的中位生存期为23.5个月,非应答者(n=40)为15.4个月(p=0.0004)。需要强调的是,对于RECIST 1.1,该分析并非仅基于肝脏,而是捕获了多器官疾病负荷,而体积方法仍专注于肝脏,但肝脏仍然是一个良好的预后指标。
五、讨论与局限性
本研究证明了AI驱动的体积测量在增强转移性结直肠癌肿瘤反应评估方面的潜力。分割性能分析显示,AI系统实现了可靠的肿瘤描绘,尤其对肿瘤负荷较大的病例更为高效,这表明AI辅助能够显著简化放射学工作流程,同时通过有针对性的专家验证保持准确性。尽管RECIST 1.1和体积方法在根本方法学上存在差异,但两者在整个验证队列(队列B)中均显示出对总生存期的显著预后价值。RECIST 1.1通过跨多个解剖部位的靶病灶采样评估疾病进展,而AI驱动的方法则提供仅限于肝转移灶的全面体积量化。
本研究最引人注目的发现是,在仅有肝脏转移的患者中,RECIST 1.1未能实现统计学显著的预后分层,而AI体积评估则表现出显著的预后价值。这表明在解剖学限制的转移性疾病中,全面评估肝脏肿瘤负荷比有限的靶病灶采样更具预后敏感性。此外,体积评估允许灵活的阈值选择(-65%至-20%范围内均有效),这为临床决策提供了更大的适应空间。
研究的局限性包括:首先,AI分割模型在小病灶(≤1000 mm³)中的性能有限(Dice=0.566),可能影响对小转移瘤负荷变化的评估准确性。其次,本研究的体积方法仅评估肝脏病灶,未整合其他部位的肿瘤负荷信息。第三,临床验证队列来自单一临床试验(PRODIGE 9-FFCD),需要在更多样化的人群中进行外部验证。第四,研究未比较AI体积评估与影像科医师手动体积测量的效率差异,也未评估该方法在临床工作流程中的实际可行性。
六、总结与展望
本研究成功开发并验证了一种基于AI驱动的全自动体积分析方法,用于评估结直肠肝转移的化疗反应。nnU-Net模型在肝脏转移瘤分割中表现出可靠的性能(全局Dice=0.775),尤其对中等和大型病灶的分割精度较高。在临床验证中,AI体积评估在整体队列中显示出与RECIST 1.1相当的预后价值,而在仅有肝脏转移的患者亚组中,体积评估展现出显著优于RECIST 1.1的预后分层能力(p=0.0150 vs p=0.2088),这是本研究最具临床意义的发现。
自动化深度学习方法使全面的三维评估在临床常规中变得可行,克服了既往体积方法依赖手动或半自动分割的障碍。体积评估提供的灵活阈值选择(-65%至-20%范围内均有效)为临床决策提供了更大的适应空间,使临床医师能够根据具体情境调整截断值。该方法为CRLM治疗反应评估提供了一种有前景的辅助工具,尤其在肝脏局限性转移性疾病中具有重要临床价值。
未来研究方向包括:在更多样化的人群和多中心数据中验证该方法的泛化性能;探索将肝脏体积评估与其他器官肿瘤负荷信息相结合的多器官综合评估模型;开展前瞻性研究评估该方法在临床决策中的实际影响;以及进一步优化小病灶的分割性能,提高对小转移瘤负荷变化的评估准确性。
七、可改进点与延伸思考
方法层面
AI分割模型在小病灶(≤1000 mm³)中的Dice评分仅为0.566,这是一个明显的短板。小病灶分割的低精度可能源于其与周围肝实质的对比度不足以及边界不清晰。可考虑引入注意力机制或多尺度特征融合来增强对小病灶的检测和分割能力。此外,当前仅使用了三个数据集进行训练,虽然涵盖了多家机构,但数据量相对有限。引入更多样化、更大规模的训练数据可能进一步提升模型的泛化性能,尤其是在不同CT采集参数和造影剂方案下的表现。
实验层面
研究的对比分析仅限于RECIST 1.1,未与其他体积评估方法(如手动体积测量、半自动分割方法)进行直接对比。虽然研究指出了既往体积方法的局限性,但缺乏与这些方法在分割精度和预后价值方面的直接比较。此外,研究未进行消融实验来评估nnU-Net架构中各组件(如3D配置、Dice损失、交叉熵损失组合)对最终性能的贡献。关于阈值选择,虽然展示了-65%至-20%范围内的显著性,但未进一步分析不同临床亚组(如不同原发肿瘤部位、不同化疗方案)中的最佳阈值。
泛化性与临床转化
临床验证队列来自单一III期临床试验(PRODIGE 9-FFCD),患者群体可能具有特定的特征(如特定的化疗方案、疾病分期分布)。该方法在真实世界临床环境中的泛化性能需要在更多中心、更多样化的人群中进行验证。从临床转化角度看,研究未评估AI体积评估所需的实际计算时间、与现有PACS系统的集成可行性、以及放射科医师对该工具的接受度和使用体验。此外,未进行成本效益分析来评估AI体积评估在临床实践中的经济可行性。
延伸方向
可考虑将AI体积评估与其他生物标志物(如循环肿瘤DNA、肝脏功能指标)相结合,构建多模态预后预测模型。在影像组学方面,可进一步提取转移瘤的纹理特征和形态学特征,探索这些特征在预后评估中的附加价值。纵向动态分析方面,可评估连续多次CT扫描中TTV变化轨迹的预后意义,而非仅关注基线与首次随访的两时间点比较。此外,可探索将该方法扩展至其他腹部器官转移瘤(如腹膜转移、淋巴结转移)的评估,构建更全面的肿瘤负荷评估体系。
夜雨聆风