基于超声造影的 AI 模型对肝脏局灶性病变进行多分类:一项多中心临床研究

基于超声造影的 AI 模型对肝脏局灶性病变进行多分类：一项多中心临床研究

Journal of Hepatology, 2025, 83: 426–439 | DOI: 10.1016/j.jhep.2025.01.011

一、研究背景

肝脏是人体最易发生占位性病变的器官之一。常见肝局灶性病变（FLL）包括肝细胞癌（HCC）、肝转移癌（HM）、肝内胆管细胞癌（ICC）、肝血管瘤（HH）和肝脓肿（HA）等，罕见类型还包括肝腺瘤、肝淋巴瘤等。

不同类型的 FLL 治疗方案差异巨大。例如 HCC 和 HM 虽然同为恶性，治疗策略完全不同。简单地鉴别良恶性，或仅能识别一两种 FLL 类型，远不足以制定正确的治疗决策。因此，FLL 诊断应转向精确的多分类。

超声是最常用的肝脏影像检查手段，便捷、低成本、实时，但对 FLL 的诊断能力不理想。MRI 被公认是 FLL 最佳影像诊断工具，诊断性能仅次于病理，但高昂的成本和物流限制影响了其可及性。

超声造影（CEUS）可将常规超声从"筛查"提升至"诊断"水平，能连贯记录 FLL 的血流灌注特征，但高度依赖操作者经验。此外，典型的 CEUS 视频包含上千帧图像，远超其他肝脏影像检查，如何准确、全面地捕获与多类型分类相关的关键动态特征仍是挑战。

为克服这些难题，深度学习（DL）驱动的人工智能（AI）被认为是有希望的解决方案。既往研究多仅能分析静态超声/CEUS 图像，无法连贯分析动态视频，且仅能粗略区分少数常见 FLL 类型。本研究首次将"从影像到生物标志物"和"从影像到疾病"两条 AI 策略与临床特征整合，开发了 Model-DCB，对六种 FLL 进行准确分类。

二、研究方法

数据收集与分组

本研究于 2017 年 1 月启动（NCT04682886），获得中国人民解放军总医院伦理委员会批准。

入组标准： 1）明确实性结节 >1 cm，有 CEUS 视频；2）恶性结节经病理确认；3）良性结节经临床确认、MRI 和随访确认。

排除标准： 1）年龄 <18 岁；2）CEUS 图像质量差；3）临床信息缺失。

最终，来自 52 个中心的 3,342 名患者、3,725 个 FLL 被纳入分析。

图 1. 数据收集流程图。 2017 年 1 月至 2022 年 12 月，中心 1-36 的病例随机分为训练集 A 和验证集。中心 37-49 全部分配至训练集 B。中心 50、51、52 分别分配至内部测试集、外部测试集 A 和 B。2023 年 1 月至 2023 年 12 月，所有 52 个中心的病例构成前瞻性外部测试集 C。CEUS，超声造影；FLLs，肝脏局灶性病变；HA，肝脓肿；HCC，肝细胞癌；HH，肝血管瘤；HM，肝转移癌；ICC，肝内胆管细胞癌；OT，其他类型。

临床含义：这是目前 FLL 多分类 AI 研究中规模最大、中心数最多的前瞻性验证数据集。

两阶段模型构建

图 2. 实验设计流程图。（A）CEUS 处理阶段：基于时间-强度曲线（TIC）从 CEUS 视频中提取降采样关键帧，生成光流图，通过 LSTM 整合空间和时间分支的隐藏特征。（B）第一阶段构建：开发 Module-Disease（通过比较直接五分类与聚合多个二分类子模型）、Module-Biomarker（四个生物标志物子模型）和 Module-Clinic（筛选与 FLL 高度相关的关键临床信息）。（C）第二阶段构建：通过多层感知器（MLP）组合对应模块，构建并比较 Model-D、Model-DC、Model-DB、Model-DCB。（D）临床测试阶段：将最佳模型与 6 名 CEUS 放射科医生和 2 名 MRI 资深医生进行比较，探索人机协作效果及多亚组性能。

CEUS 处理： 从每个视频中，沿 TIC 曲线的起始到峰值均匀采集 80 帧，从峰值到结束均匀采集 20 帧，共计 100 个 ROI。采用双流模型提取空间和时间信息——空间分支通过 ResNet34 提取空间特征，时间分支通过光流图（计算相邻帧像素位移）后经 ResNet18 提取时间特征。

第一阶段：三个模块

• Module-Disease： 比较直接构建多分类模型（策略 A）与聚合多个二分类子模型（策略 B）。五个子模型：HCC vs. 非 HCC、HM vs. 非 HM、ICC vs. 非 ICC、HH vs. 非 HH、HA vs. 非 HA。
• Module-Biomarker： 四个二分类子模型预测 Hep、GPC3、CK7、CK19 的阳性/阴性表达。
• Module-Clinic： 筛选与 FLL 类型相关系数绝对值 >0.2 的 17 种临床信息。

第二阶段：模型聚合 — 通过 MLP 组合模块，构建四个多分类模型。对于罕见类型（OT），不单独训练子模型，而是利用 MLP 将 OT 设为五种常见类型之外的额外分类——当某病例对所有五种 FLL 类型的预测概率均较低时，归类为 OT。

模型评估

在四个测试集中通过多分类指标、亚组分析（性别、年龄、肿瘤大小、病因、肝硬化、脂肪肝、超声设备制造商）和六型雷达图评估模型性能。与 6 名 CEUS 放射科医生（3 名初级、3 名资深）和 2 名资深 MRI 放射科医生进行对比。间隔 1 个月洗脱期后，评估放射科医生在模型辅助下的表现变化。

三、核心结果

研究对象基线特征

表 1. 训练集、验证集和各测试集的基线特征

特征	训练集A (n=2,088)	验证集 (n=592)	训练集B (n=234)	内部测试集 (n=110)	外部测试集A (n=113)	外部测试集B (n=276)	外部测试集C (n=312)
年龄
<50岁	590 (28.3%)	150 (25.3%)	34 (14.5%)	17 (15.5%)	27 (23.9%)	57 (20.7%)	66 (21.2%)
50-60岁	732 (35.1%)	219 (37.0%)	83 (35.5%)	37 (33.6%)	35 (31.0%)	98 (35.5%)	118 (37.8%)
>60岁	766 (36.7%)	223 (37.7%)	117 (50.0%)	56 (50.9%)	51 (45.1%)	121 (43.8%)	128 (41.0%)
性别
男	1,515 (72.6%)	410 (69.3%)	157 (67.1%)	77 (70.0%)	80 (70.8%)	192 (69.6%)	225 (72.1%)
女	573 (27.4%)	182 (30.7%)	77 (32.9%)	33 (30.0%)	33 (29.2%)	84 (30.4%)	87 (27.9%)
病毒性肝炎史
无	952 (45.6%)	249 (42.1%)	109 (46.6%)	55 (50.0%)	53 (46.9%)	139 (50.4%)	155 (49.7%)
有	1,136 (54.4%)	343 (57.9%)	125 (53.4%)	55 (50.0%)	60 (53.1%)	137 (49.6%)	157 (50.3%)
肿瘤大小
<3cm	457 (21.9%)	127 (21.5%)	46 (19.7%)	32 (29.1%)	28 (24.8%)	53 (19.2%)	72 (23.1%)
3-5cm	835 (40.0%)	269 (45.4%)	120 (51.3%)	42 (38.2%)	39 (34.5%)	100 (36.2%)	99 (31.7%)
5-10cm	624 (29.9%)	157 (26.5%)	52 (22.2%)	27 (24.5%)	33 (29.2%)	88 (31.9%)	103 (33.0%)
>10cm	172 (8.2%)	39 (6.6%)	16 (6.8%)	9 (8.2%)	13 (11.5%)	35 (12.7%)	38 (12.2%)
FLL 类型
HCC	1,122 (53.7%)	315 (53.2%)	128 (54.7%)	60 (54.5%)	56 (49.6%)	120 (43.5%)	134 (42.9%)
HM	643 (30.8%)	169 (28.5%)	45 (19.2%)	24 (21.8%)	23 (20.4%)	67 (24.3%)	72 (23.1%)
ICC	126 (6.0%)	36 (6.1%)	15 (6.4%)	7 (6.4%)	6 (5.3%)	16 (5.8%)	28 (9.0%)
HH	103 (4.9%)	34 (5.7%)	12 (5.1%)	4 (3.6%)	10 (8.8%)	31 (11.2%)	31 (9.9%)
HA	94 (4.5%)	38 (6.4%)	18 (7.7%)	8 (7.3%)	11 (9.7%)	23 (8.3%)	25 (8.0%)
OT	0 (0.0%)	0 (0.0%)	16 (6.8%)	7 (6.4%)	7 (6.2%)	19 (6.9%)	22 (7.1%)

各数据集之间基线特征均无显著差异（p1/p2/p3 均 >0.05）。训练集 A 中有 624 个 FLL 具有生物标志物信息（Hep n=499，GPC3 n=436，CK7 n=513，CK19 n=550）。

第一阶段：三个模块的性能

图 3. 第一阶段 Module-Disease、Module-Biomarker 和 Module-Clinic 的性能评估。（A）在验证集（n=592）的五分类中，采用分布式训练的策略 B（绿色）在混淆矩阵、Macro-AUC、Accuracy、Macro-Precision、Macro-Recall 和 Macro-F1 方面普遍优于直接训练的策略 A（紫色）。（B）四个生物标志物子模型在训练集 A（蓝色）和验证集（黑色）上的 ROC 曲线。Hep 子模型 AUC 0.83/0.81，GPC3 子模型 0.81/0.77，CK7 子模型 0.80/0.78，CK19 子模型 0.80/0.79。（C）17 种临床信息被选中，每种与至少一种 FLL 类型的相关系数绝对值超过 0.2。

• Module-Disease： 策略 B（聚合多个二分类子模型）Accuracy 为 0.83（95% CI 0.80-0.86），显著优于策略 A 的 0.77（95% CI 0.74-0.79），p <0.001。
• Module-Biomarker： 四个生物标志物子模型训练集 AUC 范围为 0.80-0.83，验证集 AUC 范围为 0.77-0.81，表明 CEUS 视频能够以良好性能预测免疫组化生物标志物。

第二阶段：四种模型的比较

图 4. 第二阶段 Model-D、Model-DC、Model-DB 和 Model-DCB 的性能评估。（A）在内部测试集（n=110）中，Model-DCB（浅蓝色）在混淆矩阵和各项指标上均优于 Model-D（浅绿色）、Model-DC（亮绿色）和 Model-DB（深绿色）。（B）雷达图展示四种模型在六分类中每类准确度的差异。Model-DCB 对所有六种 FLL 的诊断准确率均达到或超过 0.94。

在内部测试集中：

• Model-DCB Accuracy：0.90（95% CI 0.84-0.95），Macro-AUC：0.89（95% CI 0.84-0.93）
• 从 Model-D 到 Model-DB，Accuracy 从 0.80 提升至 0.86（+7.5%），加入 Module-Biomarker 带来的提升大于 Module-Clinic
• Model-DCB 对六种 FLL 的诊断准确率均 ≥0.94，而其他模型在 HCC 和 HM 上的分类能力较差

Model-DCB 在四个测试集中的表现

图 5. Model-DCB 在四个测试集中的性能。（A）ROC 曲线和 Macro-AUC。（B）各项指标范围：Accuracy 0.85-0.90，Macro-Specificity 0.96-0.98，Macro-Recall 0.75-0.85，Macro-Precision 0.79-0.87，Macro-NPV 0.97-0.98，Macro-F1 0.78-0.84。（C）亚组分析：在性别、年龄、肿瘤大小、病因、肝硬化、脂肪肝和超声设备制造商共 84 个亚组中，准确率范围为 0.77-1.00，绝大多数超过 0.80。（D）六分类雷达图：所有六种 FLL 的准确率均超过 0.90。

测试集	Accuracy	Macro-AUC	Macro-Recall	Macro-Precision	Macro-F1
内部测试集	0.90 (0.85-0.95)	0.89	0.85	0.87	0.84
外部测试集 A	0.85 (0.78-0.92)	0.87	0.75	0.79	0.78
外部测试集 B	0.85 (0.80-0.89)	0.88	0.82	0.80	0.81
外部测试集 C（前瞻性）	0.86 (0.82-0.90)	0.91	0.85	0.81	0.83

与放射科医生的对比和协作

图 6. Model-DCB 与放射科医生的对比与协作。（A）在三个外部测试集中，Model-DCB 显著优于初级 CEUS 医生，与资深 CEUS 医生和资深 MRI 医生水平相当。（B）在 Model-DCB 辅助下，初级 CEUS 医生的 Macro-AUC 大幅提升（如 Junior 1 从 0.70 升至 0.85）。（C）资深 CEUS 医生同样有所提升，但幅度较小。

表 2. 临床测试阶段——外部测试集 C（前瞻性多中心测试集）

诊断者	Accuracy	p 值	Macro-Specificity	Macro-Recall	Macro-Precision	Macro-NPV	Macro-F1
AI	0.86 (0.82–0.90)	参照	0.97 (0.96–0.98)	0.85 (0.81–0.90)	0.81 (0.75–0.86)	0.97 (0.96–0.98)	0.83 (0.78–0.88)
Junior 1	0.59 (0.53–0.64)	<0.01	0.92	0.53	0.49	0.91	0.50
Junior 1+AI	0.83 (0.80–0.88)	0.31	0.97	0.77	0.75	0.96	0.76
Junior 2	0.70 (0.65–0.75)	<0.01	0.94	0.60	0.57	0.94	0.58
Junior 2+AI	0.85 (0.81–0.89)	0.64	0.97	0.80	0.78	0.97	0.79
Junior 3	0.63 (0.57–0.68)	<0.01	0.92	0.55	0.52	0.92	0.53
Junior 3+AI	0.84 (0.80–0.88)	0.42	0.97	0.78	0.76	0.97	0.77
Senior 1	0.83 (0.80–0.85)	0.25	0.97	0.74	0.73	0.96	0.73
Senior 2	0.85 (0.83–0.87)	0.71	0.97	0.80	0.81	0.97	0.79
Senior 3	0.83 (0.79–0.88)	0.29	0.97	0.77	0.76	0.96	0.76
MRI 1	0.86 (0.82–0.89)	0.16	0.97	0.84	0.81	0.97	0.82
MRI 2	0.86 (0.82–0.90)	0.99	0.97	0.84	0.81	0.97	0.83

临床含义：在 AI 辅助下，初级 CEUS 医生的 Accuracy 从 0.59-0.73 显著提升至 0.82-0.87（p<0.05），达到了资深放射科医生的水平。这也意味着基层或偏远地区的初级医生在 AI 辅助下，可为 FLL 患者提供与资深 MRI 医生相当的诊断服务。

模型泛化性和稳健性

• 泛化实验： 在三种模拟临床场景（体检中心 1:9 良恶性比、门诊 5:5、住院病房 9:1）中，Model-DCB 的准确率无显著差异，表明 FLL 患病率差异不影响模型性能。
• 稳健性实验： 随机调整 ROI（扩大/缩小/移动/组合）100 次重复实验，对模型性能无显著影响。

误诊分析

三个外部测试集中（n=701）：

• 最频繁误诊： HCC 与 HM 之间（n=27，5.7%，27/472），这两种 FLL 在临床上本身也以鉴别困难著称。
• 最关键误诊： 恶性 FLL（HCC/HM/ICC）误诊为良性（HH/HA）（n=21，4.0%，21/522），其中坏死性转移灶与 HA 在 CEUS 上的鉴别困难被临床和实验室信息有效弥补。

四、文献精读要点

背景 → 目的

• 肝脏局灶性病变（FLL）的多分类是制定正确治疗决策的前提，但最常用的超声检查缺乏足够准确性
• 超声造影（CEUS）诊断性能更好，但高度依赖操作者经验，且视频信息量巨大超出人工分析能力
• 本研究旨在开发基于 CEUS 的 AI 模型（Model-DCB），实现 FLL 的六分类，并在多中心临床测试中验证其性能

核心方法

• 52 个中心、3,725 例 FLL 的大规模多中心数据库（含 805 个生物标志物结果）
• 两阶段策略：先独立构建 Disease/Biomarker/Clinic 三个模块，再通过 MLP 聚合为 Model-DCB
• 创新点：将"从影像到生物标志物"策略与"从影像到疾病"策略融合，利用光流法处理动态视频的时间信息

核心结果

• 在前瞻性外部测试集 C（n=312）中，Model-DCB Accuracy 0.86，显著优于初级 CEUS 医生（0.59-0.73），与资深 CEUS 医生（0.83-0.85）和资深 MRI 医生（0.86）水平相当
• 在 AI 辅助下，初级 CEUS 医生 Accuracy 从 0.59-0.73 提升至 0.82-0.87（p<0.05），达到资深医生水平
• 84 个亚组分析中准确率范围 0.77-1.00，跨设备、跨人群稳定性良好

局限性与结论

• 数据全部来自中国中心，未来需国际验证；部分良性 FLL 基于临床而非病理诊断
• Model-DCB 通过有效整合 CEUS 视频、生物标志物信息和临床信息，为 FLL 提供了准确的六分类
• 该模型具备低算力需求、跨厂家稳定、即装即用的特点，尤其适合 MRI 可及性有限的偏远地区

— 医文笔记小小侠 | 大龄医学博士在读 · 二孩爸爸 — 慢慢读，慢慢积累。