多模态AI预测肥厚型心肌病心源性猝死
融合 LGE-CMR 原始影像、EHR 与心脏影像报告的 Transformer 模型
—— 跨两家医院外部验证,AUROC 0.89 / 0.81,超越 ACC/AHA、ESC、HCM Risk-SCD 三大指南 0.22–0.35
作者:Changxin Lai, Minglang Yin, Natalia A. Trayanova 等|单位:美国 Johns Hopkins University 等七家机构|期刊:Nature Cardiovascular Research, 2025, 4: 891–903|DOI:10.1038/s44161-025-00679-1
一、导读
核心亮点:肥厚型心肌病(HCM)是青年心源性猝死(SCD)的首要病因,但 ACC/AHA、ESC、HCM Risk-SCD 等现行风险评估工具在真实队列中的 AUROC 仅 0.51–0.62,几乎无判别价值。本研究提出 MAARS(Multimodal AI for ventricular Arrhythmia Risk Stratification),将 原始 LGE-CMR 影像 → 3D Vision Transformer、EHR 40 项协变量 → FNN、心脏影像报告(CIR)27 项指标 → FNN 三条单模态分支的潜在特征,经由 多模态瓶颈 Transformer(MBT) 融合,输出患者级 SCDA 风险评分。在 Johns Hopkins 的 553 例内部队列(5 折交叉验证)与 Atrium Health 的 286 例外部队列中,AUROC 分别达到 0.89 与 0.81,较三大临床指南绝对提升 0.22–0.35,且在性别、年龄亚组中均保持稳定优势。
心源性猝死(SCD)在欧美每年以 50–100/10 万人口的速率夺走生命,而 HCM 作为最常见的遗传性心脏病(每 200–500 人即有 1 例),在青年人群中更是 SCD 的首要病因。植入式心脏复律除颤器(ICD)可有效终止致命性室性心律失常,但能否精准识别出“真正应被保护的高风险者”,一直是 HCM 管理中最棘手的临床难题。Johns Hopkins 的 Natalia A. Trayanova 课题组,联合加州大学旧金山分校、Atrium Health、犹他大学等机构,构建了首个真正意义上的“端到端多模态 AI SCDA 风险分层模型” MAARS,将原始 LGE-CMR 影像信息、结构化电子病历与心脏影像学报告三类异质数据,在 Transformer 架构中一体化融合,实现了对现有临床指南的系统性超越。
二、研究背景:HCM 猝死风险分层的三大难点
▍ 1. 现行指南判别力有限
LVEF < 30–35% 作为猝死一级预防的 ICD 指征主要来源于缺血性与扩张性心肌病,对 HCM 不适用——HCM 患者多数 LVEF 正常甚至偏高。ACC/AHA 指南、ESC 指南与 HCM Risk-SCD 计算器在本研究两大真实世界队列中的 AUROC 仅为 0.51–0.62(接近随机),C-index 在既往不同人群中波动于 0.52–0.92,提示其跨队列泛化性差。
▍ 2. LGE-CMR 信息长期被“特征工程”浪费
LGE-CMR 通过钆剂延迟增强,直观反映心肌纤维化——这是心律失常基质的重要解剖学标志。但此前研究普遍停留在“LGE 是否存在”或“LGE 百分比”等手工特征层面,既丢失了空间分布信息,又引入了显著的阅片者间差异。少数深度学习尝试或样本量不足、或未做外部验证、或未覆盖多样人群,临床影响有限。
▍ 3. 多模态数据融合范式缺失
HCM 患者的风险信息散落于 EHR(症状、家族史、运动试验)、影像报告(LV 质量、LGE%、LVOT 梯度)、原始影像像素等不同模态中。早期融合(early fusion)将异质特征简单拼接后送入单一模型,既难学到模态间的互补关系,又容易被高维影像淹没。如何设计真正有效的多模态融合,是本研究的核心方法学挑战。
三、方法:一条“三分支 + 瓶颈融合”的 Transformer 流水线
▍ 1. 双中心队列与终点定义
内部队列(JHH-HCM):2005–2015 年 Johns Hopkins HCM 中心确诊、具备 LGE-CMR 的 553 例;平均随访 2.86 年;主终点 SCDA = 持续性室速/室颤 + 除颤器恰当放电/抗心动过速起搏,19 例(3%)发生。外部队列(SHVI-HCM):2015–2023 年 Atrium Health Sanger Heart & Vascular Institute 的 286 例;主终点 SCDA = 设备放电 + 恰当干预 + 院外心脏骤停,25 例(9%)发生。两队列在年龄、种族、NSVT、LV 容积等 18 项协变量上存在显著差异,构成天然的“跨医院泛化压力测试”。

图1:MAARS 模型整体架构示意。三条单模态分支(LGE-CMR → 3D-ViT;EHR → FNN;CIR → FNN)分别编码模态特异性知识,再经多模态瓶颈 Transformer(MBT)融合,输出患者级 SCDA 风险评分。
▍ 2. 三条单模态分支网络
LGE-CMR 分支 — 3D Vision Transformer (3D-ViT):原始短轴 LGE 图像经 LV ROI 自动分割、血池归一化、重采样为 96×96×20 体素;切成非重叠 3D patch 后,经线性投影 + CLS token + 位置编码 + 8 层 × 8 头多头自注意力编码,输出 32 维潜在表示。关键创新:不使用预分割的纤维化标注,直接以原始像素强度输入,保留完整空间信息,消除阅片者间差异。
EHR 分支 — FNN:40 项协变量(人口学、症状、合并症、既往史、运动试验等),经 MICE 多重插补、z-score 标准化后,送入两隐层 FNN,输出 16 维潜在表示。
CIR 分支 — FNN:27 项来自超声心动图 + CMR 报告的定量指标(LV 质量、LGE%、瘢痕质量、LV 应变率、LVOT 梯度、二尖瓣流入速度等),同样经 FNN 编码为 16 维潜在向量。
▍ 3. 多模态瓶颈 Transformer(MBT)融合
三条分支输出的潜在向量 ζ_CMR、ζ_EHR、ζ_CIR 与一个共享的融合向量 ζ_fsn(维度 8)一同送入 MBT。每个 MBT 块中,融合向量分别与各模态向量在模态专属 Transformer 中交互更新,再取平均回写 ζ_fsn,迫使跨模态信息通过狭窄“瓶颈”交换,既减少过拟合,又高效学习模态间互补关系。MBT 共 3 个块,末层融合向量经线性层 + sigmoid 输出 SCDA 风险评分 p ∈ [0,1]。
▍ 4. 训练与可解释性策略
三条分支先独立训练,再端到端联合微调;采用类别平衡的 Focal Loss(γ=2,α 按类别加权)缓解极度不平衡;内部 5 折交叉验证严格按患者切分,避免数据泄漏。外部验证使用内部 90%/10% 切分最终模型,原超参不变。可解释性方面,对 EHR/CIR 分支使用 SHAP Shapley 值量化每项协变量的贡献;对 LGE-CMR 分支使用 Attention Rollout 追踪注意力跨层流动,生成像素级热图。
四、核心结果:AUROC 0.89 / 0.81,全面优于三大临床指南
▍ 1. 跨队列性能碾压现行指南
内部 5 折交叉验证:MAARS 平均 AUROC = 0.89(95% CI 0.79–0.94),平均平衡准确率 BA = 0.80,AUPRC = 0.22,Brier 得分 = 0.16;外部独立验证:AUROC = 0.81(95% CI 0.69–0.93)。同期三大临床工具在内部队列:ACC/AHA AUROC 0.62、ESC 0.54、HCM Risk-SCD 0.54,外部队列 0.51–0.59。MAARS 绝对提升 0.27–0.35(内部)与 0.22–0.30(外部),差异显著。Kolmogorov–Smirnov 检验进一步显示:三大临床工具在 SCDA 与非 SCDA 组间风险得分分布无显著差异(P > 0.05),而 MAARS 的 K-S = 0.66,P < 0.001,判别力鸿沟明显。

图2:MAARS 与三大临床风险评估工具的 ROC 曲线及风险分布对比。(a)内部 5 折交叉验证(n=553);(b)外部独立验证(n=286);(c)MAARS 对 SCDA 与非 SCDA 患者的风险得分分布呈现显著分离(K-S=0.66, P<0.001),而临床工具几乎无差异。
▍ 2. 多模态融合的阶梯式增益
消融实验显示性能随模态数量单调提升:EHR 单模态 AUROC = 0.84 → EHR+CIR 早期融合 = 略低于 EHR 单模态(印证早期融合劣势)→ EHR+CIR 中期融合(FNN+MBT)≈ 0.85 → EHR+CIR+LGE-CMR 完整 MAARS = 0.89。同时,MAARS 的 CI 宽度反而更窄,说明多模态并未放大方差,MBT 结构有效抑制了过拟合。

图3:不同数据模态组合下的性能箱线图。从左至右依次为单模态 EHR、单模态 CIR、早期融合、中期融合、完整 MAARS。AUROC/BA/AUPRC 单调上升,Brier 得分单调下降,多模态融合的增益明确。
▍ 3. 性别与年龄亚组公平性
性别:女性(n=187)MAARS AUROC = 0.90 vs 指南 0.56–0.61;男性(n=366)= 0.88vs 指南 0.52–0.62。
年龄:< 40 岁(n=94,SCDA 高危群体)MAARS = 0.85 vs 指南 0.48–0.55;40–60 岁(n=263)=0.93(最佳);> 60 岁(n=196)= 0.86vs 指南 0.41–0.58。
MAARS 在所有亚组中均全面优于三大临床工具,且组间 AUROC 波动仅 0.02–0.08,公平性显著优于临床指南(HCM Risk-SCD 在性别间波动达 0.09,ACC/AHA 在年龄间波动达 0.21)。

图4:MAARS 在性别(a, b)与年龄(c, d)亚组中的 AUROC 与 BA 表现。MAARS 在所有亚组中均全面超越三大临床工具,并保持组间最低波动,体现出优秀的人口学公平性。
▍ 4. 可解释性:与临床共识一致并揭示新线索
EHR 分支(Shapley 值):非持续性室速(NSVT)(r = 0.91)与 心房颤动病史(r = 0.75)强正相关于 SCDA;运动试验目标心率达标比例(r = −0.69)呈保护性关联。
CIR 分支:非梗阻型 HCM(r = 0.74)与 LGE 负荷(%)(r = 0.70)强阳性预测;而 LV 舒张末容积、SAM 征、LVEF、运动时 LVOT 梯度呈负相关。反直觉发现:传统观念认为梗阻型 HCM 风险更高,但本研究与近期 Lu (2018)、Parcharidou (2020) 结果一致——非梗阻型可能反映更严重的心肌病变(更高纤维化、更多微血管功能障碍),其室性心律失常负担反而更重。
LGE-CMR 分支(Attention Rollout):对于发生 SCDA 的患者,模型高注意力区域通常包含但不限于 LGE 增强区;对于未发生者,高注意力区多位于 LGE 周围组织。说明 MAARS 学到了纤维化的空间分布模式,而非单纯的“有或无”。

图5:MAARS 模型可解释性分析。(a, b)EHR 分支的 Shapley 值散点图与 TOP 特征:NSVT、房颤史为最强正相关因子;(c, d)CIR 分支:非梗阻型 HCM、LGE% 为最强正相关因子;(e)LGE-CMR 注意力热图:红色=SCDA 组高注意力区,蓝色=非 SCDA 组高注意力区,黄色箭头=LGE 增强区域。
▍ 5. 与既往 HCM 风险模型的系统比较
|
方法 |
模态 |
样本量 |
外部验证 |
AUROC |
|
ACC/AHA 2020 指南 |
临床 |
— |
— |
0.51–0.62 |
|
ESC 2023 指南 |
临床 |
— |
— |
0.54 |
|
HCM Risk-SCD (O’Mahony 2014) |
临床 |
— |
— |
0.54–0.59 |
|
Smole 2021(RF) |
EHR |
单中心 |
否 |
— |
|
Zhao 2024(非线性模型) |
临床+CMR 特征 |
单中心 |
否 |
— |
|
Kolk 2024(多模态可解释) |
EHR+CMR 特征 |
单中心 |
否 |
— |
|
MAARS(本研究) |
原始LGE-CMR + EHR + CIR |
553 + 286 |
是 |
0.89 / 0.81 |
表1:MAARS 与既往 HCM SCDA 风险模型的系统对比。MAARS 在“模态丰富性—样本规模—外部验证—判别性能”四个维度综合领先。
五、讨论与意义
▍ 1. 为什么“原始影像 + 中期融合”能取得如此显著的提升?
关键在于三点:其一,直接学习 LGE-CMR 原始像素强度,保留了纤维化分布的全部空间信息,避免了手工特征与阅片者间差异——这一思路此前仅在扩张性心肌病(Popescu 2021)中被验证过,本研究首次在 HCM 中大规模复现并外部验证。其二,中期融合 > 早期融合:早期融合将异质特征一次性拼接,高维影像特征易淹没临床变量信号;MBT 通过“狭窄瓶颈”强制跨模态交互,保留各模态特异性的同时高效融合。其三,端到端训练让三条分支的特征表示对“预测 SCDA”这一任务共同优化,而非分别训练后拼接。
▍ 2. 临床与工程价值
✅ 更精准的 ICD 决策:MAARS 在 < 40 岁高危亚组 AUROC = 0.85,而传统指南 ≈ 0.48–0.55,对青年 HCM 猝死一级预防具有直接临床转化价值;
✅ 跨医疗系统泛化:外部 AUROC = 0.81,在完全不同种族构成、合并症谱、成像设备的队列中依然稳健;
✅ 推理成本低:GPU 单例推理 0.034 秒、CPU 0.086 秒,适合集成进临床影像报告系统;
✅ 可解释 + 公平性双重保障:Shapley 值与注意力热图使预测可审计;亚组一致性缓解了 AI 模型“对少数群体不公”的普遍担忧。
▍ 3. 局限与未来方向
(1)单中心研发 + 单中心外部验证,队列规模虽已超越多数 HCM AI 研究,但 SCDA 绝对事件数仍偏少(19 + 25),外部 AUROC 置信区间较宽(0.69–0.93);
(2)缺乏精确的事件时间信息,尚未构建生存模型/动态风险预测,无法评估风险随随访时间的演化;
(3)LGE-CMR 数据采集与算力需求可能阻碍基层医院部署,作者已开源简化版(仅使用最重要协变量)以降低临床门槛;
(4)未来方向:纳入 12 导联 ECG、基因检测、心脏数字孪生等更多模态;在更大多中心联盟队列(如 EVIDENCE-HCM)验证;探索与介入干预决策(ICD、消融)的闭环优化。
六、结论
这项研究系统性地证明:通过“原始影像 + 结构化 EHR + 影像报告文本”三模态 Transformer 融合,HCM 患者的心源性猝死风险分层可以从当前临床指南的 AUROC 0.51–0.62 跃升至 0.81–0.89,并在性别、年龄亚组中保持稳定优势。MAARS 不仅在性能上全面超越 ACC/AHA、ESC、HCM Risk-SCD 三大权威工具,更在可解释性、跨医疗系统泛化性、人口学公平性三个维度同步交出了令人信服的答卷。
七、原文信息
原文标题:Multimodal AI to forecast arrhythmic death in hypertrophic cardiomyopathy
作者:Changxin Lai, Minglang Yin, Eugene G. Kholmovski, Dan M. Popescu, Dai-Yin Lu, Erica Scherer, Edem Binka, Stefan L. Zimmerman, Jonathan Chrispin, Allison G. Hays, Dermot M. Phelan, M. Roselle Abraham, Natalia A. Trayanova
单位:Johns Hopkins University 心血管诊断与治疗创新联盟、生物医学工程系;UCSF HCM 卓越中心;Atrium Health Sanger 心脏与血管研究所;犹他大学儿科心脏科
期刊:Nature Cardiovascular Research, 2025, Volume 4, 891–903
DOI:https://doi.org/10.1038/s44161-025-00679-1
代码开源:https://gitlab.com/natalia-trayanova/maars-public
关键词:hypertrophic cardiomyopathy; sudden cardiac death; multimodal AI; Vision Transformer; LGE-CMR; SCDA risk stratification; multimodal bottleneck transformer; SHAP; attention rollout
— END —
夜雨聆风