2026年5月8日,美国国立癌症研究所Eytan Ruppin等团队在Cell发表题为AI-predicted spatial transcriptomics unlocks breast cancer biomarkers from pathology的论文。

该文章提出一种名为Path2Space的深度学习模型,可直接从病理切片图像预测基因的空间表达水平。其性能优于现有21种主流算法。为分子检测提供了一种可规模化、高效率且低成本的替代方案,为大型队列治疗相关生物标志物挖掘、肿瘤生物学转化研究开辟了新路径,同时具备在多种癌种中推广应用的潜力。

研究背景
空间转录组学 (Spatial Transcriptomics, ST) 通过在完整的肿瘤组织内绘制基因表达图谱,揭示肿瘤内的异质性以及肿瘤微环境的结构,从而极大地改变了我们对乳腺癌等疾病的理解。
研究困境:尽管ST技术具有巨大的临床应用潜力,但其高昂的成本(单样本检测费用普遍在几万元)严重限制了它的广泛使用,导致其难以应用于生物标志物发现和验证所需的大型患者队列研究。
由于ST数据中的组织形态学图像通常与常规的苏木精-伊红 (H&E) 染色病理图像配对,利用深度学习从H&E切片中预测空间基因表达成为一种低成本且可扩展的替代方案。
然而,以往直接从H&E图像预测空间基因表达的研究仅局限于预测一小部分基因,这阻碍了将该技术应用于大型临床队列中的患者生存和治疗反应分析。
为了解决上述问题,研究团队开发了Path2Space模型,它突破了原有技术只能预测少量基因的限制,能够直接从常规H&E病理切片中预测数千个基因的空间表达。
研究方法
1. 训练数据集
核心表达量训练集:基于10× Genomics Visium空间转录组 (ST) 平台产生的数据,该数据集包含切片的H&E图像,以及在图像上直径为55μm的捕获区域 (Spot) 内测量到的真实基因表达谱。经过严格的图像清晰度和测序质量控制 (QC) 后,最终使用了来自14名患者的22个组织切片,共计包含56,567个匹配的“图像块-基因表达”数据对。
细胞丰度推断训练集:包含来自151名TCGA乳腺癌患者常规诊断H&E切片的1,709个感兴趣区域 (ROIs)。在预测出基因表达后,进一步准确估计该区域的细胞组成(癌细胞、淋巴细胞和基质细胞的比例)。
2. 模型框架
模型首先利用CTransPath这一基础病理学模型来提取图像特征。CTransPath是通过自监督学习在大量组织病理学图像上训练而成的,它能将每个预处理后的图像块编码为一个768维的特征向量。
提取的特征向量会输入到一个多层感知机 (MLP) 神经网络中。该网络包含768个节点的输入层、768个节点的隐藏层,以及14,068个节点的输出层。每一层都使用了ReLU激活函数引入非线性,最终输出对应于14,068个基因的空间表达预测值。
由于ST数据本身存在技术变异和测量噪声,模型在获得初步预测后引入了空间平滑技术由于ST数据本身存在技术变异和测量噪声,模型在获得初步预测后引入了空间平滑技术。具体而言,模型会将每个点的预测基因表达值与其200微米半径内的所有直接相邻点(平均约8个邻居)的表达值进行平均。这一步骤可以大幅度提高分子预测的准确性及下游生物学分析(如细胞类型分类)的可解释性。
3. 训练策略
留一患者交叉验证(leave-one-patient-out cross-validation)框架,确保来自同一患者的所有切片只属于训练集、验证集或测试集中的一种,从而避免数据泄露。对于每一个作为测试集的患者,系统会训练7个不同的模型(每次保留不同的患者作为验证集以实现提前停止训练),最终的预测结果是由这7个模型预测值的平均数得出。

图1 数据集与计算工作流程概述
研究结果
1. 高精度、高泛化性的空间基因表达预测
Path2Space模型能够从常规的H&E病理切片中稳定地预测数千个基因的空间表达(包含CHEK2、HER2和CDH1等关键临床基因),其预测准确度在交叉验证和三个独立的外部队列中均显著超越了现有的ST预测模型。值得一提的,模型的训练是在新鲜冷冻(FF)切片数据上进行的,但它对临床更常用的福尔马林固定石蜡包埋(FFPE)切片展现出了同等优异的泛化能力。

图2 与最先进的ST预测模型进行基准测试
2. 发现了三种决定患者生存预后的“空间亚型 (SpatioTypes)”
研究团队将模型应用于包含976名患者的TCGA大规模乳腺癌队列中,识别出了11个在不同肿瘤间共享的空间转录组聚类 (ST clusters)。基于这些微环境聚类的组成,他们将乳腺癌患者重新划分为三种具有不同空间结构的“空间亚型”:增殖富集型、免疫调节型和免疫失活型,生存分析显示,“免疫失活型”与显著更差的无病生存期密切相关,且这种预后预测能力在HR+、HER2+和三阴性乳腺癌 (TNBC) 等不同分子亚型中均有效。

图3 在TCGA-BRCA中识别预后肿瘤空间类型
3. HER2空间异质性 (SPAND) 预测靶向治疗反应
该研究发现,肿瘤微环境中HER2基因表达的空间异质性(即HER2高表达与低表达区域的空间交错程度,定义为SPAND分数)与曲妥珠单抗的疗效高度相关。HER2 SPAND分数越高,患者达到病理完全缓解(pCR)的概率越大。

图4 空间表达异质性可预测曲妥珠单抗的治疗响应
总结
综上,Path2Space为分子检测提供了一种可规模化、高效率、低成本的替代方案,为大型队列的治疗相关生物标志物挖掘、肿瘤生物学转化研究开辟了新路径,且有望推广应用于多种癌症类型的研究中。
参考文献
Shulman E D, Campagnolo E M, Lodha R.et al. AI-predicted spatial transcriptomics unlocks breast cancer biomarkers from pathology. Cell. 2026, doi: 10.1016/j.cell.2026.04.023
本文转自【DeDrug】公众号
--------- End ---------
感兴趣的读者,可以添加小邦微信加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位或姓名-学校-职务/研究方向。


夜雨聆风