AI+公共数据,复刻Cell级成果
空间转录组很贵,大队列更难做。这篇 Cell 文章换了一个思路:不重新做大量空间实验,而是用公开 Visium 空间转录组和普通 H&E 病理切片训练 AI,让模型从病理形态中预测空间基因表达。
作者开发的模型叫 Path2Space。训练时,先根据 Visium spot 位置,从配套 H&E 切片中切出小图,做颜色标准化,再用 CTransPath 提取病理图像特征,最后用 MLP 神经网络预测每个位置上 14068 个基因的表达。简单说,就是让模型学习:什么样的组织形态,对应什么样的空间表达模式。
模型训练好后,作者没有只报准确率,而是把预测结果做成空间表达热图,比较 ERBB2/HER2、CHEK2、CDH1 等基因的真实表达和 AI 预测表达。结果显示,预测表达能较好还原基因在组织中的空间分布。作者还在 HEST、Martinez、HTAN 等独立队列中验证,说明模型有一定泛化能力,甚至在 FFPE 样本上也有接近表现。
接着,作者把 Path2Space 用到 TCGA、METABRIC 等乳腺癌大队列 H&E 切片上,生成“虚拟空间转录组”。每张切片被切成很多接近 Visium spot 大小的位置,每个位置都有预测基因表达。随后作者做空间区域聚类,得到 11 类空间区域,并用 t-SNE、空间分布图和通路热图展示这些区域的差异。
这些虚拟空间信息还能继续连接临床。作者根据 11 类空间区域在每个患者中的比例,把乳腺癌分成增殖富集型、免疫调节型、免疫不活跃型等空间类型。结果发现,免疫不活跃型患者预后更差,并且在 METABRIC 队列中也能验证。
最后,作者还把它用于疗效预测。比如 HER2 不是只看平均表达,而是看高低表达区域在组织里如何分布。作者提出 SPAND 指标,衡量 HER2 局部空间异质性,用于预测曲妥珠单抗疗效。化疗预测中,11 类空间区域比例也能帮助判断病理完全缓解。
这篇文章的启发很直接:普通 H&E 切片不只是诊断图片,借助 AI 和公开空间数据,也可以转化成可分析的“虚拟空间组学”,继续做分型、预后和疗效预测。
夜雨聆风