乐于分享
好东西不私藏

单细胞测序新工具!SEVtras 解锁小细胞外囊泡的空间异质性密码

单细胞测序新工具!SEVtras 解锁小细胞外囊泡的空间异质性密码

小细胞外囊泡(sEVs)作为细胞间通信的 “信使”,在免疫调节、病毒致病及肿瘤进展中发挥关键作用。其数量和 cargo 组成受细胞类型、生理状态等多种因素影响,具有高度异质性。然而,传统 bulk RNA-seq 难以捕捉这种复杂性,现有 sEV 研究又依赖分离纯化过程,易丢失组织微环境信息,且缺乏高通量解析 sEV 异质性的技术手段。

如何在保留组织原始语境的前提下,实现 sEV 异质性的高分辨率解析?近期,发表于《Nature Methods》的研究推出了创新算法 SEVtras,借助液滴单细胞 RNA 测序(scRNA-seq)数据,以液滴分辨率识别含 sEV 的液滴并量化单个细胞的 sEV 分泌活性(ESAI)。该工具无需额外实验步骤,即可从现有 scRNA-seq 数据中挖掘 sEV 信息,为连接 sEV 生物学与单细胞转录组学搭建了关键桥梁。

一、研究背景:sEV 研究的技术瓶颈与 SEVtras 的创新思路

sEV 研究长期面临三大核心挑战:

  • 信息丢失:分离纯化 sEV 的过程会破坏其原始组织微环境,导致关键上下文信息流失;
  • 异质性解析难:缺乏高通量技术手段,无法在单细胞或单 sEV 水平全面解析 sEV 异质性;
  • 关联性缺失:现有技术难以同时捕捉细胞与 sEV 的异质性,无法建立 sEV 与来源细胞的直接关联。

SEVtras 的核心创新在于 “无额外实验依赖”:利用 scRNA-seq 实验中自然保留的 sEV 信号,通过自定义算法识别含 sEV 液滴,无需单独分离 sEV,既避免了微环境信息丢失,又实现了 sEV 与细胞的同步分析,完美破解了上述技术困境。


二、研究内容:SEVtras 算法构建与多场景验证

本研究通过模拟数据集、细胞系实验(人骨髓间充质干细胞 MSC、人胚胎肾细胞 293F)、CITE-seq 数据集验证 SEVtras 性能,进而应用于 15 种人类正常组织及结直肠癌(CRC)、胰腺导管腺癌(PDAC)等 4 类肿瘤的 scRNA-seq 数据,系统解析 sEV 异质性及临床价值。

核心发现概览

  • 技术可行性明确:scRNA-seq 预处理过程中可保留大量 sEV,且 sEV 具有区别于细胞碎片、大 EV(lEVs)的独特基因表达谱;
  • 性能优异:SEVtras 识别含 sEV 液滴的 AUC >0.85,与实验分离的 sEV 转录组相关性显著,且不受细胞碎片、lEVs 干扰;
  • 临床价值突出:肿瘤组织的 ESAI 显著高于正常组织,CRC 中高分泌 sEV 的迁移恶性细胞亚群与肿瘤进展相关,PDAC 中 ESAI 可作为早期肿瘤血管侵犯的有效指标;
  • 普适性强:成功应用于 15 种正常组织和 4 类肿瘤数据,可解析不同细胞类型的 sEV 分泌活性。

各 Figure 深度解读:从技术验证到临床应用

Figure 1:SEVtras 算法框架与 sEV 信号可行性验证

本图明确了 SEVtras 的核心逻辑与 sEV 信号保留的可行性:

  • a:sEV 保留验证:使用 NanoLuc 标记的 sEV 跟踪 scRNA-seq 预处理过程,结果显示 sEV 可大量保留,luminescence 信号在预处理后仍维持较高水平,证实 scRNA-seq 数据中存在可检测的 sEV 信号;
  • b:sEV 转录组特异性:左图对比 MSC 细胞系中 sEV 与细胞碎片的基因表达差异;中图三元图展示基因在细胞、sEV、碎片中的表达分布;右图 GSEA 分析显示,sEV 基因集在 sEV 中显著富集(P=0.021),证实 sEV 具有独特的转录组特征;
  • c:SEVtras 算法流程:① 初始化:基于 ExoCarta、exRNA Atlas 等数据库构建含 2017 个基因的 sEV 相关基因集;② 迭代优化:通过期望最大化(EM)算法迭代学习每个液滴的 sEV 信号得分(SEVtras 得分);③ 样本整合:通过投票和统一步骤生成跨样本的统一基因集,确保得分可比性;④ 下游分析:包括 sEV 聚类、功能富集、ESAI 计算及临床应用。

核心结论:scRNA-seq 数据中可有效保留 sEV 信号,且 sEV 具有独特的转录组特征,为 SEVtras 算法提供了生物学基础。


Figure 2:SEVtras 性能验证

本图通过多组实验验证 SEVtras 的准确性、特异性与可靠性:

  • a-b:与实验分离 sEV 的一致性:将实验分离的 sEV 作为金标准,SEVtras 识别的含 sEV 液滴与金标准的 Pearson 相关性显著高于细胞碎片(MSC 和 293F 细胞系中 P<0.001),证实识别准确性;
  • c:UMAP 聚类验证:SEVtras 识别的含 sEV 液滴在 UMAP 中与实验分离 sEV 分布高度重叠,与细胞碎片明显区分,进一步验证识别特异性;
  • d-g:复杂背景抗干扰能力:向 MSC 单细胞悬液中添加细胞碎片或 lEVs 作为干扰,SEVtras 计算的 ESAI 与未处理组无显著差异(P=0.49、P=0.71),且 sEV 基因表达谱相关性高达 0.997 以上;使用莫能菌素(MON)刺激 sEV 分泌或添加外源 sEV,ESAI 显著升高(最高达 10.93%),证实算法可特异性捕捉 sEV 信号;
  • h-j:CITE-seq 验证:SEVtras 识别的含 sEV 液滴中,sEV 标志物 CD63、CD9 的阳性比例(80%、38%)显著高于随机选择(44%、23%),且标志物蛋白丰度显著升高(P=0.02),功能富集分析显示含 sEV 液滴富集 sEV 形成与释放相关通路。

核心结论:SEVtras 能准确、特异性识别 sEV 信号,且具有强抗干扰能力,性能稳定可靠。


Figure 3:解析不同细胞类型的 sEV 分泌活性

本图验证 SEVtras 解析复杂细胞群体中不同细胞类型 sEV 分泌活性的能力:

  • a:细胞系 sEV 异质性:UMAP 分析显示,MSC 和 293F 细胞系来源的 sEV 转录组特征明显分离,且与各自来源细胞的特征部分重叠,证实不同细胞类型的 sEV 具有独特特征;
  • b-c:混合细胞系验证:将 MSC 和 293F 细胞按 1:1 混合进行 scRNA-seq,SEVtras 识别的含 sEV 液滴聚类为两个独立群体,分别对应两种细胞系的 sEV 特征;计算细胞类型水平的 sEV 分泌活性(ESAI_c),MSC 为 359%,293F 为 276%,与单独细胞系的 ESAI (MSC 369%、293F 274%)高度一致,证实可精准解析不同细胞类型的 sEV 分泌活性。

核心结论:SEVtras 可有效区分不同细胞类型来源的 sEV,并精准量化其分泌活性。


Figure 4:正常组织与 CRC 中的 sEV 异质性解析

本图拓展 SEVtras 应用场景,解析正常组织与肿瘤组织的 sEV 异质性:

  • a-b:正常组织 sEV 分泌差异:分析 15 种人类正常组织的 scRNA-seq 数据,发现不同组织的 ESAI 存在显著差异(平均值 1.1±2.0%),血液和皮肤的 ESAI 最高,与已知的 sEV 分泌特征一致;
  • c:正常组织 sEV 亚型:含 sEV 液滴聚类为 sEV1 和 sEV2 两个亚型,sEV1 富集有丝分裂纺锤体通路,sEV2 富集 PI3K/Akt/mTOR 信号通路(P<0.01),揭示 sEV 的功能异质性;
  • d-i:CRC 中的 sEV 特征:CRC 肿瘤组织的平均 ESAI(18.7%)显著高于正常组织(P<0.01),且 ESAI 与肿瘤核心距离呈显著相关;识别出两个肠道上皮亚群(epithelium1/2),epithelium2 的 ESAI_c 更高,且富集肿瘤侵袭相关基因(如 TSC22D4、CDIPT)和上皮间质转化(EMT)通路,其富集基因(如 TIMP1)为 CRC 预后标志物(P<0.001)。

核心结论:SEVtras 可揭示正常组织的 sEV 功能异质性,且能通过 sEV 分泌活性识别肿瘤侵袭性亚群,为肿瘤进展评估提供新视角。


Figure 5:PDAC 中 sEV 分泌活性与血管侵犯的关联

本图聚焦 SEVtras 在肿瘤临床特征预测中的应用价值:

  • a:多肿瘤 sEV 特征:分析 PDAC、胃癌、前列腺癌、CRC 4 类肿瘤的 scRNA-seq 数据,证实肿瘤组织的 ESAI 普遍升高,且含 sEV 液滴与细胞类型在 UMAP 中清晰区分;
  • b:PDAC 血管侵犯预测:PDAC 中,有血管侵犯患者的 ESAI 显著高于无血管侵犯患者(P=0.01),且早期(I 期)区分度更明显;
  • c:细胞类型特异性关联:淋巴细胞的 ESAI_c 在有血管侵犯组显著升高(P=0.005),且 I 期的倍数变化(3.32 倍)高于其他分期(2.25 倍);
  • d:预测效能对比:淋巴细胞的 ESAI_c 预测血管侵犯的效能优于基因表达谱和细胞类型比例,证实其作为血管侵犯指标的可靠性。

核心结论:SEVtras 计算的 ESAI 可作为早期 PDAC 血管侵犯的有效指标,其中淋巴细胞的 sEV 分泌活性关联最为显著。


三、实验及分析方法流程总结

本研究技术路线清晰,从算法构建、性能验证到临床应用层层递进,具体流程如下:

1. SEVtras 算法核心流程

  • (1)sEV 基因集构建

    • 整合 ExoCarta、exRNA Atlas、AmiGO 三个公共数据库,筛选 sEV 相关 mRNA 基因,去除重复及无法通过 poly-A 尾 scRNA-seq 检测的基因,最终获得含 2017 个基因的 sEV 基因集。
  • (2)EM 迭代优化

    • 期望步(E 步):基于超几何分布计算每个液滴的潜在变量 Z(sEV 信号得分),评估当前基因集在液滴中的富集程度;
    • 最大化步(M 步):通过基因表达与潜在变量 Z 的相关性优化基因集,筛选最具代表性的 sEV 特征基因;
    • 迭代收敛:重复 E 步和 M 步,直至基因集稳定,最终的 Z 值即为 SEVtras 得分,用于区分含 sEV 液滴与碎片。
  • (3)跨样本整合

    • 投票步骤:计算每个基因在多个样本收敛基因集中的出现频率,筛选高频基因形成统一基因集;
    • 得分更新:基于统一基因集重新计算所有样本的 SEVtras 得分,确保跨样本可比性。

2. 关键指标计算

  • ESAI(样本 / 组织水平):含 sEV 液滴数 ÷ 含细胞液滴数;
  • ESAI_c(细胞类型水平):某一细胞类型来源的含 sEV 液滴数 ÷ 该细胞类型的含细胞液滴数,通过基因表达相似性和 sEV 生物发生能力确定 sEV 来源细胞类型。

3. 性能验证实验设计

  • (1)细胞系实验

    • 分离 MSC 和 293F 细胞的 sEV、细胞碎片、lEVs,进行 bulk RNA-seq 验证转录组差异;
    • 向单细胞悬液中添加碎片、lEVs 验证抗干扰能力,使用 MON 刺激 sEV 分泌或添加外源 sEV 验证特异性。
  • (2)CITE-seq 验证

    • 利用 CITE-seq 同时检测 RNA 和表面蛋白(CD63、CD9 等 sEV 标志物),验证 SEVtras 识别的含 sEV 液滴中标志物的富集程度。
  • (3)临床数据应用

    • 分析 15 种正常组织 scRNA-seq 数据,解析 sEV 组织异质性;
    • 分析 4 类肿瘤数据,关联 ESAI 与肿瘤进展、血管侵犯等临床特征。

4. 数据分析工具

  • 基础分析:Python 3.8(numpy、pandas)、Scanpy(单细胞数据分析)、MAGIC(数据插补);
  • 可视化:matplotlib、seaborn;
  • 测序数据处理:Cell Ranger(scRNA-seq 原始数据处理)、STAR(序列比对)、RSEM(转录本定量)。

四、论文结论及展望

核心结论

  • SEVtras 突破技术局限:无需额外实验步骤,即可从 scRNA-seq 数据中以液滴分辨率识别含 sEV 液滴,量化细胞 sEV 分泌活性,实现细胞与 sEV 异质性的同步解析;
  • 性能稳定可靠:具有高准确性、特异性和抗干扰能力,与实验分离 sEV 一致性高,可适配不同细胞系、正常组织和肿瘤数据;
  • 临床价值显著:可识别肿瘤侵袭性亚群,ESAI 可作为早期 PDAC 血管侵犯的有效指标,为肿瘤进展评估提供新工具;
  • 拓展单细胞分析维度:为解析细胞间通信、sEV 介导的生理病理过程提供了全新视角,丰富了单细胞转录组学的研究价值。

研究局限性

  • 缺乏组织特异性参数:现有算法未针对不同组织类型和生理状态定制参数,可能影响部分场景的解析精度;
  • 依赖 scRNA-seq 数据质量:低质量 scRNA-seq 数据(如测序饱和度<0.5)可能导致 sEV 信号捕捉不全;
  • 未涵盖极端生理状态:未在极端病理或生理条件下验证算法性能,普适性仍需进一步拓展。

未来展望

  • 算法优化:整合组织特异性基因集和高分辨率检测方法,优化参数以适配更多组织类型和生理状态;
  • 多组学整合:结合空间转录组、代谢组数据,构建 “细胞 – sEV – 微环境” 的多维度关联网络,深化对细胞间通信的理解;
  • 临床转化:拓展至更多肿瘤类型和疾病场景,验证 ESAI 作为疾病诊断、预后评估标志物的临床有效性;
  • 机制探索:利用 SEVtras 解析 sEV 在疾病进展、免疫调节中的分子机制,为靶向 sEV 的治疗策略开发提供依据。

五、研究关键信息

  • DOI:10.1038/s41592-023-02117-1
  • 发表期刊:Nature Methods(2024 年 2 月,Volume 21)
  • 主要发表单位:中国科学院北京生命科学研究院、中国科学院大学杭州高等研究院系统生物学重点实验室、中国科学院大学等
  • 数据与代码:算法代码已开源(https://github.com/bioinfo-biols/SEVtras);测序数据存入国家基因组科学数据中心(PRJCA017291),公共数据来源于 NCBI GEO、ArrayExpress 等数据库(GSE150599、GSE159929、E-MTAB-8410 等)。

SEVtras 的问世,为 sEV 研究提供了全新范式 —— 无需额外实验即可从海量 scRNA-seq 数据中挖掘 sEV 信息,大幅降低了 sEV 研究的技术门槛。随着算法的持续优化和临床应用的深入,SEVtras 有望在基础研究与临床诊断中发挥关键作用,推动 sEV 生物学领域的快速发展。

关注我们,持续为你解读生物信息学与单细胞技术领域的最新突破,探索生命科学研究的全新可能!