长读长转录组从头组装工具综合评估,非模式生物研究有据可依-夜雨聆风

长读长转录组从头组装工具综合评估,非模式生物研究有据可依

在生命科学领域，探究一个生物体内究竟有哪些基因、这些基因又如何通过“剪接”产生功能各异的转录本，是理解生命活动的核心，包括差异表达、可变剪接、RNA 变异鉴定等，而转录组组装，就是实现这一目标的关键一步。

转录组组装分为两种

参考基因组指导组装：准确度高，但必须依赖高质量参考基因组。

从头组装：完全不需要参考基因组，是非模式生物、癌症样本、稀有物种的重要解决方案。

传统短读长组装工具（如Trinity）虽成熟，但读段短、碎片化严重，无法还原全长转录本结构，真实剪接与异构体信息大量丢失。

随着三代长读长测序（ONT / PacBio）快速普及，全长转录本直接测序成为现实，能完整呈现异构体、基因融合、RNA 修饰等关键信息。但一个关键问题一直悬而未决：长读长从头组装工具越来越多（包括RATTLE、RNA-Bloom2、isONform），却始终缺乏系统、全面、贴近真实研究的基准测试，研究者无据可依。

为了填补这一空白，澳大利亚沃尔特和伊丽莎·霍尔医学研究所等团队在Genome Biology发表题为“A comprehensive evaluation of long-read de novo transcriptome assembly”的研究论文，该研究开展了迄今为止最全面、最贴近真实研究的长读长从头转录组组装基准测试。通过模拟数据、标准品掺入样本、多种真实生物样本（包括人类细胞系、单细胞数据和豌豆）的严格测试，本研究为缺乏高质量参考基因组的物种，提供了一份如何构建最优分析流程、从而进行可靠的差异表达分析的实用指南。

研究结果

1. 研究设计

为评估长读长从头转录组组装工具的性能：该研究选取长读长从头转录组组装工具 isONform、RATTLE、RNA-Bloom2，以短读长标杆工具 Trinity 作对照，同时使用参考基因组指导工具 Bambu 进行组装与定量，并以其结果作为无参基因组数据集的评估参照。

对从头组装转录组的下游差异表达分析：采用Corset将转录本聚类为基因簇，通过minimap2将读段比对回组装转录组，使用Salmon进行转录本丰度定量（单细胞数据使用Oarfish），利用limma开展转录本和基因水平的差异表达分析。

五组独立数据集：覆盖多种测序技术、测序深度和物种，包括ONT cDNA模拟数据、人类肺癌细胞系ONT PCR-cDNA 数据（含标准品sequin spike-ins）、SG-NEx 项目的ONT直接 RNA 测序数据、PacBio Kinnex 单细胞RNA-seq数据、豌豆ONT PCR-cDNA数据。除单细胞数据外，所有数据集均配备匹配的短读长数据，利用 Trinity 进行分析。

评估维度：计算效率（运行时间、内存消耗）、组装质量（转录本长度、召回率、BUSCO 基因恢复率）、定量准确性（转录本与基因表达定量）、差异表达检测能力（基因、转录本及转录本使用差异的精准度与召回率）。

图1 基准测试研究设计示意图

表1 基准测试所用数据集

2. 计算效率

所有组装工具均在高性能计算集群上运行，统一分配 48 个核，最大内存 1 TB，对比不同工具的运行时间与内存占用，评估计算性能。结果显示，RATTLE和isONform耗时极长、内存占用高，其中isONform速度最慢，在两个大数据集上甚至两周内未能完成组装，导致相关结果被剔除。RNA-Bloom2整体效率最优，耗时与内存均远低于另外两款长读长工具，但在直接RNA测序数据上表现异常，原因是测序错误率高导致其数字归一化步骤效果变差。短读长工具Trinity耗时与RNA-Bloom2相近，内存占用不随测序深度明显波动，稳定性突出。

图2 长读长从头组装所需的计算资源

3. 组装质量

使用 SQANTI3、CRBB、BUSCO 等方法，结合参考基因组指导工具 Bambu 作为上限参照，短读长组装工具Trinity 作为对比，从转录本数量、长度、完整性、召回率等方面，评估各组装工具的转录本组装质量。

转录本数量差异极大：在模拟数据中RNA-Bloom2、RATTLE组装得到的转录本数（约40000条）和基因数（约17000个）相近，且与模拟设定的真实值（40509条转录本、18145个基因）接近；而isONform仅组装出4849条转录本和444个基因。在实测数据中RNA-Bloom2转录本最多但冗余度高，RATTLE数量最少，Trinity转录本数量最多，但以碎片化为主。测序深度提升长读长组装会增加新基因/新序列，但会降低平均转录本长度。

长读长在全长转录本上优势明显：Trinity平均长度最短、完整转录本最少，体现长读长在重构全长转录本上优于短读长。

召回率与保守性：RNA-Bloom2真实序列召回率更高，RATTLE更保守、遗漏部分转录本，提升深度仅能改善低表达基因恢复，二者在基因水平召回率相近。

假阳性与错误分析：模拟与PCR-cDNA标准品数据显示存在明显假阳性，此外，ONT数据存在插入缺失错误，导致BUSCO完整性下降，直接RNA数据尤为严重。PacBio与短读长无此问题，提示无参基因组分析需重视测序错误率。

图3 组装转录组质量评估

4. 转录本和基因丰度估计与差异表达分析

用 minimap2 比对、Salmon/Oarfish 定量，将组装转录本与真实表达量（模拟、标准品、Bambu 结果）对比，评估转录本与基因水平表达估计准确性。

转录本水平表达定量：RNA-Bloom2转录本计数与真实值的相关性始终位居前列；isONform在部分数据集表现最优，但前提是仅在运行成功时。Trinity在模拟数据与RNA-Bloom2相当，但在标准品数据中稍差。

基因水平聚类与定量：RNA-Bloom2和Trinity生成的基因簇最多，冗余性高（多个簇匹配同一参考基因）。多数从头组装工具基因水平表达相关性相近，RNA-Bloom2+Corset整体表现与RATTLE相当或更优。Corset聚类效果可靠，可替代原生聚类用于RNA-Bloom2下游分析。此外，增加测序深度对表达定量相关性提升很小。

单细胞分析：所有长读长组装工具均能重现参考基因组指导的细胞聚类模式，说明无参基因组也可实现准确的单细胞转录组分群，为缺乏参考基因组的非模式生物，实现单细胞分辨率的转录组分析提供了可能。

图4 转录本与基因丰度估计值的准确性

基于前面得到的计数结果，使用limma开展差异表达分析，重点评估各工具在差异表达基因（DGE）、差异表达转录本（DTE）、转录本使用差异（DTU）上的识别能力。

差异表达基因（DGE）：

在模拟数据中所有方法表现良好，接近Bambu，Trinity略逊于长读长工具。

在标准品数据中Trinity和RNA-Bloom2略优于其他工具。

在实测数据集中RNA-Bloom2表现始终位居前列，isONform在成功运行的数据集上性能与RNA-Bloom2 相当甚至更优。

差异表达转录本（DTE）：

长读长工具中，RNA-Bloom2在各数据集上表现最优，Trinity在模拟数据和标准品数据中表现同样良好。

转录本使用差异（DTU）：多数数据集下RNA-Bloom2仍是最优的从头组装工具。

增加测序深度确实能提升差异分析性能，但组装工具的选择对结果影响远大于测序深度。尽管RNA-Bloom2转录本冗余度高，但在多数差异分析中真实阳性率仍最高。总之，在现有长读长从头转录组组装工具中，RNA-Bloom2在差异表达相关分析上综合表现最优，是无参基因组分析的首选方案。

图5 差异分析的 ROC 曲线

5. 从头组装可捕获新转录本

研究重点对综合表现最优的RNA-Bloom2组装结果进行分析，根据新转录本筛选标准，在肺癌细胞系数据中发现多个高置信度新差异转录本与CCLE中报道的融合基因匹配，如HCC827 细胞系中 RPL7 基因与基因间区的融合转录本。在豌豆数据集中的发现· 7个新差异转录本对应 BUSCO保守基因，包含品种特异性插入、缺失、剪接变体与 SNP相关，如LOC127108449 基因在不同豌豆品种间存在显著差异表达与结构变异。总而言之，从头组装能够发现具有生物学意义的新转录本，包括已知的癌症融合基因和品种特异性剪接变体，整合多种组装工具可提高召回率，为无参考基因组的差异表达分析提供了关键支持。

图6 从头组装中的新转录本

6. 纯长读长分析流程优于混合组装方法

为探究混合组装方法是否能整合长、短读长测序的优势，表现优于单一测序技术。研究选用两种主流混合工具：

RNA-Bloom2混合模式：先利用短读长数据对长读长数据进行抛光（纠错），再进行组装。

rnaSPAdes：先利用短读长数据构建组装图谱，再将长读长数据比对至图谱以解析重复序列并填补缺口。

结果显示，混合组装并未显著优于单一组装，在多数指标和数据集下，纯长读长（RNA-Bloom2）、纯短读长（Trinity）的表现与混合组装相当甚至更好。RNA-Bloom2 混合模式保留了长读长的长度优势但未充分利用短读长数据，rnaSPAdes 则表现出典型的短读长特征，表明混合组装策略仍需进一步优化。

研究意义

本研究全面评估了三款长读长从头转录组组装工具（isONform、RATTLE、RNA-Bloom2），以Trinity和 Bambu为对照，在多类型数据集上验证了无参考基因组差异分析的潜力与问题。

计算性能仍是主要瓶颈，多数工具耗时长、占内存大，难以应对未来超大数据集。RNA-Bloom2整体最优，搭配Corset聚类适合下游差异分析，但转录本冗余度高。RATTLE结果保守、计算需求高。isONform小数据集表现好，但对数据鲁棒性差、运行极慢。长读长可获得更完整的全长转录本，但ONT测序错误高，影响下游分析。短读长碱基质量高、差异检测统计效力强，但转录本碎片化，异构体解析能力弱。

但随着测序与纠错技术进步，组装算法和无参基因组定量策略的不断改进，长读长转录组组装有望为长读长数据的应用提供更准确、高效、广泛的分析手段。

END