软件知识分享 | StringTie:RNA-seq 转录本组装与定量软件

一、StringTie的开发背景

开发者：Mihaela Pertea、Steven Salzberg 团队，约翰·霍普金斯大学计算生物学中心（The Center for Computational Biology at Johns Hopkins University, Baltimore, MD, USA）。

发表：发表期刊 & 年份：2015 年Nature Biotechnology

定位：基于剪接读段图（spliced read graph）算法实现的一体化转录本组装 + 表达定量工具，兼顾已知转录本定量+新转录本发现。

为什么会有这个工具：传统的转录本定量工具在同工型（isoform）组装效率和准确性上存在不足，StringTie 通过网络流算法（network flow）来优化转录本组装，速度更快、准确率更高。

适用范围：

输入：BAM/SAM 文件

适用：RNA-seq 有参转录本组装、新转录本发现、同工型定量、表达量矩阵构建。

二、核心功能

1. 转录本组装（主流程）

利用剪接读段图（spliced read graph）构建各基因座的转录本结构，输出 GTF 文件，包含组装出的所有转录本及其外显子结构。

两种模式：

#有参考组装：-G #基于参考注释引导组装，适合已知基因优化#无参考组装：de novo #不依赖注释从头组装，适合新转录本发现

推荐：先用有参考模式确保已知转录本准确，再检测新转录本

2. 转录本定量

计算每个转录本和基因的表达量（FPKM / TPM / coverage），定量基于 assembled read 覆盖度。

参数：

-e #（仅定量已有转录本，不进行新组装，加速处理批量样本）

3. 表达量矩阵构建（prepDE.py）

附带的 Python 脚本，从多个 StringTie 结果中提取基因/转录本的 read count 矩阵

输出两个表格：gene_count.csv 和 transcript_count.csv

4. 多样本合并（StringTie --merge）

合并多个样本的组装结果，生成一个统一的转录本集合

用于跨样本比较分析或构建参考转录组

参数：

--merge assembly_list.txt #（包含所有样本的 GTF 路径）

5. 新转录本发现

无参考模式或宽松参数下，可发现未注释的新外显子组合和转录本

新转录本用 "MSTRG" 前缀标识（MSTRG.1, MSTRG.2 …）

结合 gffcompare 评估新转录本的质量和类型

三、使用示例

使用场景示例：RNA-seq 有参转录本组装与定量

# 1. 有参考模式组装 + 定量stringtie sample.bam -o sample.gtf \    -p 8 -G annotation.gtf \    -l sample# 2. 仅定量已组装的转录本（加速）stringtie sample.bam -o sample.gtf \    -p 8 -G annotation.gtf \    -e -B# 3. 合并多样本转录本stringtie --merge -o merged.gtf \    -p 8 -G annotation.gtf \    assembly_list.txt# 4. 提取表达量矩阵prepDE.py -i sample_list.txt \    -g gene_count.csv -t transcript_count.csv

参数	说明
-o	输出 GTF 文件路径
-p	线程数
-G	参考注释 GTF/GFF 文件（用于引导组装或限制定量空间）
-l	转录本前缀标签（默认 STRG）
-e	仅定量已有转录本
-B	输出 Ballgown 输入文件
--merge	合并模式
-j	junction 覆盖度阈值（默认 1，提高可减少假阳性拼接）
-c	最小转录本覆盖度（默认 2.5）
-f	最小 isoform 比例（默认 0.01）
-m	最小转录本长度（默认 200）

四、输出结果

1.GTF 文件（主输出，sample.gtf）

包含所有组装出的转录本及其外显子坐标

GTF 第 9 列为转录本属性字段：

gene_id "STRG.1"; transcript_id "STRG.1.1"; …cov（覆盖度）、FPKM（每千碱基每百万片段数）、TPM（每百万转录本数）

可用 IGV、IGB 等基因组浏览器可视化

2.Ballgown 输入文件（-B 参数生成 5 个 .ctab 文件）

e2t.ctab #外显子-转录本对应关系e_data.ctab #外显子表达数据i_data.ctab #内含子表达数据t_data.ctab #转录本表达数据gene expression data #基因表达数据

可直接用于 R 包 Ballgown 做差异表达分析，Ballgown与 StringTie 的关系：二者同属约翰・霍普金斯大学开发，Ballgown 专门用于处理 StringTie 的输出结果，进行转录本水平的差异表达分析。

3.表达量矩阵（prepDE.py 输出）

gene_count.csv #基因水平的 raw count 矩阵（行=基因，列=样本）transcript_count.csv #转录本水平的 raw count 矩阵

4.其他统计信息（标准输出 / 日志）

组装出的转录本总数，基因座数量，外显子拼接情况，运行时间和内存使用。

项目地址：

https://github.com/gpertea/stringtie

安装方式：

# Conda（推荐）conda install -c bioconda stringtie# 源码编译git clone https://github.com/gpertea/stringtie.gitcd stringtie && make

使用经验分享：推荐下游衔接Ballgown比较友好。

参考文献：

Shumate A, Wong B, Pertea G, Pertea M Improved transcriptome assembly using a hybrid of long and short reads with StringTie, PLOS Computational Biology 18, 6 (2022), doi.org/10.1371/journal.pcbi.1009730

Kovaka S, Zimin AV, Pertea GM, Razaghi R, Salzberg SL, Pertea M Transcriptome assembly from long-read RNA-seq alignments with StringTie2, Genome Biology 20, 278 (2019), doi:10.1186/s13059-019-1910-1

Pertea M, Kim D, Pertea GM, Leek JT, Salzberg SL Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown, Nature Protocols 11, 1650-1667 (2016), doi:10.1038/nprot.2016.095

Pertea M, Pertea GM, Antonescu CM, Chang TC, Mendell JT & Salzberg SL StringTie enables improved reconstruction of a transcriptome from RNA-seq reads, Nature Biotechnology (2015), doi:10.1038/nbt.3122

本文部分内容由AI辅助整理编辑，仅供参考。如存在疏漏、错误或侵权内容，欢迎联系我们及时更正处理。