一、StringTie的开发背景
开发者:Mihaela Pertea、Steven Salzberg 团队,约翰·霍普金斯大学计算生物学中心(The Center for Computational Biology at Johns Hopkins University, Baltimore, MD, USA)。
发表:发表期刊 & 年份:2015 年Nature Biotechnology
定位:基于剪接读段图(spliced read graph)算法实现的一体化转录本组装 + 表达定量工具,兼顾已知转录本定量+新转录本发现。
为什么会有这个工具:传统的转录本定量工具在同工型(isoform)组装效率和准确性上存在不足,StringTie 通过 网络流算法(network flow)来优化转录本组装,速度更快、准确率更高。
适用范围:
输入:BAM/SAM 文件
适用:RNA-seq 有参转录本组装、新转录本发现、同工型定量、表达量矩阵构建。
二、核心功能
1. 转录本组装(主流程)
利用剪接读段图(spliced read graph)构建各基因座的转录本结构,输出 GTF 文件,包含组装出的所有转录本及其外显子结构。
两种模式:
#有参考组装:-G #基于参考注释引导组装,适合已知基因优化#无参考组装:de novo #不依赖注释从头组装,适合新转录本发现
推荐:先用有参考模式确保已知转录本准确,再检测新转录本
2. 转录本定量
计算每个转录本和基因的表达量(FPKM / TPM / coverage),定量基于 assembled read 覆盖度。
参数:
-e #(仅定量已有转录本,不进行新组装,加速处理批量样本)3. 表达量矩阵构建(prepDE.py)
附带的 Python 脚本,从多个 StringTie 结果中提取基因/转录本的 read count 矩阵
输出两个表格:gene_count.csv 和 transcript_count.csv
4. 多样本合并(StringTie --merge)
合并多个样本的组装结果,生成一个统一的转录本集合
用于跨样本比较分析或构建参考转录组
参数:
--merge assembly_list.txt #(包含所有样本的 GTF 路径)5. 新转录本发现
无参考模式或宽松参数下,可发现未注释的新外显子组合和转录本
新转录本用 "MSTRG" 前缀标识(MSTRG.1, MSTRG.2 …)
结合 gffcompare 评估新转录本的质量和类型
三、使用示例
使用场景示例:RNA-seq 有参转录本组装与定量
# 1. 有参考模式组装 + 定量stringtie sample.bam -o sample.gtf \-p 8 -G annotation.gtf \-l sample# 2. 仅定量已组装的转录本(加速)stringtie sample.bam -o sample.gtf \-p 8 -G annotation.gtf \-e -B# 3. 合并多样本转录本stringtie --merge -o merged.gtf \-p 8 -G annotation.gtf \assembly_list.txt# 4. 提取表达量矩阵prepDE.py -i sample_list.txt \-g gene_count.csv -t transcript_count.csv
输出 GTF 文件路径 | |
线程数 | |
参考注释 GTF/GFF 文件(用于引导组装或限制定量空间) | |
-l | 转录本前缀标签(默认 STRG) |
仅定量已有转录本 | |
输出 Ballgown 输入文件 | |
合并模式 | |
junction 覆盖度阈值(默认 1,提高可减少假阳性拼接) | |
最小转录本覆盖度(默认 2.5) | |
最小 isoform 比例(默认 0.01) | |
最小转录本长度(默认 200) |
四、输出结果
1.GTF 文件(主输出,sample.gtf)
包含所有组装出的转录本及其外显子坐标
GTF 第 9 列为转录本属性字段:
gene_id "STRG.1"; transcript_id "STRG.1.1"; …cov(覆盖度)、FPKM(每千碱基每百万片段数)、TPM(每百万转录本数)
可用 IGV、IGB 等基因组浏览器可视化
2.Ballgown 输入文件(-B 参数生成 5 个 .ctab 文件)
e2t.ctab #外显子-转录本对应关系e_data.ctab #外显子表达数据i_data.ctab #内含子表达数据t_data.ctab #转录本表达数据gene expression data #基因表达数据
可直接用于 R 包 Ballgown 做差异表达分析,Ballgown与 StringTie 的关系:二者同属约翰・霍普金斯大学开发,Ballgown 专门用于处理 StringTie 的输出结果,进行转录本水平的差异表达分析。
3.表达量矩阵(prepDE.py 输出)
gene_count.csv #基因水平的 raw count 矩阵(行=基因,列=样本)transcript_count.csv #转录本水平的 raw count 矩阵
4.其他统计信息(标准输出 / 日志)
组装出的转录本总数,基因座数量,外显子拼接情况,运行时间和内存使用。
项目地址:
https://github.com/gpertea/stringtie
安装方式:
# Conda(推荐)conda install -c bioconda stringtie# 源码编译git clone https://github.com/gpertea/stringtie.gitcd stringtie && make
使用经验分享:推荐下游衔接Ballgown比较友好。
参考文献:
Shumate A, Wong B, Pertea G, Pertea M Improved transcriptome assembly using a hybrid of long and short reads with StringTie, PLOS Computational Biology 18, 6 (2022), doi.org/10.1371/journal.pcbi.1009730
Kovaka S, Zimin AV, Pertea GM, Razaghi R, Salzberg SL, Pertea M Transcriptome assembly from long-read RNA-seq alignments with StringTie2, Genome Biology 20, 278 (2019), doi:10.1186/s13059-019-1910-1
Pertea M, Kim D, Pertea GM, Leek JT, Salzberg SL Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown, Nature Protocols 11, 1650-1667 (2016), doi:10.1038/nprot.2016.095
Pertea M, Pertea GM, Antonescu CM, Chang TC, Mendell JT & Salzberg SL StringTie enables improved reconstruction of a transcriptome from RNA-seq reads, Nature Biotechnology (2015), doi:10.1038/nbt.3122
本文部分内容由AI辅助整理编辑,仅供参考。如存在疏漏、错误或侵权内容,欢迎联系我们及时更正处理。
夜雨聆风