如果你有转录组测序的原始数据,想要自己进行有参或无参的组装,那么可以使用trinity
trinity的安装:
conda create --name trinity -c bioconda trinity
trinity的使用
激活环境:conda activate trinity
查看帮助信息:trinity -h
根据你有无参考基因组,可以选择进行有参或者无参的组装
无参组装:
nohup Trinity --seqType fq \
--SS_lib_type RF \
--max_memory 100G \
--left 样本名_R1.fq.gz \
--right 样本名_R2.fq.gz \
--CPU 8 \
--output 结果的输出目录(最后一级目录中要包含‘trinity’如trinity_wucan,否则会报错)&
由于运行时间较长建议使用nohup &挂在后台运行
--seqType指定输入的文件是'fa' 还是 'fq'
--SS_lib_type链特异性RNA-Seq读取方向。如果是成对末端:RF 或 FR,如果是单端:F 或 R。与你的测序平台有关
--left和--right是用于成对末端读取,单端读取的要用--single,多个文件可以使用--samples_file输入制表符分隔的txt文件,还可以指明生物学重复关系,具体格式如下
cond_A cond_A_rep1 A_rep1_left.fq A_rep1_right.fq
cond_A cond_A_rep2 A_rep2_left.fq A_rep2_right.fq
cond_B cond_B_rep1 B_rep1_left.fq B_rep1_right.fq
cond_B cond_B_rep2 B_rep2_left.fq B_rep2_right.fq
结果会在你指定的的输出目录的上一级目录输出(你指定的输出的目录名).Trinity.fasta即是无参组装的结果
有参组装:
有参组装需要先用hisat2对参考基因组建立索引,并将转录组数据比对到索引上生成bam文件
hisat2安装
conda create --name hisat2-c bioconda hisat2
激活环境
conda activate hisat2
建立索引
hisat2-build 参考基因组.fa ./输出结果名_index
比对
hisat2 --dta -p 20 -x ./输出结果名_index \
-1 _R1.fq.gz \
-2 _R2.fq.gz \
-S 样本名.sam
再使用samtools生成bam文件
samtools安装
conda create --name samtools-c bioconda samtools
激活环境
conda activate samtools
生成bam
samtools sort -@ 20 样本名.sam -o 样本名_sorted.bam
trinity有参组装
nohup Trinity --seqType fq \
--SS_lib_type RF \
--max_memory 200G \
--genome_guided_max_intron 10000 \
--CPU 8 \
--genome_guided_bam 样本名_sorted.bam \
--output 结果的输出目录(最后一级目录中要包含‘trinity’如trinity_wucan,否则会报错) &
结果目录中的Trinity-GG.fasta即是有参组装的转录本
夜雨聆风