转座子注释软件repeatmasker使用教程,转座子免费开放数据库Dfam及famdb管理
准确鉴定并分类重复序列,是任何高质量基因组分析流程中不可或缺的一步。RepeatMasker正是完成这一任务的行业标准工具。它通过比对已知的重复序列数据库,能够自动识别、注释并“屏蔽”基因组中的重复元件,为下游的基因预测、功能注释和比较基因组学分析提供干净的序列背景。
RepeatMasker的安装
conda create –name repeatmasker -c bioconda repeatmasker
RepeatMasker的使用
激活环境:conda activate repeatmasker
查看帮助信息:RepeatMasker -h
一般使用的命令:
RepeatMasker -pa 30(使用的线程数) -lib 123.fa(转座子库) -gff 456.fa(要注释的基因组)
-dir 输出结果的路径 -xsmall
其中
-gff额外输出一个gff结果
-xsmall执行软屏蔽,这会将注释到的转座子序列变为小写,不加这个参数的话会变为大写的N
结果一般会用到的有
456.fa.masked经过屏蔽的基因组
456.fa.out转座子的详细注释信息
456.fa.out.gff转座子信息的gff格式
456.fa.tbl转座子注释信息的汇总
另外可以使用456.fa.out生成与EDTA结果中.sum一样的汇总文件,需要已经安装了EDTA
方法如下
perl /home/.conda/envs/edta_env/share/EDTA/bin/count_base.pl(需要找到edta环境下的这个脚本count_base.pl)456.fa(基因组) > genome.stats
perl /home/.conda/envs/edta_env/share/EDTA/bin/buildSummary.pl(同样要找到这个脚本) -maxDiv 40 -stats genome.stats(上一个命令生成的文件) 456.fa.out(repeatmasker生成的结果) >789.sum 2>/dev/null
这里的789.sum是可以自定义的文件名
如果你的物种是模式生物或者想要进行同源注释需要一个重复序列库,而你的学校没有订购Repbase,那免费的Dfam是一个非常好的选择。
官网地址
https://www.dfam.org/home
在官网也可以查看转座子的分类
点击Download即可进入下载界面
如果你希望下载特定类型物种的重复序列库,可以使用famdb来管理重复序列库
可以使用famdb管理的3.9版本的Dfam可以在如下链接下载
https://www.dfam.org/releases/current/families/FamDB/

如图所示它分成了0-16共17个分区,在README.txt中可以查看这些分区都包含了什么物种,可以只选择包含自己需要物种的分区下载。
最好将数据库下载到repeatmasker的安装目录下.conda/envs/repeatmasker/share/RepeatMasker/Libraries/famdb
famdb查看物种的分类
.conda/envs/repeatmasker/share/RepeatMasker/famdb.py -i .conda/envs/repeatmasker/share/RepeatMasker/Libraries/famdb names ‘Viridiplantae‘(你的物种名或者更上级的分类的名称,比如绿色植物Viridiplantae)
会输出:分类号,所在Dfam分区,名称
Taxon: 3166, Partition: 6, Names: Chlorophyceae (scientific name), Chlorophyceae (sanitized scientific name)
famdb提取转座子库
.conda/envs/repeatmasker/share/RepeatMasker/famdb.py families -a -d –include-class-in-name -f fasta_name 你的物种名或者更上级的分类的名称 >输出结果的文件名.fasta
这个命令会在你指定的名称的祖先和后代(-a -d)中搜索,且在名称后包含 RepeatMasker 的类型/亚型信息(–include-class-in-name)输出fasta格式的结果(-f fasta_name)
这个fasta结果即可作为转座子库用于Repeatmasker的-lib参数
夜雨聆风