使用snpEff软件注释VCF文件
snpEff 是一款核心功能为基因组变异注释与效应预测的生物信息学软件。它通过比对变异位置与已知基因组注释,能快速确定SNP、插入缺失等变异位于基因间区、内含子还是外显子等具体位置,并精准预测其生物学效应,例如是同义突变、错义突变还是更为严重的无义突变或剪接位点变异。该软件能支持从人类到各类动植物的庞大基因组数据库。
# 下载最新版本的 SnpEff 软件wget -c https://snpeff.odsp.astrazeneca.com/versions/snpEff_latest_core.zip# 解压下载的 SnpEff 压缩包unzip snpEff_latest_core.zip# 编辑 SnpEff 配置文件,添加拟南芥基因组配置vim snpEff.config# 需要在配置文件中添加一行:Arabidopsis.genome : Arabidopsis# 进入 SnpEff 的数据目录cd snpEff/data/# 为拟南芥创建专用的数据库目录mkdir Arabidopsis# 将参考基因组文件复制到 SnpEff 数据库目录并重命名cp genome.fa sequences.fa# 将基因注释文件复制到 SnpEff 数据库目录并重命名cp ~Arabidopsis_thaliana.TAIR10.39.gff3 genes.gff# 构建拟南芥基因组数据库# -gff3: 指定注释文件格式为 GFF3# -v: 详细模式# Arabidopsis: 数据库名称# 2>l.txt: 将错误信息重定向到 l.txt 文件java -jar ../../snpEff.jar build -gff3 -v Arabidopsis 2>l.txt# 使用构建好的数据库对 VCF 文件进行注释# -c: 指定配置文件路径# Arabidopsis: 使用的数据库名称# passed.vcf: 输入的 VCF 文件# > passed_anno.vcf: 将注释结果输出到新文件java -jar ~/opt/biosoft/snpEff/snpEff.jar -c ~/opt/biosoft/snpEff/snpEff.config Arabidopsis snp.vcf > snp_anno.vcf
注释完成后snpEff会输出三个文件,passed_anno.vcf,snpEff_summary.html和snpEff_genes.txt,passed_anno.vcf是注释后的VCF文件,snpEff_summary.html和snpEff_genes.txt是注释结果的总结文件。
snpEff_summary.html文件的目录如下所示:

夜雨聆风
