
SNP2TFBS 是一个旨在研究影响人类基因组中转录因子结合(TFB)的变异(SNPs/indels)的网页。

数据下载

文件夹 | 内容说明 |
additionalFiles/ | JASPAR转录因子PWM矩阵库和ANNOVAR基因注释文件 |
genome/或genomes/ | 参考基因组hg19和变异基因组hg19a的完整序列文件 |
liftover/ | 基因组坐标转换链文件,用于在hg19和hg19a之间转换位置 |
*mapped\_files/ | 包含所有SNP2TFBS分析结果 |
pwms/ | 存放PWM相关文件 |
scripts/ | 数据生成脚本和工具 |
src/ | README未详细说明,推测为源代码目录 |
ucsc/ | README未详细说明,可能与UCSC基因组浏览器相关 |
vcf/ | 1000 Genome项目的SNP目录(VCF格式) |
文件夹:additionalFiles/
第一个文件:JASPAR_CORE_2014_vert_matrix_logodds.mat
这是JASPAR转录因子PWM矩阵库文件

| 含义 | |
第二个文件:hg19_refGene_annovarAnnotation.txt
这是ANNOVAR基因注释文件,用于变异的功能注释


两个文件夹包含完全相同的文件,可能是历史残留,这里以其中一个举例
hg19.fa.gz基于GRCh37/hg19标准人类基因组组装,作为基准序列,代表"野生型"或"正常"基因组
hg19a.fa.gz在hg19基础上整合了1000 Genome项目的SNP变异,代表包含人群常见变异的"替代"基因组,使用makeAltGenome.sh脚本将SNP嵌入hg19
makeAltGenome.sh脚本将SNP嵌入hg19
LiftOver 是UCSC开发的一种坐标转换工具,用于在不同基因组版本或组装之间映射位置。
hg19ToHg19a.over.chain.gz 将hg19坐标转换为hg19a坐标
hg19aToHg19.over.chain.gz 将hg19a坐标转换为hg19坐标
转换是双向的,取决于你的起始坐标,一般不需要这个文件夹中的文件

mapped_files/
├── README_ftpFileFormatDesc.txt # 文件格式详细说明
├── README_snp2tfbsWebOutput.txt # Web服务器输出格式说明
├── 主文件(Master Files)
├── 子目录(按格式分类)
│ ├── annotated/ # 带基因注释的格式
│ ├── bed/ # BED格式
│ ├── custom/ # 自定义格式(最详细)
│ ├── sga/ # SGA格式
│ └── vcf/ # VCF格式
└── 辅助文件
snp2tfbs_JASPAR_CORE_2014_vert.txt.gz (178M/56M)
所有影响TF结合的SNP,按绝对得分差排序
snp2tfbs_JASPAR_CORE_2014_vert.bed.gz (207M/69M)
基因组浏览器可视化
各TF的得分差(按绝对值排序) |
snp2tfbs_customAnnovar.txt.gz
ANNOVAR兼容格式,与ANNOVAR工具配合进行变异注释
| SNP pos (end) | |
rsID;MATCH=TF数量;TF=TF名称;ScoreDiff=得分差 |
每个子目录包含单个转录因子的数据文件,文件名格式为TF名称.扩展名
1. custom/ 目录 - 最详细格式
文件名示例:AR, AR.gz, ARID3A, ARID3A.gz, Arnt, Arnt.gz, Arnt_Ahr, Arnt_Ahr.gz
包含参考和变异基因组的PWM匹配序列
获取TF结合位点的参考序列和突变序列
| ref PWM match seq | AGGCACAGGCTGTGC | |
| alt PWM match seq | ||
生物学意义:该SNP创建了一个原本不存在的转录因子结合位点!
生物学意义:该SNP破坏了原有的转录因子结合位点!
为什么会出现序列相同?
SNP在结合位点边缘或内部特定位置
情况1:SNP在PWM位点的侧翼(flanking region)
侧翼: A T G C [A G G T C A T G T C] G C T A ↑ ↑ ↑ SNP位置 起始100 结束1092. bed/ 目录 - BED格式
标准BED格式(5列),
基因组浏览器可视化、区间操作
3. sga/ 目录 - SGA格式
SGA(Simple Genome Annotation)格式,EPD/ChIP-Seq数据库标准格式
4. vcf/ 目录 - VCF格式
标准VCF格式(Variant Call Format),与基因组分析流程整合
5. annotated/ 目录 - 带基因注释
文件名示例:AR, AR.gz, ARID3A, ARID3A.gz...
夜雨聆风