引言:为什么要看可成药基因组?
做药物靶点研究,方向一旦选偏,后面的实验投入往往也会跟着偏掉。很多项目到了临床后期才暴露问题,症结不一定在药物分子本身,也可能出在靶点没选准。所谓"可成药基因组"(Druggable Genome),指的是那批更可能被小分子、抗体或其他治疗手段干预的基因。先把它们找出来,后面的筛选通常会省力不少。
这份课程资源整理自 DGIdb(Drug-Gene Interaction Database),把常用的可成药相关数据集中到了一起,后面无论是下载、筛选还是继续分析,都会顺手一些。
什么是DGIdb?
DGIdb 是一个公开的药物-基因相互作用数据库,整合了 BaderLab、CancerCommons、ChEMBL、GuideToPharmacology、TTD(治疗靶点数据库)等多个专业数据源。截至目前,数据库收录了超过 80,000 条基因记录 和近 100,000 条药物相互作用信息,既有已上市药物,也包含实验性化合物。
它有一处很实用,就是可药性注释。除了告诉你某个基因和哪些药物有关,DGIdb 还会标出这个靶点是不是核激素受体、激酶、临床可行动靶点等类别。前期做初筛时,这层信息往往就够用了,能先把候选范围压下来。
数据集内容详解
本课程提供的数据包里主要有三个文件,分别对应基因信息、靶点分类和药物相互作用。
1. genes.tsv —— 基因主表(80,235条记录)
这个文件包含基因名称、标准化 HGNC ID、来源数据库及版本等基础信息。数据已经过 DGIdb 规范化处理,后面再和 TCGA、GTEx、CCLE 等组学数据对接,会方便一些。
2. categories.tsv —— 靶点分类(32,796条记录)
如果只是想先做一轮筛选,一般会先看这个文件。里面列出了不同的靶点类别,比如:
NUCLEAR HORMONE RECEPTOR(核激素受体):如 PXR、PPARG 等代谢疾病相关靶点 CLINICALLY ACTIONABLE(临床可行动):如 AKT1、ABL 等已有明确干预依据的靶点
有了这层分类,候选基因的范围就能先缩一轮。
3. interactions.tsv —— 药物-相互作用网络(98,240条记录)
真正往下深挖时,可以重点看这个文件。里面包括:
相互作用类型:如激动剂(agonist)、抑制剂(inhibitor)、激活剂(activator)等 相互作用评分:用于衡量药物和靶点之间的关联强度 药物属性:如是否 FDA 批准、是否抗肿瘤药物、是否免疫治疗药物
如果要做老药新用(Drug Repurposing)研究,就可以直接筛选"已批准的抗肿瘤抑制剂"这类组合。

典型应用场景
如何高效使用这份数据
如果想尽快上手,可以按这个顺序来:
先打开 categories.tsv,按疾病类型或靶点类别做第一轮筛选 再看 interactions.tsv,结合 interaction_type 和 approved 字段找候选药物 如果手里已经有表达数据、突变数据或 DepMap 依赖性数据,就可以用 HGNC ID 直接合并 最后再把相互作用表导入 Cytoscape 或 Gephi,做成网络图看整体关系
写在最后
这份基于 DGIdb 的可成药基因集,数据量够,结构也清楚,接到后面的分析流程并不费事。它既能帮你先判断"哪些基因可能可成药",也能顺着药物相互作用关系继续往下看。
不管是做肿瘤免疫、代谢疾病,还是 AI 辅助药物发现,这份数据都可以作为一个起点。如果对几个文件之间的对应关系还不太熟,建议配合课程里的视频讲解和 PPT 一起看,理解起来会轻松一些。
关注【biofSCI】,回复 M117,立即获取课程脚本、数据与视频讲解!
夜雨聆风