从海量数据中挖掘黄金靶点:DGIdb可成药基因集完整下载指南

引言：为什么要看可成药基因组？

做药物靶点研究，方向一旦选偏，后面的实验投入往往也会跟着偏掉。很多项目到了临床后期才暴露问题，症结不一定在药物分子本身，也可能出在靶点没选准。所谓"可成药基因组"（Druggable Genome），指的是那批更可能被小分子、抗体或其他治疗手段干预的基因。先把它们找出来，后面的筛选通常会省力不少。

这份课程资源整理自 DGIdb（Drug-Gene Interaction Database），把常用的可成药相关数据集中到了一起，后面无论是下载、筛选还是继续分析，都会顺手一些。

什么是DGIdb？

DGIdb 是一个公开的药物-基因相互作用数据库，整合了 BaderLab、CancerCommons、ChEMBL、GuideToPharmacology、TTD（治疗靶点数据库）等多个专业数据源。截至目前，数据库收录了超过 80,000 条基因记录 和近 100,000 条药物相互作用信息，既有已上市药物，也包含实验性化合物。

它有一处很实用，就是可药性注释。除了告诉你某个基因和哪些药物有关，DGIdb 还会标出这个靶点是不是核激素受体、激酶、临床可行动靶点等类别。前期做初筛时，这层信息往往就够用了，能先把候选范围压下来。

数据集内容详解

本课程提供的数据包里主要有三个文件，分别对应基因信息、靶点分类和药物相互作用。

1. `genes.tsv` —— 基因主表（80,235条记录）

这个文件包含基因名称、标准化 HGNC ID、来源数据库及版本等基础信息。数据已经过 DGIdb 规范化处理，后面再和 TCGA、GTEx、CCLE 等组学数据对接，会方便一些。

2. `categories.tsv` —— 靶点分类（32,796条记录）

如果只是想先做一轮筛选，一般会先看这个文件。里面列出了不同的靶点类别，比如：

NUCLEAR HORMONE RECEPTOR（核激素受体）：如 PXR、PPARG 等代谢疾病相关靶点
CLINICALLY ACTIONABLE（临床可行动）：如 AKT1、ABL 等已有明确干预依据的靶点

有了这层分类，候选基因的范围就能先缩一轮。

3. `interactions.tsv` —— 药物-相互作用网络（98,240条记录）

真正往下深挖时，可以重点看这个文件。里面包括：

相互作用类型：如激动剂（agonist）、抑制剂（inhibitor）、激活剂（activator）等
相互作用评分：用于衡量药物和靶点之间的关联强度
药物属性：如是否 FDA 批准、是否抗肿瘤药物、是否免疫治疗药物

如果要做老药新用（Drug Repurposing）研究，就可以直接筛选"已批准的抗肿瘤抑制剂"这类组合。

典型应用场景

研究方向	具体用途
肿瘤靶点筛选	结合突变数据，从可成药基因集中找出驱动基因的潜在治疗靶点
药物重定位	利用已批准药物和靶点关系，为罕见病或新适应症寻找现有药物
网络药理学	将相互作用数据导入 Cytoscape，构建药物-靶点-通路网络
AI 模型训练	作为靶点可药性预测的正样本集，训练机器学习分类器
通路富集分析	将差异表达基因映射到可成药基因集，评估治疗可干预性

如何高效使用这份数据

如果想尽快上手，可以按这个顺序来：

先打开 categories.tsv，按疾病类型或靶点类别做第一轮筛选
再看 interactions.tsv，结合 interaction_type 和 approved 字段找候选药物
如果手里已经有表达数据、突变数据或 DepMap 依赖性数据，就可以用 HGNC ID 直接合并
最后再把相互作用表导入 Cytoscape 或 Gephi，做成网络图看整体关系

写在最后

这份基于 DGIdb 的可成药基因集，数据量够，结构也清楚，接到后面的分析流程并不费事。它既能帮你先判断"哪些基因可能可成药"，也能顺着药物相互作用关系继续往下看。

不管是做肿瘤免疫、代谢疾病，还是 AI 辅助药物发现，这份数据都可以作为一个起点。如果对几个文件之间的对应关系还不太熟，建议配合课程里的视频讲解和 PPT 一起看，理解起来会轻松一些。

关注【biofSCI】，回复 M117，立即获取课程脚本、数据与视频讲解！

【新课】161.从基因到因果：双pQTL孟德尔随机化实战精讲——解锁蛋白互作网络的科研新赛道

GTEx eQTL V11：筛基因、接 MR 之前，先把「版本」写对