乐于分享
好东西不私藏

AI 药物研发论文背后的数据源地图:从序列、结构、活性到靶点证据

AI 药物研发论文背后的数据源地图:从序列、结构、活性到靶点证据

AI 药物研发论文背后的数据源地图:从序列、结构、活性到靶点证据

摘要: 读懂一篇 AI 药物研发论文,不能只看模型结构和指标。更关键的是追问:它用的序列、结构、活性和靶点证据分别来自哪里,证据等级如何,能否支撑作者的结论。

很多 AI 药物研发论文看起来很完整:有一个新模型,有漂亮的 benchmark,有分子生成结果,有 docking 图,有靶点解释,最后再给出几个候选化合物。

但真正读到方法部分时,经常会遇到一个更基础的问题:这些结论背后的数据到底来自哪里?

一个模型说某个分子“可能有效”,它可能引用了 ChEMBL 的活性数据;一个靶点被认为“值得关注”,可能依赖 UniProt 的蛋白注释、PDB 的实验结构、AlphaFold 的预测结构,或 Open Targets 的疾病证据整合。每个数据库都很有用,但它们回答的问题并不一样。

如果把这些数据源混在一起看,就容易把“序列存在”“结构可见”“活性相关”“靶点有证据”写成同一种确定性。对科研工作者来说,读懂一篇 AI 药物研发论文,第一步不是看模型多复杂,而是先把它的数据源地图画清楚。

AI 药物研发论文的数据源层级地图

一、UniProt 回答的是:这个蛋白是谁,它有什么已知功能

AI 药物研发论文里,一个靶点通常首先会被映射到一个蛋白。这个时候,UniProt 往往是最基础的入口。

UniProt 的价值不只是给出一条蛋白序列。它更重要的作用是把蛋白名称、基因、物种、功能注释、结构域、亚细胞定位、变体、交叉引用和证据等级组织在一起。对于药物研发论文来说,这相当于给靶点建立了一个“身份档案”。

但读 UniProt 时要注意一个细节:不是所有条目的证据强度都一样。

UniProtKB/Swiss-Prot 是人工审阅条目,通常注释质量更高;UniProtKB/TrEMBL 主要是自动注释条目,覆盖面更广,但需要更谨慎使用。论文如果只写“根据 UniProt 注释,该蛋白具有某功能”,读者还要继续追问:这是 reviewed 还是 unreviewed?功能注释来自实验,还是同源推断?有没有对应的文献和证据标签?

在 AI 药物研发里,序列和注释常常是模型输入的第一层。如果这一层本身存在错误映射、同源误判或物种差异,后面的结构预测、分子筛选和靶点解释都会被放大偏差。

一个稳妥的读法是:UniProt 提供的是蛋白身份和功能背景,不是药物靶点有效性的最终证明。

二、PDB 回答的是:有没有实验结构,它的质量如何

结构生物学读者通常会自然区分实验结构和预测结构,但 AI 药物研发论文有时会把二者放在同一个图里展示,给人一种证据等级相近的印象。

PDB 的核心价值在于实验测定的三维结构。X-ray crystallography、cryo-EM、NMR 等方法得到的结构,为结合口袋、构象状态、配体相互作用和结构域组织提供了直接证据。

但“有 PDB 结构”并不等于“结构可以直接用于药物设计”。至少要继续看几个问题:

  • 结构来自哪个物种?
  • 是全长蛋白,还是某个结构域?
  • 分辨率或模型质量如何?
  • 是否包含配体、辅因子或关键突变?
  • 构象是否对应生理状态?
  • 口袋区域是否完整、可信、可用于 docking?

很多 AI 论文会用 PDB 结构作为训练数据、benchmark 数据、docking 模板或结果解释依据。这里最容易出现的问题,是把一个局部结构、低分辨率结构或非生理构象,当成完整靶点结构来解释。

所以 PDB 提供的是结构层面的强证据,但它仍然需要质量检查和上下文判断。实验结构越接近研究问题,证据价值越高;结构越偏离真实生物场景,解释空间就越大。

蛋白结构阅读指南:Method、Resolution、Chain、Ligand、Active Site 与 Confidence

三、AlphaFold 回答的是:在缺少实验结构时,可能的折叠是什么

AlphaFold 数据库让大量蛋白拥有了可访问的结构预测模型,这对药物研发和功能假设生成非常有价值。尤其在没有 PDB 结构的蛋白、低研究程度蛋白和跨物种比较中,AlphaFold 可以显著降低结构探索的门槛。

但 AlphaFold 预测结构和 PDB 实验结构不能直接等价。

AlphaFold 更擅长预测单个蛋白或结构域的折叠。对于高度柔性区域、无序区域、构象变化、配体诱导构象、膜环境、蛋白复合物界面和真实结合口袋,仍需要谨慎解释。即使数据库已经扩展到大量蛋白结构预测和蛋白复合物预测,预测结构依然是计算证据,不是实验测定。

读 AI 药物研发论文时,如果作者用 AlphaFold 结构做 docking 或口袋分析,至少要看:

  • 口袋区域的置信度是否足够高?
  • 关键残基是否位于低置信度区域?
  • 该蛋白是否有明显无序区?
  • 预测构象是否可能对应活性状态?
  • 是否有 PDB 同源结构、突变实验或功能实验支持?
  • docking 结果是否经过湿实验验证?

AlphaFold 的正确用法,是帮助提出结构假设、缩小实验搜索空间,而不是替代结构测定和活性验证。

四、ChEMBL 回答的是:小分子和靶点之间有哪些已知活性证据

如果说 UniProt 和 PDB/AlphaFold 回答的是“靶点是什么、结构可能是什么”,ChEMBL 更接近药物研发中另一个核心问题:小分子和生物系统之间有没有可检索的活性数据。

ChEMBL 收录的是经过整理的生物活性信息,包括小分子、靶点、assay、结合或功能测定、ADMET 相关信息等。很多 AI 药物研发模型会用 ChEMBL 训练分子活性预测模型、构建 benchmark、寻找已知 ligand,或评估生成分子的相似性。

但 ChEMBL 的数据不能被简单理解为“某分子对某靶点有效”。它更像是一组结构化实验记录。不同 assay 之间差异很大:

  • binding assay 和 functional assay 回答的问题不同;
  • IC50、Ki、Kd、EC50 不能随意混用;
  • cell-based assay 可能包含膜通透性、代谢、毒性等复合因素;
  • 不同实验室、不同条件、不同蛋白构建体之间可能不可直接比较;
  • inactive 数据和 negative data 是否完整,会影响模型判断。

很多 AI 论文的问题,不是用了 ChEMBL,而是没有说清楚怎么清洗 ChEMBL。比如是否去重,如何处理多个活性值,如何区分 assay 类型,如何避免同一化合物或高度相似化合物跨训练集和测试集泄漏。

对读者来说,看到 ChEMBL 训练集时,不妨先问一句:作者是在学习真实的药效规律,还是在学习数据库里重复出现的化学骨架和 assay 偏差?

五、Open Targets 回答的是:靶点和疾病之间有多少层证据

药物研发不是只要一个蛋白能结合一个小分子就够了。真正的问题是:调控这个靶点,是否有理由影响某种疾病?

Open Targets 的价值在于整合不同类型的 target-disease evidence。它可以把遗传学、基因组学、转录组、药物、动物模型、通路、文献等信息放到一个靶点-疾病关联框架中,帮助研究者做靶点优先级判断。

这类证据整合对 AI 药物研发尤其重要。因为模型可能会提出很多候选靶点或候选分子,但如果靶点和疾病之间缺乏遗传学、功能实验或临床相关证据,再漂亮的分子生成结果也只能停留在早期假设。

不过,Open Targets 的分数也不能被当作最终答案。它整合的是不同来源、不同证据等级、不同偏差结构的数据。文献挖掘、表达差异、动物模型、遗传关联和已知药物证据的含义并不相同。

更稳妥的方式是把 Open Targets 当作证据地图,而不是裁判。它帮助你发现证据来自哪里、集中在哪些维度、是否存在缺口。真正的靶点判断,还要回到具体疾病、机制、可成药性、安全性和实验验证。

六、一篇 AI 药物研发论文的数据链条应该这样拆

如果把这些数据源放在一起看,一篇 AI 药物研发论文常见的数据链条大致是:

Sequence / Annotation UniProt, Ensembl, BLAST   
  ↓ Structure PDB, AlphaFold    
  ↓ Bioactivity ChEMBL, assay records, ligand-target data     
  ↓ Target-Disease Evidence Open Targets, literature, genetics, omics     
  ↓ Model Task binding prediction, virtual screening, molecule generation, target prioritization      
 ↓ Experimental Validation biochemical assay, cell assay, animal model, structural validation

这个链条里,每一层都能产生知识,也都可能引入偏差。

序列层可能有同源误判。结构层可能有构象问题。活性层可能有 assay 异质性。靶点证据层可能有疾病注释和文献偏倚。模型层可能有数据泄漏。验证层可能缺少真正独立的实验支持。

读论文时,最重要的不是把这些数据库名称背下来,而是判断作者有没有把不同证据层级分清楚。

如果一篇论文用 UniProt 说明蛋白功能,用 AlphaFold 做结构建模,用 ChEMBL 训练活性预测模型,再用 Open Targets 支持疾病相关性,那么它至少应该解释四件事:

  1. 蛋白身份和功能注释是否可靠;
  2. 结构证据是实验结构还是预测结构;
  3. 活性数据是否经过合理清洗和任务定义;
  4. 靶点-疾病证据是否足以支持后续药物研发假设。

缺少任何一环,结论都应该相应降级。

七、读论文时的自检清单

以后看到 AI 药物研发论文,可以用下面这张清单快速扫一遍。

1. 靶点身份是否清楚

  • 是否给出 UniProt accession 或 Ensembl ID?
  • 蛋白条目是 reviewed 还是 unreviewed?
  • 功能注释来自实验,还是自动推断?
  • 是否区分物种、isoform 和蛋白结构域?

2. 结构证据是否足够匹配问题

  • 使用的是 PDB 实验结构还是 AlphaFold 预测结构?
  • 结构覆盖的是全长蛋白还是局部结构域?
  • 关键口袋或界面区域置信度如何?
  • 是否考虑配体、辅因子、膜环境或构象变化?

3. 活性数据是否定义清楚

  • ChEMBL 数据来自 binding assay 还是 functional assay?
  • IC50、Ki、Kd、EC50 是否被混用?
  • 是否处理重复记录、冲突记录和单位标准化?
  • 是否避免相似化合物或同源靶点导致的数据泄漏?

4. 靶点-疾病证据是否分层

  • 遗传学证据、表达证据、动物模型证据和文献证据是否被区分?
  • Open Targets 分数是否被解释为证据整合,而不是结论?
  • 是否有功能实验支持靶点调控能影响疾病相关表型?

5. 型结果是否经过真正验证

  • benchmark 是否有外部测试集?
  • 生成分子是否只是 docking 分数高,还是有实验活性?
  • 是否报告失败案例和负结果?
  • 是否公开代码、数据切分和模型参数?

这张清单的作用不是否定 AI 药物研发,而是帮助我们把“有趣的模型结果”和“可靠的药物研发证据”分开。

结尾:数据源不是装饰,而是论证结构

很多论文会把数据库名称写在方法部分,读者扫一眼就过去了。但在 AI 药物研发里,数据源不是背景材料,而是整篇论文论证结构的一部分。

UniProt 解决蛋白身份和功能注释问题。PDB 提供实验结构证据。AlphaFold 扩展结构假设空间。ChEMBL 连接小分子、靶点和活性记录。Open Targets 帮助把靶点放回疾病证据网络。

它们共同构成了一张从序列到结构、从活性到疾病证据的地图。

真正需要警惕的是,把这张地图上的不同层级压平成一句话:AI 发现了新药。

更准确的表达应该是:AI 基于已有序列、结构、活性和靶点证据,提出了一个值得进一步验证的候选假设。这个假设能走多远,取决于数据质量、证据等级和实验验证,而不是模型图画得多漂亮。

参考文献

  1. ChEMBL,ChEMBL database homepage,https://www.ebi.ac.uk/chembl/。
  1. ChEMBL,What is ChEMBL?,https://www.ebi.ac.uk/training/online/courses/chembl-quick-tour/what-is-chembl/。
  1. ChEMBL,How is ChEMBL data curated?,https://www.ebi.ac.uk/training/online/courses/chembl-quick-tour/what-is-chembl/how-is-chembl-data-curated/。
  1. UniProt / EMBL-EBI,About UniProt,https://www.ebi.ac.uk/uniprot。
  1. UniProt,What is UniProt?,https://www.ebi.ac.uk/training/online/courses/uniprot-exploring-protein-sequence-and-functional-info/what-is-uniprot/。
  1. UniProt,The UniProt databases,https://www.ebi.ac.uk/training/online/courses/uniprot-exploring-protein-sequence-and-functional-info/what-is-uniprot/the-uniprot-databases/。
  1. RCSB PDB,About RCSB PDB,https://www.rcsb.org/pages/about-us/index。
  1. RCSB PDB,RCSB PDB homepage,https://www.rcsb.org/。
  1. AlphaFold Protein Structure Database,About AlphaFold DB,https://alphafold.com/。
  1. EMBL,Millions of protein complexes added to AlphaFold Database shed light on how proteins interact,https://www.embl.org/news/science-technology/first-complexes-alphafold-database/。
  1. Open Targets,Open Targets homepage,https://www.opentargets.org/。
  1. Open Targets Platform Documentation,Target-disease associations,https://platform-docs.opentargets.org/associations。