清华北大团队重磅成果:AI 用 24 小时,完成过去几十年的药物筛选工作量

IDC2026论坛聚焦：化学创新药物发现，protac、分子胶、AI助力药物发现等热点内容，合作热线177 0186 0390.

文章来源：momo读论文

论文信息

维度	信息
标题	Deep contrastive learning enables genome-wide virtual screening
作者	Yinjun Jia, Bowen Gao, Jiaxin Tan, et al.
机构	清华大学、北京智源人工智能研究院、北京大学等
论文地址	https://www.biorxiv.org/content/10.1101/2024.09.02.610777v3
代码地址	https://github.com/bowen-gao/DrugCLIP
发表时间	2026年1月8日

一句话概要

本文提出DrugCLIP，一种将虚拟筛选重新定义为密集检索任务的对比学习框架，在保持SOTA筛选精度的同时，将计算速度提升7个数量级，并成功在24小时内完成了针对近10,000个人类蛋白质靶点与5亿分子的10万亿次打分，首次实现了真正意义上的基因组规模虚拟筛选。

背景与问题

人类基因组包含约20,000个蛋白质编码基因，其中约90%尚无靶向药物。传统虚拟筛选（如分子对接）虽有效，但速度极慢：即使动用10,000个CPU核心筛选10亿分子对一个靶点也需要两周时间。若要对全基因组近万个靶点进行筛选，计算成本将高到无法想象。

深度学习模型虽被寄予厚望，却面临三大难题：1）标签噪声：不同实验条件下的亲和力数据不一致；2）分布偏移：训练集（正负样本均衡）与实际场景（极少数活性分子）差异巨大；3）推理速度瓶颈：上亿参数的模型难以应对超大规模化学库。这就像让一位只能识别固定路线的导游突然去指挥整个城市的交通，不仅认路不准，反应还慢。

核心贡献

首创密集检索范式：将虚拟筛选从回归任务（预测亲和力值）转变为对比学习任务（计算表征相似度），从根本上规避了标签噪声问题。

7个数量级加速：通过预计算分子表征+余弦相似度检索，单张A100 GPU可在25分钟内完成100k靶点对10M分子的筛选，比传统对接快千万倍。

湿实验三重验证：成功为5HT2AR（精神病靶点）发现nM级激动剂；为NET（新解析结构靶点）发现15%抑制率，12个分子优于上市药物安非他酮；为TRIP12（无结构/无抑制剂新靶点）发现17.5% hit rate的首类抑制剂。

首个基因组规模筛选数据库：24小时内完成10万亿次打分，覆盖近10,000个人类蛋白质的20,000+个口袋，筛选5亿分子，产出200万高置信度潜在配体并全部开源。

方法详解

如如果把药物筛选比作机场塔台调度，传统对接就像塔台必须亲自询问每一架飞机（分子）的详细飞行计划（构象搜索）并计算是否与跑道（口袋）匹配，效率极低。而 DrugCLIP 的思路是：先给所有飞机贴上标准化标签（预计算分子表征），塔台只需看一眼标签就知道这架飞机适不适合降落（计算余弦相似度）。

1. ProFSA 预训练（让塔台先看懂跑道）

ProFSA（蛋白质片段-周围区域对齐）的核心洞察在于：蛋白质内部的氨基酸相互作用与蛋白质-配体间的相互作用共享相同的物理化学法则，如氢键、π-π堆积等。研究团队从 PDB 蛋白质数据库中提取连续的短肽片段（1-8 个残基）作为“伪配体”，将其周围区域作为“伪口袋”，构建了 550 万个合成训练对。通过对比学习，让口袋编码器学会识别什么样的化学环境更容易结合分子。

2. 双阶段对比学习（给塔台装上一双慧眼）

DrugCLIP 包含两个编码器：分子编码器（初始化自 Uni-Mol）和口袋编码器（ProFSA 预训练）。训练目标是对比损失：

简单说，就是让真正的“口袋-配体”对在向量空间中靠近，让错误配对的远离。微调阶段使用 BioLip2 数据库中的 4 万多个实验复合物，并通过 RDKit 随机采样配体构象进行数据增强，让模型学会应对真实筛选时配体构象未知的情况。

3. GenPack 口袋优化（给不完美的跑道画线）

针对 AlphaFold 预测结构中侧链不准确的问题，GenPack 先去除侧链仅保留主链，用生成模型生成配体分子“定位”，再重新装回侧链并用分子力学优化。这个“去侧链-生成-装回”的过程，不是为了提高结构精度，而是为了更准确地定位口袋区域。

关键图表解读

1. DrugCLIP框架全景图

图 1. DrugCLIP框架

👉 解读：

这张图完整展示了从预训练到应用的全流程。A图展示了ProFSA的核心：从蛋白质结构中切出片段（红色）作为伪配体，周围残基（蓝色）作为伪口袋。B图的对比蒸馏是关键创新：冻结优秀的分子编码器（Uni-Mol），让口袋编码器学习与之对齐。D图的微调阶段两者同时更新。E图的筛选流程最简洁：候选分子库一次编码、重复使用，对新靶点只需计算一次口袋向量，然后全部用余弦相似度排序，这是速度提升的核心。

2. 泛化性与速度双重验证

图 2. 泛化性与速度验证

👉解读：

这张复合图信息量巨大。C图显示，即使移除所有与测试集共享相同Murcko骨架的分子（最严格的新颖性测试），DrugCLIP（EF1%≈20）仍优于Glide-SP（虚线≈16）。
D图更关键：当口袋侧链RMSD误差达到3Å时，DrugCLIP性能几乎不受影响，而AutoDock Vina（虚线）已大幅下降。这意味着模型对结构预测误差的容忍度极高。
E/F图的复杂度分析揭示本质：传统方法复杂度O(MN)，DrugCLIP仅O(M+N)，相当于从逐个面试变为集体简历筛选。

3. 基因组规模筛选全景

图 3. 基因组筛选结果

👉解读：

这是结果的最终呈现。B图Venn图显示，DrugCLIP覆盖9,908个人类靶点，是ChEMBL（4,810）的两倍多。C图的t-SNE可视化揭示了更重要信息：黄色（DrugCLIP覆盖）不仅包围蓝色（ChEMBL覆盖），还大量分布在蓝色稀疏区域——那些是迄今药理学理解有限的蛋白质家族，如嗅觉受体OR6A2（动脉粥样硬化新靶点）、Sestrin-2（癌症耐药相关）等。模型不仅找到了配体，还指明了这些“暗基因组”的潜在成药口袋。