整合 AI、物理模型与实验的 IMPECCABLE 工作流:纳摩尔级抑制剂发现

本文为 2026 年 5 月发布于 ChemRxiv 的预印本研究，由伦敦大学学院、阿斯利康、多伦多大学、美国国家实验室等多机构联合完成，核心开发了名为IMPECCABLE的异构化药物发现全流程工作流，首次实现人工智能（AI）、物理基分子模拟与药物化学家经验的深度融合，可在全球首两台百亿亿次超算 Frontier、Aurora 上高效运行，完成十亿级化合物库的快速筛选与优化。该工作流在两个疾病相关蛋白靶点 TNKS2、WDR91 上完成全流程验证，成功发现了 WDR91 蛋白的纳摩尔级强效抑制剂，解决了传统药物发现周期长、成本高、成功率低的行业核心痛点。

一、研究背景与立题依据

传统药物研发模式存在难以突破的行业瓶颈：单个新药上市平均需 10 年研发周期、20-30 亿美元投入，临床成功率仅约 5%。近年来，AI 与物理基计算方法成为药物发现的核心工具，但二者均存在固有局限：

AI 方法的核心短板

生成式 AI 虽能实现大规模分子生成，但其能力受限于训练数据集，仅能在编码空间内进行插值与外推，缺乏对未知化学空间的可靠泛化能力；同时 AI 预测无法实现系统的不确定性量化，输出结果常过度自信，假阳性率高，难以获得药物化学家的信任。

物理基方法的核心短板

基于分子动力学的结合自由能计算、分子对接等方法，预测精度高、可实现严格的不确定性量化，结果可靠性强，但计算成本极高、速度慢，无法实现十亿级化学空间的全量筛选。

二者具有天然的互补性，此前已有研究尝试将生成式主动学习（GAL）与相对结合自由能（RBFE）计算结合，但大多局限于先导化合物优化阶段，在苗头化合物（hit）发现阶段的应用极少，且缺乏系统的不确定性量化与完整的实验闭环验证。基于此，本研究构建了 IMPECCABLE 全流程工作流，覆盖从 hit 发现到先导优化的完整临床前研发环节，以物理基方法的精准计算结果引导 AI 生成，同时全程纳入药物化学家的经验约束，兼顾分子的结合亲和力、可合成性、结构多样性与新颖性。

二、IMPECCABLE 工作流的整体架构与核心模块

Figure 1 (a) IMPECCABLE 工作流的模块化示意图，整合了多个机器学习（ML）与物理基（PB）功能组件，通过迭代式知识传递与机制洞察形成生成式主动学习（GAL）闭环，为药物发现提供稳健、快速、可靠的技术路径。工作流为 hit 发现、先导优化两个核心阶段分别设置了独立的目标导向 GAL 循环，适配不同阶段的研发需求；药物化学家全程参与流程的每个环节，确保计算预测的化合物具备优异的可合成性，同时平衡各模块的计算成本，实现算力资源的高效利用。

Figure 1 (b) IMPECCABLE 工作流的全流程执行路径，完整覆盖从虚拟筛选到实验验证的全链条，核心步骤如下：

ML 对接替代模型训练：基于 Zinc20 数据库的随机 10k 子集，训练仅编码器 Transformer 模型，作为分子对接的替代模型，实现超高速虚拟筛选。

全库虚拟筛选：用训练完成的替代模型对整个化合物库进行筛选，取评分最高的 10k 个化合物进入下一阶段。

对接构象优化：通过 AI 构象优化器，为筛选得到的化合物生成高质量的蛋白结合构象，作为后续自由能计算的初始结构。

hit 发现 GAL 循环：以 ESMACS 方法计算的绝对结合自由能为反馈信号，引导 REINVENT 生成式 AI 优化分子结构，同时通过 AiZynthFinder 评分约束分子的可合成性，兼顾结构多样性与新颖性。

实验初步验证：对筛选得到的 hit 分子进行合成、结构表征与亲和力检测，检测方法包括表面等离子体共振（SPR）、亲和选择 – 质谱等。

先导优化 GAL 循环：以实验验证的 hit 分子为起点，用 TIES 方法计算的相对结合自由能替代 ESMACS，结合 REINVENT 与 AiZynthFinder，进一步优化分子的结合亲和力、可合成性与成药性。

最终验证：对最优候选分子进行合成、手性纯化与全面的活性评价，完成计算 – 实验的完整闭环。

核心功能模块详解

1. 物理基计算模块

物理基方法是整个工作流的精度核心，为 AI 生成提供可靠的反馈信号，同时实现严格的不确定性量化，确保预测结果具备可执行性。

分子对接

采用 OpenEye 科学软件套件完成全流程处理，通过 FixpKa 在 pH 7.4 条件下为化合物分配合适的质子化状态，OMEGA 为每个化合物生成最多 200 个构象，FRED 完成分子对接，以 Chemgauss4 评分对结合构象进行排序。

ESMACS

增强采样的分子力学 / 泊松玻尔兹曼表面积方法，用于 hit 发现阶段的绝对结合自由能（ABFE）计算。通过 Binding Affinity Calculator（BAC）接口对接 AmberTools23 套件，配体采用 GAFF2 力场与 AM1-BCC 原子电荷，蛋白采用 Amber ff14SB 力场，水分子采用 TIP3P 模型；每个蛋白 – 配体复合物设置 10 个重复体，经能量最小化、升温后，执行 4 ns 的生产相分子动力学（MD）模拟，在保证预测精度的同时，适配高通量筛选的算力需求。

TIES

增强采样的热力学积分方法，用于先导优化阶段的相对结合自由能（RBFE）计算。基于炼金术自由能微扰原理，通过集合模拟实现系统的不确定性量化，最大限度降低假阳性 / 假阴性结果，为 GAL 循环提供精准的优化方向。计算前先基于最大公共子结构构建配体扰动网络，采用 AM1-BCC-ELF10 电荷方案分配原子电荷，通过 FEgrow 流程制备蛋白结合态坐标；每个配体设置 5 个重复体，覆盖 13 个 λ 窗口，每个窗口执行 4 ns 生产相模拟，单配体总模拟时长达 260 ns。

2. AI 功能模块

AI 模块是整个工作流的效率核心，实现化学空间的超高速采样与定向优化，大幅降低物理基计算的算力负担。

生成式主动学习（GAL）

将基于强化学习的 REINVENT 分子生成模型，与物理基结合自由能计算驱动的迭代主动学习深度融合。hit 发现阶段采用循环神经网络（RNN）先验，实现分子的从头生成；先导优化阶段采用 Libinvent 先验，支持用户固定分子骨架，仅对指定出口向量的 R 基团进行优化。每个循环生成 10000 个（hit 发现）/1000 个（先导优化）候选分子，经分子指纹聚类去除相似结构后，通过复合评分函数筛选；采用贪心采集策略选择 100 个分子执行物理基自由能计算，计算结果用于更新替代模型，形成闭环迭代优化。

对接替代模型

开发了 BERT 类 Transformer 回归模型 Simple SMILES Transformer（SST），直接以 SMILES 字符串为输入，无需繁琐的分子描述符预处理，大幅提升筛选通量。单张 NVIDIA A100 显卡每秒可处理 3100 个化合物，在 Aurora 超算的 256 个节点上，可在 40 分钟内完成 ZINC22 数据库 220 亿个化合物的全量筛选。

构象优化器

自研 AI 模型，以配体 – 蛋白结合构象为输入，基于蛋白 – 配体原子间的相互作用，预测构象的 MMPBSA 自由能评分并排序，筛选出最优结合构象，为后续自由能模拟提供高质量初始结构。

三、工作流的应用与实验验证结果

研究以两个疾病相关蛋白靶点 TNKS2、WDR91 为研究对象，完成了 IMPECCABLE 工作流的全流程验证，实现了 hit 发现到先导优化的完整闭环。

1. 苗头化合物（hit）发现阶段

TNKS2 靶点：端锚聚合酶 2（TNKS2）是已验证的致癌靶点，参与端粒维持、有丝分裂、葡萄糖代谢等多种细胞进程。研究以文献报道的 27 个已知 TNKS2 结合剂为种子结构，初始化 GAL 循环，仅 3 次迭代即实现 ESMACS 预测结合亲和力的收敛，得到了一批化学多样性高、可合成性优异的 hit 分子。Figure 2 TNKS2 靶点 GAL 循环发现的可合成高亲和力 hit 分子示例，标注了 AiZynthFinder 评估的可合成性与结合自由能（单位：kcal/mol），直观展示了生成分子的骨架多样性与结构新颖性。

WDR91 靶点：WDR91 蛋白被认为在人体病毒感染宿主应答中发挥关键作用，但其具体生物学功能尚未完全阐明，小分子结合剂是解析其功能的核心工具。该靶点首个小分子结合剂来自 DNA 编码化合物库（DEL）筛选偶联机器学习，先导化合物 1 的 KD 为 6 μM，已有晶体结构明确了结合模式。研究团队先购买了 20 个化合物 1 的结构变体，又在实验室合成了 12 个补全构效关系的分子，SPR 检测结果显示所有化合物的 KD 均≥6 μM，未实现亲和力提升；此前采用的自由能微扰（FEP）方法，预测了一批含 N – 取代硫杂环丁烷二氧化物结构的化合物，但经大量合成努力后，未发现结合力更优的分子，凸显了无系统不确定性量化的模拟方法泛化性差、预测结果不可靠的问题。基于此，研究选择化合物 1 作为先导，进入 IMPECCABLE 先导优化循环。

2. 先导化合物优化阶段

TNKS2 靶点：从 hit 发现阶段的结果中，选取 2 – 苯基 – 6 – 氟喹唑啉 – 4 – 酮为核心骨架，通过 REINVENT 的 Libinvent 先验，分别对 7 位（R1）、苯环对位（R2）两个出口向量进行定向优化。R1 位点完成 5 次 GAL 迭代，R2 位点完成 3 次迭代，结合自由能分布持续向高亲和力方向稳定偏移。

Figure 4 (a) TNKS2 靶点每个 GAL 迭代后，R1、R2 出口向量的 TIES 结合自由能 ΔGbind 分布，清晰显示分布持续向更强结合剂方向偏移；(b) R1、R2 优化得到的最强结合剂示例，以及对应的预测 ΔGbind 值，生成化合物的结合亲和力显著优于原始母体化合物。

WDR91 靶点：以化合物 1 为基础，定义了核心骨架 9 与三个结构出口向量，优先优化 R1（化合物 1 中的氧杂环丁烷）与 R2（化合物 1 中的 3 – 羟基吡咯烷）位点，R3 位点位于狭窄的结合口袋，不适合进行结构修饰。REINVENT 共生成 94 个候选结构，药物化学家基于结构多样性与可合成性，人工筛选出 10-15 个分子进行合成与活性检测。其中化合物 10 在 SPR 实验中（5 次重复）测得 KD 为 0.345 μM，经差示扫描荧光法热位移实验交叉验证，相较于起始化合物 1 实现了 20 倍的亲和力提升，是目前已报道的 WDR91 蛋白最高亲和力结合剂；最终经手性纯化后，化合物 10 的 KD 值为 352 ± 32 nM，达到纳摩尔级强效抑制水平。

Figure 3 从化合物 1 出发的高亲和力结合剂开发全流程，包含 FEP 方法的验证结果（预测结合能与实验 KD 线性相关，R=0.495）、IMPECCABLE 工作流 GAL 循环预测的分子 10-15，以及合成后实验验证的纳摩尔级亲和力化合物 10 的结构与活性数据。

3. 配体 – 蛋白相互作用的机理分析

Figure 5 (a) 化合物 1 与 WDR91 蛋白的相互作用模式；(b) 化合物 10 与 WDR91 蛋白的相互作用模式，所有结构均来自 MD 模拟的代表性快照。通过分子动力学模拟，研究明确了化合物 10 实现纳摩尔级亲和力的核心分子机制：

化合物 10 的苯甲酰胺核心酰胺氮，与 Thr532 的主链羰基形成稳定的氢键相互作用。固定不变的 R3 氯苯基上的氯原子，与 Cys503 的硫原子形成相互作用，二者距离为 3.66±0.25 Å，夹角为 133±10°。

亲和力提升的核心来源：R1 位点的吡唑环被精准夹在 Arg462 的胍基与 Thr532-Lys533 的肽主链之间，形成稳定的阳离子 -π- 酰胺三明治堆叠结构，同时利用吡唑环的 π 体系，与两侧分别形成阳离子 -π 相互作用和酰胺 -π 堆叠作用，最大化了与蛋白的结合能。对比化合物 1 的氧杂环丁烷结构，其在结合口袋中发生 90 度旋转，与蛋白残基呈垂直取向，破坏了平面堆叠结构，仅能形成不利的边对面相互作用，因此结合力显著弱于化合物 10。

四、工作流的计算效率与性能优势

Table 1 IMPECCABLE 工作流与传统纯物理基方法，在临床前药物发现各阶段的计算效率对比，效率定义为传统方法所需计算成本与 IMPECCABLE 工作流所需计算成本的比值。

研发阶段	传统方法需处理的分子数	IMPECCABLE 需处理的分子数	效率提升倍数
虚拟高通量筛选	10 亿	100 万	~1000
hit 发现	50000	10500	~5
先导优化	5100	600	~8.5

除表格展示的核心效率提升外，工作流还具备以下关键性能优势：

超算适配与极速处理

全流程在 Frontier 超算上，完成 ZINC20 数据库（约 10 亿化合物）的全流程处理，总墙钟时间仅 25 小时；最新版本处理 ZINC22 数据库（约 370 亿化合物），墙钟时间仅出现边际增加，可在数天内完成从虚拟筛选到候选分子输出的全流程。

高并发与可扩展性

可在 Frontier、Aurora 两台超算上并发执行多个 IMPECCABLE 工作流，相较于配备 1k GPU 的中等规模集群，速度提升至少两个数量级；总吞吐量随并发执行数、化合物库大小呈线性扩展，可同时并行处理多个不同的蛋白靶点。

超高实验成功率

在 WDR91 靶点上，仅合成并测试 6 个预测分子，即发现 1 个纳摩尔级强效抑制剂，远高于传统药物发现的实验成功率。

五、研究结论与展望

本研究开发的 IMPECCABLE 工作流，实现了 AI 方法、物理基分子模拟与药物化学家经验的深度融合，通过迭代式生成式主动学习循环，完成了广阔化学空间的高效、定向、多样性采样，可同时优化分子的结合亲和力、可合成性、结构多样性与新颖性。该工作流在 TNKS2、WDR91 两个靶点上完成了全流程验证，成功预测并合成了 WDR91 蛋白的纳摩尔级抑制剂，经 SPR 与 X 射线晶体学实验，全面验证了化合物的结合亲和力与结合模式；在其他计算方法均失败的 WDR91 靶点上，IMPECCABLE 仍实现了可靠的预测与活性提升，证实了方法的泛化性与鲁棒性。工作流已成功部署于全球首两台百亿亿次超算，计算效率相较于传统纯物理基方法提升了数个数量级，为大规模、多靶点并行药物筛选提供了技术支撑。未来，研究团队将进一步把工作流扩展至吸收、分布、代谢、排泄、毒性（ADMET）性质的多目标优化，并探索结合数字孪生技术，实现面向个性化治疗的药物疗效预测与精准药物设计。