AI要取代FEP做药物活性预测?字节跳动这篇新研究给了个很现实的答案:Boltz2几乎没有有效排序能力,预测值和实验值相关性接近于零

AI很强。

但在药物研发里，尤其是到了真正要决定“哪个分子值得合成、哪个分子值得推进”的时候，问题就变得没那么简单了。

最近，一篇来自 ByteDance AI Drug Discovery / Anew Therapeutics 团队的预印本研究，把这个问题摆到了台面上：

AI模型在公开Benchmark上表现很好，但到了真实前瞻性药物项目中，它还能可靠吗？

这篇文章系统比较了基于物理的自由能计算方法和AI亲和力预测方法。结果非常直接：

在公开数据集上，AI可以很亮眼。但在真实de novo分子项目中，物理自由能计算仍然更可靠。

尤其是文章中对 AnewFEP 和 Boltz-2 的对比，非常值得做AIDD、CADD、FEP和AI药物设计的人认真看一看。

研究背景：AI很快，但药物活性预测不能只看“快”

蛋白–配体结合亲和力预测，一直是计算药物研发中的核心问题。

简单来说，就是我们希望在真正合成分子之前，提前预测：

这个分子到底能不能结合靶点？

结合得强不强？

相比另一个分子，它是否更值得推进？

过去，这类问题主要依赖分子对接、分子动力学、MM/GBSA和FEP等方法。其中，FEP，尤其是RBFE，长期被认为是lead optimization阶段比较可靠的物理计算工具。

但这几年，AI模型发展太快了。

从蛋白结构预测，到蛋白–配体复合物预测，再到结合亲和力预测，AI模型不断在公开benchmark上刷新结果。于是，一个很自然的问题出现了：

如果AI已经能预测结合模式和亲和力，那我们还需要昂贵、耗时的FEP吗？

这篇文章的核心，就是回答这个问题。

作者并没有简单地说“AI不行”或者“FEP一定更好”，而是做了更贴近真实药物研发的问题拆解：

公开benchmark上的好成绩，能不能代表真实项目中的预测能力？

研究结果

1. 研究团队提出了一个新的FEP工作流：AnewFEP

文章首先提出了一个新的自由能计算流程，叫 AnewFEP。

它不是简单把GROMACS拿来跑FEP，而是做了完整的工程化升级，包括：

小分子力场 AnewFF REST2增强采样自动化原子映射扰动图构建 λ窗口设计模拟质量控制自由能后处理 AI Agent辅助任务提交与结果分析

也就是说，AnewFEP更像是一个面向真实药物项目的自动化FEP平台。

更有意思的是，文章还提到用户可以通过AI Agent和AnewFEP交互。也就是说，未来的FEP可能不是“人工手动调参跑任务”，而是变成：

AI负责自动化和效率，物理模型负责可靠性和决策。

这其实是一个很重要的趋势。

2. 公开Benchmark上，AnewFEP已经接近FEP+水平

文章使用了一个包含 1144个配体 的公开benchmark进行系统比较。

这些数据覆盖了多个典型药物研发场景，包括：

R-group替换电荷变化 core-hopping macrocycles BACE1 GPCR Merck benchmark OPLS stress-test

结果显示，AnewFEP的整体 pairwise ΔΔG RMSE 为：

1.44 kcal/mol

而经典的 Schrödinger FEP+ 为：

1.25 kcal/mol

这个差距已经比较接近。

它用热图的形式比较了不同物理FEP方法和AI方法在多个benchmark上的表现。

从图中可以看到，FEP+和AnewFEP整体表现更稳定，尤其是在多个复杂体系中仍然能维持较低误差。

这说明一件事：

想要做好FEP，不只是“会跑分子动力学”这么简单。

真正影响结果的，是力场、采样、λ路径、数值稳定性和体系构象控制的综合能力。

3. FEP为什么会出错？文章拆出了几个非常真实的原因

这篇文章最有价值的地方，不只是报告了一个RMSE，而是深入分析了FEP为什么会预测错。

因为在真实项目里，我们最怕的不是模型误差，而是：

模型错了，但我们不知道它为什么错。

作者通过几个案例说明，FEP误差可能来自多个层面。

3.1 一个SO₂氧原子的范德华半径，就可能造成几 kcal/mol 的误差

第一个案例是 HIF-2α。

研究发现，原始力场中 SO₂ 氧原子的范德华半径偏小，导致配体在蛋白口袋中出现不真实的过度稳定。

结果是什么？

预测出来的ΔΔG和实验值相差超过 3 kcal/mol。

这在药物研发中已经是非常大的误差。

通过调整SO₂氧原子的 Lennard–Jones σ 参数，HIF-2α体系的RMSE可以从约 2.1 kcal/mol 降低到约 1.5 kcal/mol。

这部分非常适合强调一句话：

FEP不是魔法。一个局部力场参数不合理，就可能让整个预测结果跑偏。

3.2 一个二面角参数不合理，也会让FEP产生假阳性

第二个案例是 BACE1 cr2 stress-test。

在这个体系中，两个配体只是芳香环上发生了一个很小的 C→N 替换。

从化学直觉看，这种变化不应该导致巨大的构象能量差异。

但原始力场给出的扭转势能曲线并不合理，导致模型预测出明显错误的ΔΔG。

这说明：

FEP的误差不一定来自采样不够，也可能来自力场中某个局部能量项的系统性偏差。

这对做FEP项目的人非常重要。

因为很多时候，我们看到FEP结果不准，第一反应是“是不是模拟时间不够”。

但这篇文章提醒我们：

有时候不是跑得不够久，而是能量函数本身就错了。

3.3 蛋白口袋构象漂移，也会显著影响预测准确性

第三个案例是 FXa set 6。

原始模拟中，蛋白结合口袋的局部构象发生漂移，导致关键相互作用丢失。

加入蛋白骨架二面角约束后，RMSE从：

2.41 kcal/mol

降低到：

1.57 kcal/mol

这个结果非常真实。

在实际项目中，很多FEP失败并不是因为配体本身，而是蛋白口袋在模拟中发生了不合理的局部变化。

所以，FEP不是“输入结构进去，结果自然出来”。

它需要判断：

蛋白构象是否合理？关键相互作用是否保持？口袋是否发生了非生理性的漂移？模拟中的构象是否代表真实结合状态？

这些问题，都会直接决定FEP能不能用于项目决策。

3.4 λ路径设计不好，会让同一个分子的rotamer也算出巨大差异

第四个案例是 JNK1 的芳香环翻转。

理论上，两个rotamer只是甲氧基方向不同，它们之间的ΔΔG应该接近0。

但在原始λ路径下，模型竟然算出了：

4.1 kcal/mol

这显然不是物理真实差异，而是采样路径设计造成的假误差。

作者通过重新设计非键相互作用的λ schedule，把多个 A→A_flip 扰动的平均绝对ΔΔG从：

2.27 kcal/mol

降低到：

0.49 kcal/mol

这部分非常适合总结成一句话：

FEP的准确性，不只取决于力场，还取决于你怎么“变”这个分子。

也就是说，alchemical pathway本身就是决定FEP可靠性的关键因素。

4. 最关键结果：真实前瞻性项目中，Boltz-2排序能力明显下降

接下来是整篇文章最有冲击力的部分。

研究团队把AnewFEP和Boltz-2放到了内部真实前瞻性项目中比较。

这些分子不是公开benchmark里的常规分子，而是内部生成的 de novo molecules。

这类场景更接近真实药物研发：

新骨架新化学空间新结合模式训练集中可能没有类似分子

结果非常直接。

Boltz-2在这个场景下几乎没有有效排序能力，预测值和实验结果的相关性接近于零。

而AnewFEP仍然可以区分弱结合分子和强结合分子，保留了一定的单调相关性。

左边是AnewFEP，右边是Boltz-2。

AnewFEP还能看到预测值和实验值之间的趋势；Boltz-2则几乎无法形成有效排序。

这个结果说明了一个非常现实的问题：

AI模型在公开数据集上表现好，不代表它在真实药物项目中一定可靠。

尤其是在分布外化学空间里，AI模型可能会出现明显性能下降。

5. 所以，AI到底能不能取代FEP？

这篇文章给出的答案其实很清楚：

现在还不能。

但更准确地说，不是AI不重要，而是AI和FEP应该承担不同角色。

AI适合做什么？

快速结构预测大规模虚拟筛选分子生成初步排序快速排除明显不合理分子

FEP适合做什么？

lead optimization阶段的精细排序关键候选分子的推进决策同系列分子的活性差异判断复杂构象和电荷变化体系的定量评估真实项目前瞻性验证

所以更合理的药物研发计算流程，不是：

AI替代FEP

而是：

AI提高探索效率，FEP提高决策可靠性。

这才是目前更现实的AIDD工作模式。

三、研究结论

这篇研究给出了一个非常务实的判断：AI正在快速改变药物设计，但在真实前瞻性药物研发中，基于物理的自由能计算仍然不可替代。AnewFEP通过优化小分子力场、增强采样、改进λ路径和提升数值稳定性，在包含1144个配体的公开benchmark上取得了接近FEP+的表现；更重要的是，在内部de novo分子项目中，AnewFEP仍能区分强弱结合分子，而Boltz-2的排序能力明显下降。 因此，未来最值得期待的方向并不是“AI消灭FEP”，而是“AI + FEP”协同：AI负责快速生成和初筛，FEP负责物理验证和关键决策。对于真正的药物研发项目来说，速度很重要，但可靠性更重要。

写在最后

AI药物设计正在进入一个新的阶段。

过去我们关心的是：

AI能不能预测？

现在更关键的问题是：

AI在真实项目里能不能稳定预测？

公开benchmark上的高分，当然值得关注。

但真正决定项目成败的，往往是那些没有出现在训练集里的新分子、新骨架和新结合模式。

这也是为什么，在今天的AIDD流程中，FEP依然很重要。

因为药物研发不是刷榜。

药物研发最终要回答的是：

这个分子，值不值得合成？这个方向，值不值得继续投资源？这个候选物，能不能进入下一轮优化？

在这些关键节点上，AI可以帮我们更快看到更多可能性。

但FEP，仍然是帮助我们做出更稳决策的重要工具。

Chemrxiv: https://chemrxiv.org/doi/full/10.26434/chemrxiv.15002526/