

AI很强。
但在药物研发里,尤其是到了真正要决定“哪个分子值得合成、哪个分子值得推进”的时候,问题就变得没那么简单了。
最近,一篇来自 ByteDance AI Drug Discovery / Anew Therapeutics 团队的预印本研究,把这个问题摆到了台面上:
AI模型在公开Benchmark上表现很好,但到了真实前瞻性药物项目中,它还能可靠吗?
这篇文章系统比较了基于物理的自由能计算方法和AI亲和力预测方法。结果非常直接:
在公开数据集上,AI可以很亮眼。但在真实de novo分子项目中,物理自由能计算仍然更可靠。
尤其是文章中对 AnewFEP 和 Boltz-2 的对比,非常值得做AIDD、CADD、FEP和AI药物设计的人认真看一看。
研究背景:AI很快,但药物活性预测不能只看“快”
蛋白–配体结合亲和力预测,一直是计算药物研发中的核心问题。
简单来说,就是我们希望在真正合成分子之前,提前预测:
这个分子到底能不能结合靶点?
结合得强不强?
相比另一个分子,它是否更值得推进?
过去,这类问题主要依赖分子对接、分子动力学、MM/GBSA和FEP等方法。其中,FEP,尤其是RBFE,长期被认为是lead optimization阶段比较可靠的物理计算工具。
但这几年,AI模型发展太快了。
从蛋白结构预测,到蛋白–配体复合物预测,再到结合亲和力预测,AI模型不断在公开benchmark上刷新结果。于是,一个很自然的问题出现了:
如果AI已经能预测结合模式和亲和力,那我们还需要昂贵、耗时的FEP吗?
这篇文章的核心,就是回答这个问题。
作者并没有简单地说“AI不行”或者“FEP一定更好”,而是做了更贴近真实药物研发的问题拆解:
公开benchmark上的好成绩,能不能代表真实项目中的预测能力?
研究结果
1. 研究团队提出了一个新的FEP工作流:AnewFEP
文章首先提出了一个新的自由能计算流程,叫 AnewFEP。
它不是简单把GROMACS拿来跑FEP,而是做了完整的工程化升级,包括:
小分子力场 AnewFF REST2增强采样 自动化原子映射 扰动图构建 λ窗口设计 模拟质量控制 自由能后处理 AI Agent辅助任务提交与结果分析
也就是说,AnewFEP更像是一个面向真实药物项目的自动化FEP平台。
更有意思的是,文章还提到用户可以通过AI Agent和AnewFEP交互。也就是说,未来的FEP可能不是“人工手动调参跑任务”,而是变成:
AI负责自动化和效率,物理模型负责可靠性和决策。
这其实是一个很重要的趋势。
2. 公开Benchmark上,AnewFEP已经接近FEP+水平
文章使用了一个包含 1144个配体 的公开benchmark进行系统比较。
这些数据覆盖了多个典型药物研发场景,包括:
R-group替换 电荷变化 core-hopping macrocycles BACE1 GPCR Merck benchmark OPLS stress-test
结果显示,AnewFEP的整体 pairwise ΔΔG RMSE 为:
1.44 kcal/mol
而经典的 Schrödinger FEP+ 为:
1.25 kcal/mol
这个差距已经比较接近。
它用热图的形式比较了不同物理FEP方法和AI方法在多个benchmark上的表现。
从图中可以看到,FEP+和AnewFEP整体表现更稳定,尤其是在多个复杂体系中仍然能维持较低误差。
这说明一件事:
想要做好FEP,不只是“会跑分子动力学”这么简单。
真正影响结果的,是力场、采样、λ路径、数值稳定性和体系构象控制的综合能力。
3. FEP为什么会出错?文章拆出了几个非常真实的原因
这篇文章最有价值的地方,不只是报告了一个RMSE,而是深入分析了FEP为什么会预测错。
因为在真实项目里,我们最怕的不是模型误差,而是:
模型错了,但我们不知道它为什么错。
作者通过几个案例说明,FEP误差可能来自多个层面。
3.1 一个SO₂氧原子的范德华半径,就可能造成几 kcal/mol 的误差
第一个案例是 HIF-2α。
研究发现,原始力场中 SO₂ 氧原子的范德华半径偏小,导致配体在蛋白口袋中出现不真实的过度稳定。
结果是什么?
预测出来的ΔΔG和实验值相差超过 3 kcal/mol。
这在药物研发中已经是非常大的误差。
通过调整SO₂氧原子的 Lennard–Jones σ 参数,HIF-2α体系的RMSE可以从约 2.1 kcal/mol 降低到约 1.5 kcal/mol。

这部分非常适合强调一句话:
FEP不是魔法。一个局部力场参数不合理,就可能让整个预测结果跑偏。
3.2 一个二面角参数不合理,也会让FEP产生假阳性
第二个案例是 BACE1 cr2 stress-test。
在这个体系中,两个配体只是芳香环上发生了一个很小的 C→N 替换。
从化学直觉看,这种变化不应该导致巨大的构象能量差异。
但原始力场给出的扭转势能曲线并不合理,导致模型预测出明显错误的ΔΔG。

这说明:
FEP的误差不一定来自采样不够,也可能来自力场中某个局部能量项的系统性偏差。
这对做FEP项目的人非常重要。
因为很多时候,我们看到FEP结果不准,第一反应是“是不是模拟时间不够”。
但这篇文章提醒我们:
有时候不是跑得不够久,而是能量函数本身就错了。
3.3 蛋白口袋构象漂移,也会显著影响预测准确性
第三个案例是 FXa set 6。
原始模拟中,蛋白结合口袋的局部构象发生漂移,导致关键相互作用丢失。
加入蛋白骨架二面角约束后,RMSE从:
2.41 kcal/mol
降低到:
1.57 kcal/mol

这个结果非常真实。
在实际项目中,很多FEP失败并不是因为配体本身,而是蛋白口袋在模拟中发生了不合理的局部变化。
所以,FEP不是“输入结构进去,结果自然出来”。
它需要判断:
蛋白构象是否合理? 关键相互作用是否保持? 口袋是否发生了非生理性的漂移? 模拟中的构象是否代表真实结合状态?
这些问题,都会直接决定FEP能不能用于项目决策。
3.4 λ路径设计不好,会让同一个分子的rotamer也算出巨大差异
第四个案例是 JNK1 的芳香环翻转。
理论上,两个rotamer只是甲氧基方向不同,它们之间的ΔΔG应该接近0。
但在原始λ路径下,模型竟然算出了:
4.1 kcal/mol
这显然不是物理真实差异,而是采样路径设计造成的假误差。
作者通过重新设计非键相互作用的λ schedule,把多个 A→A_flip 扰动的平均绝对ΔΔG从:
2.27 kcal/mol
降低到:
0.49 kcal/mol

这部分非常适合总结成一句话:
FEP的准确性,不只取决于力场,还取决于你怎么“变”这个分子。
也就是说,alchemical pathway本身就是决定FEP可靠性的关键因素。
4. 最关键结果:真实前瞻性项目中,Boltz-2排序能力明显下降
接下来是整篇文章最有冲击力的部分。
研究团队把AnewFEP和Boltz-2放到了内部真实前瞻性项目中比较。
这些分子不是公开benchmark里的常规分子,而是内部生成的 de novo molecules。
这类场景更接近真实药物研发:
新骨架 新化学空间 新结合模式 训练集中可能没有类似分子
结果非常直接。
Boltz-2在这个场景下几乎没有有效排序能力,预测值和实验结果的相关性接近于零。
而AnewFEP仍然可以区分弱结合分子和强结合分子,保留了一定的单调相关性。

左边是AnewFEP,右边是Boltz-2。
AnewFEP还能看到预测值和实验值之间的趋势;Boltz-2则几乎无法形成有效排序。
这个结果说明了一个非常现实的问题:
AI模型在公开数据集上表现好,不代表它在真实药物项目中一定可靠。
尤其是在分布外化学空间里,AI模型可能会出现明显性能下降。
5. 所以,AI到底能不能取代FEP?
这篇文章给出的答案其实很清楚:
现在还不能。
但更准确地说,不是AI不重要,而是AI和FEP应该承担不同角色。
AI适合做什么?
快速结构预测 大规模虚拟筛选 分子生成 初步排序 快速排除明显不合理分子
FEP适合做什么?
lead optimization阶段的精细排序 关键候选分子的推进决策 同系列分子的活性差异判断 复杂构象和电荷变化体系的定量评估 真实项目前瞻性验证
所以更合理的药物研发计算流程,不是:
AI替代FEP
而是:
AI提高探索效率,FEP提高决策可靠性。
这才是目前更现实的AIDD工作模式。
三、研究结论
这篇研究给出了一个非常务实的判断:AI正在快速改变药物设计,但在真实前瞻性药物研发中,基于物理的自由能计算仍然不可替代。AnewFEP通过优化小分子力场、增强采样、改进λ路径和提升数值稳定性,在包含1144个配体的公开benchmark上取得了接近FEP+的表现;更重要的是,在内部de novo分子项目中,AnewFEP仍能区分强弱结合分子,而Boltz-2的排序能力明显下降。 因此,未来最值得期待的方向并不是“AI消灭FEP”,而是“AI + FEP”协同:AI负责快速生成和初筛,FEP负责物理验证和关键决策。对于真正的药物研发项目来说,速度很重要,但可靠性更重要。
写在最后
AI药物设计正在进入一个新的阶段。
过去我们关心的是:
AI能不能预测?
现在更关键的问题是:
AI在真实项目里能不能稳定预测?
公开benchmark上的高分,当然值得关注。
但真正决定项目成败的,往往是那些没有出现在训练集里的新分子、新骨架和新结合模式。
这也是为什么,在今天的AIDD流程中,FEP依然很重要。
因为药物研发不是刷榜。
药物研发最终要回答的是:
这个分子,值不值得合成? 这个方向,值不值得继续投资源? 这个候选物,能不能进入下一轮优化?
在这些关键节点上,AI可以帮我们更快看到更多可能性。
但FEP,仍然是帮助我们做出更稳决策的重要工具。
Chemrxiv: https://chemrxiv.org/doi/full/10.26434/chemrxiv.15002526/
计算模拟和科研需求可联系我们


夜雨聆风