你以为的AI制药 vs 实际上的AI制药

提到AI制药，很多临床医生的第一反应是：

不就是用电脑编程序吗？能真的做出药来？

都是炒作吧，离临床应用还早得很。

就算能做药，也代替不了科学家做实验。

这些质疑并非没有来由。南京邮电大学计算机学院吴建盛教授在本期「中大妇科讲坛」中坦言：“以前很多实验科学家其实是不太信任这个人工智能方向计算的方法。”这种不信任，源于早期AI预测与实验验证之间的落差。

但情况正在发生变化。2021年，Alpha Fold2在蛋白质结构预测比赛中达到实验精度——这个事件，用吴教授的话说，“使很多实验科学家慢慢相信了，人工智能在科技领域是大有可为的”。2024年，这一工作获得诺贝尔化学奖。

“不就是用电脑编程序吗？能真的做出药来？”

——AI在药物发现中解决的，恰恰是“算不完”的问题

药物发现的起点，是从海量分子中找出可能与靶蛋白结合的候选分子。这个“海量”有多大？吴教授提供了一组数据：仅30个原子以内的可成药分子，理论数量就达10²⁶方种。而一款新药从立项到上市，平均耗时约10年、成本超10亿美元，其中“药物发现”阶段就占3-6年，成功率仅0.05%-0.1%。

传统的高通量湿实验筛选，需要在实验室中逐一测试分子与靶蛋白的结合。这种方法覆盖的分子空间有限，成本高、周期长。AI虚拟筛选的思路是：先在计算机中模拟分子与靶蛋白的结合过程，从百亿甚至千亿分子中快速筛选出最可能有效的那一小批，再交给实验室验证。

吴教授团队目前已经构建了一个千亿分子库——iDELTA，包含超过1000亿个具有良好类药性和可合成性的分子，是目前世界公开最大的药物分子库。配合团队自研的GPU加速方法，虚拟筛选速度可提升约120倍，命中率提升1.5-3倍。团队利用空闲CPU完成11个病理靶标的大规模筛选，单次千亿筛选计算资源<10wCPU时，人力投入<1小时。

这回答了一个核心问题：AI不是在“替代”实验，而是在“为实验导航”——把大海捞针变成先算后验。

“都是炒作吧，离临床应用还早得很。”

——AI虚拟筛选已进入“工业级实战”阶段

但“算得快”不代表“算得准”。如果说“千亿分子库”和“120倍加速”还只是工程能力的展示，那么接下来的问题是：筛出来的结果到底靠不靠谱？

围绕这个问题，吴教授团队在多个技术维度上展开了攻关。这些技术名词听起来陌生，但它们本质上都在回答同一个核心问题：AI筛出来的分子，拿去实验验证，能准吗？

第一个问题：两个分子结构几乎一样，但活性天差地别——AI能分得清吗？

这种现象在药物化学中并不罕见，被称为“活性悬崖”。它直接违背了AI模型“相似分子活性相近”的基本假设，是影响虚拟筛选命中率的核心难题。针对这一问题，团队提出了一种新的注意力图重建神经网络和配体优化方案，通过从其生物活性预测过程中得到的对抗性表征来优化配体分子，使模型能够克服活性悬崖的影响。

第二个问题：新靶点往往已知的活性分子很少，AI没东西可学怎么办？

对于全新的药物靶点，可供训练的实验数据往往非常有限，这被称为“小样本”问题。吴教授团队先后探索了两条路径：一是利用同源靶点的丰富数据，通过多任务联合特征学习帮助小样本靶点提升模型性能；二是同时优化分类、回归和域适应三个损失函数，利用图注意力网络与域适应模块结合的方法，提升模型在候选苗头化合物上的准确率和可解释性。

第三个问题：AI在训练数据上表现不错，一拿到真实分子库里就“水土不服”怎么办？

在真实的药物虚拟筛选中，训练样本的分布往往是有偏的，模型容易过拟合。针对这一问题，团队提出了一种通用的解决方案——对抗特征子空间增强（AFSE），可以普遍提高深度图学习的筛选性能。

解决了这些问题后，AI虚拟筛选的实际产出如何？吴教授给出了几项实战证据：

1. 11个病理靶标的规模化筛选已完成：团队利用空闲CPU完成了11个病理靶标的大规模筛选。

2. 2个潜在新抑制剂已发现：与南京医科大学合作，在炎症方向发现2个潜在新抑制剂。

3. 极难靶点上的竞赛成绩：在2023上海国际计算生物学创新大赛中，针对NMDA离子通道，团队纯靠计算方法取得总分第3、纯计算第1的成绩，找到了新的候选药物分子。

4. 开源软件获业界采用：团队开发的分子对接加速软件Vina-GPU在GitHub上超过300星，被深势科技（其Uni-Dock基于该算法）、微软Azure等商业平台采用。

这些事实指向同一个结论：AI虚拟筛选已经不是在“跑分发论文”的阶段，它正在真实靶点上产出可验证的结果，并开始被工业界采纳。

“就算能做药，也代替不了科学家做实验。”

——AI的角色是“加速发现”，不是“替代实验”

这个质疑说对了一半：AI确实不能代替实验。但吴教授展示的技术框架表明，AI和实验不是替代关系，而是闭环迭代关系。

团队引入了一种基于生物活性反馈的主动学习（ALBF）框架：AI先对海量分子进行虚拟筛选和打分排序，挑选少量代表性分子交给实验室验证，实验得到的生物活性数据再反馈给AI模型，修正模型的预测能力，进入下一轮筛选。如此循环，可以在大幅减少实验次数的情况下提升命中率。

在分子互作层面，团队进一步构建了分子相互作用预训练大模型BIT。该模型整合分子、蛋白口袋、复合物的2D和3D信息进行预训练，在标准数据集DUD-E上取得了显著优于传统对接方法的筛选性能。这一方向的目标，是让AI的预测越来越接近实验验证的真实结果。

AI做的事，是把最不可能有效的那99.99%先排除掉，让宝贵的实验资源集中在最有希望的那一小部分上。

正是在这样的技术框架下，吴教授团队已开始将AI虚拟筛选推向实际应用。目前，团队已与协和医院、中国药科大学、浙江大学、北大人民医院等机构合作，围绕癌症、炎症、骨组织等疾病开展靶标筛选。虽然目前公开的妇科肿瘤专属成果尚在推进中，但技术平台和筛选流程已经跑通，多项合作正在进行。

更值得关注的是，目前约80%的疾病相关靶标尚无药物开发成功。其中相当一部分靶点，传统药物研发手段难以攻克。如果AI虚拟筛选能系统性地打开这些“难成药靶点”的空间，那么妇科肿瘤中那些临床已知重要但“无药可用”的靶点，将迎来全新的研发可能。

吴建盛教授

南京邮电大学计算机学院教授、博士

南京大学计算机系LAMDA研究所博士后

美国亚利桑那州立大学/密歇根大学访问学者

阿里达摩院/阿里云智能集团访问学者

长期从事人工智能及AI药物设计科研工作。中国人工智能学会机器学习专委会委员、中国计算机学会人工智能与模式识别专委会委员、中国计算机学会生物信息学专委会委员。主持国家级和省部级项目20余项。在BIB、Bioinformatics、TCBB、JCTC、JCIM、TIP、中国科学等期刊和会议上发表论文50余篇，获得授权发明专利20余件。与阿里达摩院/阿里云智能集团建立了长期合作，进行AI4drug方面的研究。近年来，依靠阿里云平台来设计AIDD/CADD方法从自研超1000亿分子库中找新药，进行合作落地研究。与协和医学院、北京大学医学院、浙江大学和明基医院等合作进行新药发现。研究成果得到了多家著名公司（微软亚洲研究院、阿里和北京深势科技等）的成功应用。