
提到AI制药,很多临床医生的第一反应是:
不就是用电脑编程序吗?能真的做出药来?
都是炒作吧,离临床应用还早得很。
就算能做药,也代替不了科学家做实验。

这些质疑并非没有来由。南京邮电大学计算机学院吴建盛教授在本期「中大妇科讲坛」中坦言:“以前很多实验科学家其实是不太信任这个人工智能方向计算的方法。”这种不信任,源于早期AI预测与实验验证之间的落差。
但情况正在发生变化。2021年,Alpha Fold2在蛋白质结构预测比赛中达到实验精度——这个事件,用吴教授的话说,“使很多实验科学家慢慢相信了,人工智能在科技领域是大有可为的”。2024年,这一工作获得诺贝尔化学奖。
“不就是用电脑编程序吗?能真的做出药来?”
——AI在药物发现中解决的,恰恰是“算不完”的问题
药物发现的起点,是从海量分子中找出可能与靶蛋白结合的候选分子。这个“海量”有多大?吴教授提供了一组数据:仅30个原子以内的可成药分子,理论数量就达10²⁶方种。而一款新药从立项到上市,平均耗时约10年、成本超10亿美元,其中“药物发现”阶段就占3-6年,成功率仅0.05%-0.1%。
传统的高通量湿实验筛选,需要在实验室中逐一测试分子与靶蛋白的结合。这种方法覆盖的分子空间有限,成本高、周期长。AI虚拟筛选的思路是:先在计算机中模拟分子与靶蛋白的结合过程,从百亿甚至千亿分子中快速筛选出最可能有效的那一小批,再交给实验室验证。
吴教授团队目前已经构建了一个千亿分子库——iDELTA,包含超过1000亿个具有良好类药性和可合成性的分子,是目前世界公开最大的药物分子库。配合团队自研的GPU加速方法,虚拟筛选速度可提升约120倍,命中率提升1.5-3倍。团队利用空闲CPU完成11个病理靶标的大规模筛选,单次千亿筛选计算资源<10wCPU时,人力投入<1小时。
这回答了一个核心问题:AI不是在“替代”实验,而是在“为实验导航”——把大海捞针变成先算后验。
“都是炒作吧,离临床应用还早得很。”
——AI虚拟筛选已进入“工业级实战”阶段
但“算得快”不代表“算得准”。如果说“千亿分子库”和“120倍加速”还只是工程能力的展示,那么接下来的问题是:筛出来的结果到底靠不靠谱?
围绕这个问题,吴教授团队在多个技术维度上展开了攻关。这些技术名词听起来陌生,但它们本质上都在回答同一个核心问题:AI筛出来的分子,拿去实验验证,能准吗?
第一个问题:两个分子结构几乎一样,但活性天差地别——AI能分得清吗?
这种现象在药物化学中并不罕见,被称为“活性悬崖”。它直接违背了AI模型“相似分子活性相近”的基本假设,是影响虚拟筛选命中率的核心难题。针对这一问题,团队提出了一种新的注意力图重建神经网络和配体优化方案,通过从其生物活性预测过程中得到的对抗性表征来优化配体分子,使模型能够克服活性悬崖的影响。
第二个问题:新靶点往往已知的活性分子很少,AI没东西可学怎么办?
对于全新的药物靶点,可供训练的实验数据往往非常有限,这被称为“小样本”问题。吴教授团队先后探索了两条路径:一是利用同源靶点的丰富数据,通过多任务联合特征学习帮助小样本靶点提升模型性能;二是同时优化分类、回归和域适应三个损失函数,利用图注意力网络与域适应模块结合的方法,提升模型在候选苗头化合物上的准确率和可解释性。
第三个问题:AI在训练数据上表现不错,一拿到真实分子库里就“水土不服”怎么办?
在真实的药物虚拟筛选中,训练样本的分布往往是有偏的,模型容易过拟合。针对这一问题,团队提出了一种通用的解决方案——对抗特征子空间增强(AFSE),可以普遍提高深度图学习的筛选性能。
解决了这些问题后,AI虚拟筛选的实际产出如何?吴教授给出了几项实战证据:
1. 11个病理靶标的规模化筛选已完成:团队利用空闲CPU完成了11个病理靶标的大规模筛选。
2. 2个潜在新抑制剂已发现:与南京医科大学合作,在炎症方向发现2个潜在新抑制剂。
3. 极难靶点上的竞赛成绩:在2023上海国际计算生物学创新大赛中,针对NMDA离子通道,团队纯靠计算方法取得总分第3、纯计算第1的成绩,找到了新的候选药物分子。
4. 开源软件获业界采用:团队开发的分子对接加速软件Vina-GPU在GitHub上超过300星,被深势科技(其Uni-Dock基于该算法)、微软Azure等商业平台采用。
这些事实指向同一个结论:AI虚拟筛选已经不是在“跑分发论文”的阶段,它正在真实靶点上产出可验证的结果,并开始被工业界采纳。
“就算能做药,也代替不了科学家做实验。”
——AI的角色是“加速发现”,不是“替代实验”
这个质疑说对了一半:AI确实不能代替实验。但吴教授展示的技术框架表明,AI和实验不是替代关系,而是闭环迭代关系。
团队引入了一种基于生物活性反馈的主动学习(ALBF)框架:AI先对海量分子进行虚拟筛选和打分排序,挑选少量代表性分子交给实验室验证,实验得到的生物活性数据再反馈给AI模型,修正模型的预测能力,进入下一轮筛选。如此循环,可以在大幅减少实验次数的情况下提升命中率。
在分子互作层面,团队进一步构建了分子相互作用预训练大模型BIT。该模型整合分子、蛋白口袋、复合物的2D和3D信息进行预训练,在标准数据集DUD-E上取得了显著优于传统对接方法的筛选性能。这一方向的目标,是让AI的预测越来越接近实验验证的真实结果。
AI做的事,是把最不可能有效的那99.99%先排除掉,让宝贵的实验资源集中在最有希望的那一小部分上。
正是在这样的技术框架下,吴教授团队已开始将AI虚拟筛选推向实际应用。目前,团队已与协和医院、中国药科大学、浙江大学、北大人民医院等机构合作,围绕癌症、炎症、骨组织等疾病开展靶标筛选。虽然目前公开的妇科肿瘤专属成果尚在推进中,但技术平台和筛选流程已经跑通,多项合作正在进行。
更值得关注的是,目前约80%的疾病相关靶标尚无药物开发成功。其中相当一部分靶点,传统药物研发手段难以攻克。如果AI虚拟筛选能系统性地打开这些“难成药靶点”的空间,那么妇科肿瘤中那些临床已知重要但“无药可用”的靶点,将迎来全新的研发可能。

吴建盛 教授
南京邮电大学计算机学院教授、博士
南京大学计算机系LAMDA研究所博士后
美国亚利桑那州立大学/密歇根大学访问学者
阿里达摩院/阿里云智能集团访问学者
长期从事人工智能及AI药物设计科研工作。中国人工智能学会机器学习专委会委员、中国计算机学会人工智能与模式识别专委会委员、中国计算机学会生物信息学专委会委员。主持国家级和省部级项目20余项。在BIB、Bioinformatics、TCBB、JCTC、JCIM、TIP、中国科学等期刊和会议上发表论文50余篇,获得授权发明专利20余件。与阿里达摩院/阿里云智能集团建立了长期合作,进行AI4drug方面的研究。近年来,依靠阿里云平台来设计AIDD/CADD方法从自研超1000亿分子库中找新药,进行合作落地研究。与协和医学院、北京大学医学院、浙江大学和明基医院等合作进行新药发现。研究成果得到了多家著名公司(微软亚洲研究院、阿里和北京深势科技等)的成功应用。

扫描二维码探索本期全部内容~


投稿邮箱:connieyao2017@163.com


商务联系人:姚女士 18601200772

专栏设计 / 智趣e疗
综合运维主管 / 小耳环
本期推文排版 / 小耳环

夜雨聆风