乐于分享
好东西不私藏

数据科学:AI 真的 “攻克” 药物研发了吗?

数据科学:AI 真的 “攻克” 药物研发了吗?

先给答案:并没有,至少目前还没有。但人工智能正以超乎想象的方式,彻底革新药物研发领域。本文将带你看清 AI 的真实位置,以及我们该如何兑现它在新药研发中的全部潜力。

过去十年,尤其是近两年,人工智能与机器学习在生物医学、特别是药物研发中的价值,已得到广泛认可。

但看一些媒体标题,路人很容易误以为:药物研发科学家现在只需坐等 AI 模型 “吐出” 万能解药。这当然是无稽之谈。

数据科学与机器学习离不开两大核心:高质量、标注充分的大规模数据集,以及人类设计的训练框架。药物研发(含分子设计)恰好具备扎实的数据与机器学习基础,本应是 AI 的最大受益领域。可我们正面临一个关键瓶颈:仅靠更聪明的算法,无法突破当前的效益天花板

AI 与蛋白质折叠难题:诺奖加身,却未 “彻底破解”

蛋白质的三维结构,对理解正常生理功能、致病机制,以及开展理性药物设计都至关重要。但结构生物学研究复杂、昂贵、技术门槛极高,因此蛋白质结构预测成为药物研发的核心刚需。

1968 年,美国分子生物学家赛勒斯・莱文索尔提出:蛋白质的 3D 结构与折叠路径,必然编码在氨基酸序列中。如果靠随机采样找到生理稳定的构象,耗时会超过宇宙年龄;可真实蛋白质却能在毫秒级完成折叠。这就是著名的莱文索尔悖论,解开蛋白质折叠规则,对生物学与药物研发意义深远。

数据科学与 AI 在这里确实取得了里程碑式突破:2024 年诺贝尔化学奖授予 AlphaFold 团队,以及 David Baker 团队(开发蛋白质结构预测工具 Rosetta),表彰他们用计算方法解析了大量此前无解的蛋白质结构。两年过去,学界依旧为之振奋。

但 AlphaFold 真的解决了蛋白质折叠问题吗?

很遗憾,并没有。据我所知,这些创新团队也从未如此宣称。过度兴奋的媒体报道,造成了普遍误解。

AlphaFold 的真正成就,并非精准预测所有蛋白质的所有区域。举个关键例子:c-Myc 原癌基因(被称为癌症的 “总调控师”),AlphaFold 3 服务器至今无法预测其结构。AlphaFold 迄今的核心价值,是帮我们找到与已知结构相似的未知结构—— 这是此前技术完全做不到的。

我们实验室的分析显示:公开可用的 AlphaFold 2 模型,让药物研发领域的可成药蛋白数量直接翻倍

大数据:AI 能起效的真正底气

深度、高质量、标注完善的数据积累,叠加数十年对数据规律的计算研究,才让药物研发成为 AI 革命的核心受益领域。

而 AI 能成功的关键前提是:它的效用完全来自真实实验的发现。AlphaFold 之所以能诞生,正是因为 1971 年布鲁克海文实验室建立了蛋白质数据库(PDB),用于标准化收录所有蛋白质 3D 结构。彼时库中仅有 7 个结构,如今已接近 25 万个结构,覆盖超 75 万种不同蛋白构象。正是这个规范数据库,让一代代计算科学家能系统分析规律,也成为 AI 训练的 “黄金土壤”。

下一步,我们必须补齐这两件事

1. 缺的不是算法,是实验数据

AI 无法预测 c-Myc 这类蛋白结构,根源是我们缺少 AI 学习所需的关键实验数据

据估算,全球药物研发迄今只针对人类蛋白质组的 1/4测试过化合物。这意味着,AI 很难找到针对剩余 3/4 靶点所需的全新化学分子。

AI 的 “创造”,本质是对现有数据的插值与边界内推演,没有数据 “垫脚石”,它无法闯入完全未知的领域。就像指望生成式 AI 只用地球照片,画出开普勒 – 62e 行星上的真实生命一样不现实。我们必须大规模投入关键实验数据的生成

2. 给 AI 划定能力边界,拒绝过度炒作

我们必须为每一种算法明确定义能力边界与适用场景。过度吹捧只会透支信任。未来的投资与 AI 应用,必须遵循科学实证,而非教条与噱头。

AI 没有 “封神” 药物研发,却正在重塑它的底层逻辑。它不是万能解药,却是迄今为止最强的研发放大器。而真正决定 AI 上限的,从来不是算法有多炫,而是数据有多实、应用有多克制

理性用好 AI,才能真正把它的潜力,变成惠及患者的新药。

参考资料:https://news.cancerresearchuk.org/2026/04/21/data-science-has-ai-solved-drug-discovery/