数据科学:AI 真的 “攻克” 药物研发了吗?-夜雨聆风

数据科学:AI 真的 “攻克” 药物研发了吗?

先给答案：并没有，至少目前还没有。但人工智能正以超乎想象的方式，彻底革新药物研发领域。本文将带你看清 AI 的真实位置，以及我们该如何兑现它在新药研发中的全部潜力。

过去十年，尤其是近两年，人工智能与机器学习在生物医学、特别是药物研发中的价值，已得到广泛认可。

但看一些媒体标题，路人很容易误以为：药物研发科学家现在只需坐等 AI 模型 “吐出” 万能解药。这当然是无稽之谈。

数据科学与机器学习离不开两大核心：高质量、标注充分的大规模数据集，以及人类设计的训练框架。药物研发（含分子设计）恰好具备扎实的数据与机器学习基础，本应是 AI 的最大受益领域。可我们正面临一个关键瓶颈：仅靠更聪明的算法，无法突破当前的效益天花板。

AI 与蛋白质折叠难题：诺奖加身，却未 “彻底破解”

蛋白质的三维结构，对理解正常生理功能、致病机制，以及开展理性药物设计都至关重要。但结构生物学研究复杂、昂贵、技术门槛极高，因此蛋白质结构预测成为药物研发的核心刚需。

1968 年，美国分子生物学家赛勒斯・莱文索尔提出：蛋白质的 3D 结构与折叠路径，必然编码在氨基酸序列中。如果靠随机采样找到生理稳定的构象，耗时会超过宇宙年龄；可真实蛋白质却能在毫秒级完成折叠。这就是著名的莱文索尔悖论，解开蛋白质折叠规则，对生物学与药物研发意义深远。

数据科学与 AI 在这里确实取得了里程碑式突破：2024 年诺贝尔化学奖授予 AlphaFold 团队，以及 David Baker 团队（开发蛋白质结构预测工具 Rosetta），表彰他们用计算方法解析了大量此前无解的蛋白质结构。两年过去，学界依旧为之振奋。

但 AlphaFold 真的解决了蛋白质折叠问题吗？

很遗憾，并没有。据我所知，这些创新团队也从未如此宣称。过度兴奋的媒体报道，造成了普遍误解。

AlphaFold 的真正成就，并非精准预测所有蛋白质的所有区域。举个关键例子：c-Myc 原癌基因（被称为癌症的 “总调控师”），AlphaFold 3 服务器至今无法预测其结构。AlphaFold 迄今的核心价值，是帮我们找到与已知结构相似的未知结构—— 这是此前技术完全做不到的。

我们实验室的分析显示：公开可用的 AlphaFold 2 模型，让药物研发领域的可成药蛋白数量直接翻倍。

大数据：AI 能起效的真正底气

深度、高质量、标注完善的数据积累，叠加数十年对数据规律的计算研究，才让药物研发成为 AI 革命的核心受益领域。

而 AI 能成功的关键前提是：它的效用完全来自真实实验的发现。AlphaFold 之所以能诞生，正是因为 1971 年布鲁克海文实验室建立了蛋白质数据库（PDB），用于标准化收录所有蛋白质 3D 结构。彼时库中仅有 7 个结构，如今已接近 25 万个结构，覆盖超 75 万种不同蛋白构象。正是这个规范数据库，让一代代计算科学家能系统分析规律，也成为 AI 训练的 “黄金土壤”。

下一步，我们必须补齐这两件事

1. 缺的不是算法，是实验数据

AI 无法预测 c-Myc 这类蛋白结构，根源是我们缺少 AI 学习所需的关键实验数据。

据估算，全球药物研发迄今只针对人类蛋白质组的 1/4测试过化合物。这意味着，AI 很难找到针对剩余 3/4 靶点所需的全新化学分子。

AI 的 “创造”，本质是对现有数据的插值与边界内推演，没有数据 “垫脚石”，它无法闯入完全未知的领域。就像指望生成式 AI 只用地球照片，画出开普勒 – 62e 行星上的真实生命一样不现实。我们必须大规模投入关键实验数据的生成。

2. 给 AI 划定能力边界，拒绝过度炒作

我们必须为每一种算法明确定义能力边界与适用场景。过度吹捧只会透支信任。未来的投资与 AI 应用，必须遵循科学实证，而非教条与噱头。

AI 没有 “封神” 药物研发，却正在重塑它的底层逻辑。它不是万能解药，却是迄今为止最强的研发放大器。而真正决定 AI 上限的，从来不是算法有多炫，而是数据有多实、应用有多克制。

理性用好 AI，才能真正把它的潜力，变成惠及患者的新药。

参考资料：https://news.cancerresearchuk.org/2026/04/21/data-science-has-ai-solved-drug-discovery/