AI 药物研发离不开可靠的生物学数据

要真正释放 AI 在生命科学与药物发现中的潜力,生物学数据集必须经过认证与验证,并配套标准化元数据支持。
每年,全球都有数十亿美元被投入到 AI 在生命科学和药物发现中的应用。
尽管 AI 被认为有望显著加速药物发现,但目前,我们还没有看到有大量明确由 AI 推动的新药和疗法成功上市。
造成这一现象的根本原因,说到底还是数据问题。
首先,那些最有可能改变生命科学研究的模型,例如虚拟细胞模型,本质上都依赖生物学数据进行训练。
但与 ChatGPT、Claude 等通用大语言模型所使用的海量训练数据相比,目前可用于训练生物学 AI 模型的数据规模仍然非常有限。
更重要的是,研究人员并不完全信任数据库和已发表文献中的数据。
近四分之三的生物医学研究人员认为,当前生物医学领域正面临一场可重复性危机。美国国立卫生研究院(NIH)也已经注意到这一问题,并启动相关计划,将重复验证和可重复性提升为“金标准”的基础。
这也带来一个关键问题:
当领域专家都不信任训练数据时,AI 又如何真正解决药物发现中的问题?
解决方案并不是放慢模型开发速度,也不是把关注点重新完全拉回湿实验室。
相反,AI 的出现为我们提供了一个机会:利用 AI 来规划和生成更高质量的数据集,让这些数据既能服务于模型训练,也能服务于科学研究。
换句话说,AI 的兴起,可能正是我们修复生物学可重复性问题、改善数据实践、构建高质量模型的最大机会。
1
蛋白质数据银行(PDB):固本拓新
以 AlphaFold 为代表的蛋白质结构预测模型,之所以能够在生物学数据问题仍然存在的情况下取得成功,关键在于它们所依赖的数据类型。
蛋白质数据银行(PDB)不仅组织高度规范,其中的数据也具有很高的可靠性。
但大多数其他类型的生物学训练数据,尤其是组学数据,并不具备这样的条件。
如果没有完全一致的物理起始材料、设备和实验方法,这些数据往往很难被重复验证。即使未来通过新标准解决了这些问题,按照目前的数据积累速度,要建立起质量接近 PDB 的新型数据库,可能也需要数十年时间。

AI 模型的可靠性取决于其训练所使用的生物学数据。因此,经过认证、标准化的数据集,是 AI 驱动科学发现的基础 —— ATCC
“金标准”要求采用经过严格鉴定与质量验证的生物材料。
而 AI 模型通常受益于数据聚合。也就是说,围绕同一种生物材料产生的多个数据集,应该能够被整合在一起,用于模型训练。
但问题在于,细胞系、微生物菌株和类器官并不是简单的数字对象。
它们都是物理存在的、有生命的生物材料。
在实际研究中,生物材料并不一定如标签所示。以细胞系为例,其基因组往往并不稳定,传代培养也可能导致突变和基因组重排。
当研究人员试图使用自己手中的“同一细胞系”来重复他人研究时,他们可能并没有意识到,数据库中的数字序列信息,已经可能与实际被测试的细胞系产生显著差异。
物理生物样本存在差异,这会带来实际成本。
以 HeLa 细胞污染常用研究细胞系 HEp-2 和 INT 407 为例。2021 年的一项分析发现,仅这两个错误鉴定的细胞系,就出现在近 10,000 篇已发表论文中。
如果按每篇论文平均被引用 5 次来粗略估算,那么基于这两个未经认证的细胞系开展的研究,可能已经消耗了超过 49 亿美元的科研经费。
如果按更宽松的估算,这一成本甚至可能高达148亿美元。
而由此带来的研究进展延误,以及公众对科学信任的不断下降,还会让这种影响进一步加剧。
元数据也会进一步放大这一问题。
2021 年发表在《Clinical Infectious Diseases》上的一项分析发现,在公共序列数据库中,超过四分之一的食源性微生物样本缺失关键元数据属性。
如果没有标准化且完整的元数据,研究人员就无法可靠地比较不同研究之间的数据集,也无法评估实验方法,更无法确认两个实验是否真正测试了同一对象。
用这些数据训练得到的 AI 模型,可能会将研究人员原本试图解决的不一致问题一并学习,并在后续应用中不断放大和传播。
在药物开发中,这一点尤为重要。
如今,研发一款创新药的成本已超过 35 亿美元,这反映出过去五十年来制药研发效率的持续下降。
造成这一生产力差距的一个重要原因在于,许多研究建立在未经验证的生物学假设之上,从而导致整体效率低下。
2
解决问题,需要更强的数据基础设施
要应对数字生物学面临的这些挑战,首先需要搭建更加完善、可靠的数据基础设施。
在这样的基础设施中,数字数据需要建立在经过认证的生物材料基础上,并配有统一规范的元数据。同时,还要通过可以互相兼容的管理体系来进行管理,确保从研究结果到数据来源都能够清晰追溯。
对于研究人员来说,这意味着他们使用的每一个数据集,都必须能够回答三个基本问题:
这些数据来自哪里?
这些数据是如何生成和验证的?
这些数据能否追溯到一个已知且经过认证的生物学来源?
这些要求不能只是简单地“打勾完成”。
它们应该成为判断数据是否可靠的基本前提。
那些负责开发和维护经过认证的生物学参考资源的机构,最清楚这一体系在实际中应该如何运作。
生物样本库和经过策划的资源库,构成了一个相互连接的生态系统。这个生态系统对于建立材料和数据共享的实用标准至关重要,也能让跨机构协作变得更加容易。
研究人员也应该要求生物样本库、资源库和服务提供商不断提升互操作性,并通过这种互操作性提供更高水平的可靠性。
3
AI 可以帮助我们解决数据问题
AI 模型和人类科学家使用的是不同的“语言”。
虽然数据生成是科学研究的核心,但在传统科研体系中,我们通常会把数据包装成可阅读的故事、图表和结论。
原始数据、用于生成数据的软件流程,以及复现实验所需的详细方法,往往被放在补充材料中,甚至根本没有被完整提供。
大型数据集可能会被上传至 GenBank 等公共数据库,但这些数据经常缺乏关键元数据,存在错误注释,也无法与其原始来源材料准确匹配。
也就是说,我们为科学家提供信息和数据所建立的基础设施,并不能真正满足 AI 模型的需求。
AI 模型真正需要的是经过良好整理、标注清晰,并且能够在不同研究之间保持一致的数据。
如果我们围绕经过认证的实体材料来建设体系,AI、自动化技术和富有创造力的科学家,就能够加速数据获取和模型训练。
设想一下,如果两家不同的合同研究组织(CRO)或云实验室,可以基于同一细胞系开展工作,而不需要在不同服务商之间运输细胞。
或者,研究人员可以下载一个针对特定微生物菌株的实验方案,并且第一次执行就能成功。
如果围绕某一常用细胞系已经发表了多个数据集,研究人员应该能够相信,这些数据集都共享同一个亲本基因组序列。
对于虚拟细胞模型等 AI 模型开发者而言,来源于同一物理材料的数据集,也应该更容易被聚合用于模型训练。
生物学极其复杂,但细胞与细胞之间的变异性,是一个可以被控制的变量。
如果能够验证生物学数据集的新规模律,就可能形成一个良性循环:标准被更多采用,模型性能也随之提升。
4
数据驱动的未来
生物学数据来之不易。
任何拿起过移液枪的人都能理解,设计、实施并验证一个生物学实验结果,需要付出多少努力。
在 21 世纪的大部分时间里,DNA 测序成本的下降速度甚至超过了摩尔定律。
但药物发现的成本,却在朝着相反方向发展。
如果我们能够让每一个数据集都真正发挥价值,也许就有机会扭转这一趋势。
生物学历史上的许多拐点,都来自新视角的涌入。
这些新视角不仅改变了科学实践本身,也改变了我们描述科学的语言。
如今,AI 正在进入生物学,并改变我们谈论和开展生物学研究的方式。
“非计算机背景”的生物学家,正在 AI 的辅助下学习编写代码,并开展复杂的生物信息学分析。
AI 专家也正在把他们在其他领域积累的经验,首次系统性地应用到生物学中。
在这一关键转折点,为生命科学提供了一个独特的机会:
提高数字数据和实体材料使用的规范性,从而推动科学研究更快发展。
我们现在为打通生物学数据中数字世界和现实世界之间差距所做的努力,都会在未来几十年持续带来回报。
理想情况下,数据质量的提升也会通过模型性能改善和学习速度加快,带来更直接的反馈。
下一代 AI 驱动的发现——从 CRISPR 应用,到虚拟细胞模型,再到罕见病个性化疗法——都需要值得信赖的数据集。
这些数据集的可靠性,应该像它们所依赖的实验数据一样扎实可靠。
文章来源
AI for Drug Discovery Needs Trustworthy Biological Data | The Scientist
珞米蛋白组方案合集
国际论文背书|2个月神速见刊:Proteonano 把血浆蛋白覆盖提升到 6000+
警惕,你漂亮的蛋白组学数据可能是污染!Mann神再出手,血浆蛋白组学终于迎来新标准?
AI for Science爆发,珞米要做人类蛋白组大数据供应商
哎呦不错,中国公司杀入全球高通量蛋白组第一梯队【珞米高通量蛋白组】


产品及服务咨询 请扫码联系或填写您的信息

关于Nanomics珞米科技


分享让更多人看看
夜雨聆风