
蛋白质折叠难题困了生物学家60年,AI用一招破了
1962年,肯德鲁和佩鲁茨凭借蛋白质结构研究拿到诺贝尔奖。那一刻,没人想到这个领域接下来会沉寂半个多世纪。直到AlphaFold出现,生物学家才意识到:他们一直在用错误的方式问问题。
有一个问题在生物学里悬了六十年,叫做「蛋白质折叠问题」。简单说:一条氨基酸链,会自动折叠成一个特定的三维形状,而这个形状决定了它的功能。问题是——你给我一串氨基酸序列,我能不能预测出它最终长什么样?
听起来像是一道计算题。但六十年来,全球顶尖生物学家、物理学家、化学家联手,基本上没解出来。原因很简单:一条普通蛋白质链有几百个氨基酸,每个氨基酸之间的旋转角度都有无数种可能,组合起来的构象空间大到无法穷举。有人算过,如果用暴力枚举的方式,宇宙年龄都不够用。
错误的问题框架
传统生物学家的思路是:找规律,建模型,用物理化学原理推导。这个思路本身没错,但它预设了一件事——蛋白质折叠是一个「可以被人类理解的机制」。换句话说,我们相信只要找到那个方程式,问题就解决了。
DeepMind做AlphaFold的时候,换了一个问题框架。他们不问「折叠的物理机制是什么」,而是问「如果给模型看足够多已知结构的蛋白质,它能不能学会预测新的?」这是一个根本性的思维转换:从解释规律到学习规律。
「
不是所有问题都需要被理解,有些问题只需要被解决。
」
2020年,AlphaFold2在CASP竞赛中的表现震惊了整个生物学界。它预测蛋白质结构的精度,达到了实验测定的水平。很多科学家的第一反应不是兴奋,而是困惑——这个东西,我们看不懂它是怎么做到的。
AlphaFold之后,真正的游戏才开始
2亿+
AlphaFold已预测的蛋白质结构数量,覆盖地球上几乎所有已知物种
解决了「读」的问题,下一步是「写」。AlphaProteo是DeepMind在2024年推出的新工具,它做的事情方向完全反过来:不是给你一个蛋白质序列预测结构,而是给你一个目标——比如某个病毒蛋白质的某个位点——然后设计出一个能精准结合它的新蛋白质。
这件事的难度,比折叠预测还要高一个数量级。折叠预测是「给定输入求输出」,蛋白质设计是「给定输出反推输入」,而且这个「输入」在自然界里从来没有存在过。AlphaProteo要在一个从未被进化探索过的空间里,找到一个有效的答案。
●从读懂自然语言到创造新语言——这是AlphaFold到AlphaProteo最本质的跨越,也是AI介入生物学最危险、最令人兴奋的边界。
一个被低估的历史类比
这让我想到另一个历史时刻。1953年,沃森和克里克解出DNA双螺旋结构。那一刻,所有人都觉得这是终点——我们读懂了生命的密码。但真正的革命是二十年后才来的:重组DNA技术出现,人类开始能够「编辑」遗传信息,而不只是「阅读」它。
AlphaFold和AlphaProteo的关系,几乎是同一个剧本的重演。读懂结构是第一章,设计结构是第二章。而第二章的影响,历史上每次都比第一章大十倍。
具体会带来什么?举几个不那么遥远的例子。抗体药物的研发,传统上需要在动物体内筛选,周期以年计,成本以亿计。AlphaProteo可以直接设计出针对特定靶点的结合蛋白,在实验室验证之前,先在计算机里淘汰掉99%的失败候选。新型病毒出现时,不需要等疫苗研发的漫长周期,而是直接设计出能中和病毒的蛋白质抑制剂。
更深远的影响在材料科学和工业酶领域。自然界进化出来的蛋白质,是在特定环境条件下优化的。但工业需求的环境——高温、强酸、有机溶剂——自然界从来没有「练习」过。现在我们可以直接设计在这些极端条件下稳定工作的蛋白质,这对生物制造业意味着什么,不用多说。
但有一件事值得冷静想想
AlphaFold发布之后,有一种声音开始流传:「结构生物学家要失业了。」这个判断我觉得既对又错。对的部分是:大量重复性的结构解析工作,确实会被AI取代。错的部分是:AI解决的是已知问题空间里的效率问题,它极大压缩了「从序列到结构」这条路上的时间成本,但它没有告诉你应该研究哪个蛋白质、为什么这个靶点重要、实验结果背后的生物学意义是什么。
更准确的说法是:AI把生物学家从「解方程」里解放出来,让他们可以去做更高层次的事——提出更好的问题。这听起来像是安慰,但历史上每次技术革命都是这个模式。计算器没有消灭数学家,PCR技术没有消灭遗传学家,AlphaFold大概率也不会消灭结构生物学家。它只是把这个领域的天花板,往上推了一层。
✦ 小结
从AlphaFold到AlphaProteo,这不只是一个AI工具升级的故事,而是生物学认识论的一次位移:我们开始用「学习」代替「推导」,用「设计」代替「发现」。这条路通向哪里,现在还没人说得清。但可以确定的是,接下来十年生物学领域发生的事,会比过去五十年加起来还要多。
夜雨聆风