从物理模拟到生成式设计:AI蛋白质预测的完整演进史
从物理模拟到生成式设计:AI蛋白质预测的完整演进史
说起来,最近跟一个做生物医药的朋友聊天,他说他们实验室现在预测蛋白质结构,基本就是往AlphaFold里一扔,几秒钟出结果。
我问他:那你们还用X射线晶体学吗?
他愣了一下:现在谁还用那玩意儿啊,又慢又贵。
这句话让我挺感慨的。五年前,谁能想到这个困扰了生物学家五十年的超级难题,会被AI用六年的时间基本解决?今天想系统梳理一下这条技术演进之路,当作一份”导航图”,方便以后想深入某个方向时有个方向感。
物理时代:笨办法与巧办法
先说在深度学习介入之前,科学家是怎么预测蛋白质结构的。
主要靠两拨人:一拨是搞物理模拟的,用分子动力学、蒙特卡洛这些方法,从能量函数出发,让蛋白质自己”折叠”。说白了就是模拟物理世界的规则,让原子们自己找到能量最低的位置。这个思路很优雅,但计算代价极大——你得有超算,还得等很久,而且只能处理小体系。
另一拨人走的是”抄作业”的路线,叫同源建模。啥意思呢?如果已经有一个类似序列的实验结构,那我就把这个已知结构当模板,套到新序列上去。这招在有模板的时候挺好用,但没有相似模板的时候,精度就急剧下降。
这两类方法撑了几十年,但在”无模板的 de novo预测”上基本没什么进展。当时大家都觉得,蛋白质折叠这事儿太复杂了,纯物理算不动,抄作业也找不到本子。
有意思的是,那时候很多人甚至怀疑这个问题能不能被解决。
浅层AI:隔靴搔痒的第一次尝试
大概在深度学习火起来之前,AI就开始尝试介入了。但那会儿的方法比较”朴素”——先用AI预测二级结构、接触图(就是哪些氨基酸残基会靠在一起),然后再拿这些信息去约束物理或几何建模。
用的是啥模型呢?SVM、随机森林、浅层神经网络这些。简单来说,就是对局部序列片段做特征工程,然后猜一猜哪些残基对会接触。
这类方法确实比纯规则强一点,但说实话,没有出现那种”质的飞跃”的感觉。预测精度提高了一点点,但离真正解决结构问题还差得远。
我当时看到这些论文的感觉就是:AI确实在努力,但使不上劲。
2016年转折点:CNN搞定了接触图
真正的转折点,很多人认为是2016到2017年。
这时候深度残差网络(ResNet)成熟了,有人开始用它来预测蛋白质残基之间的接触或距离矩阵。最有代表性的是RaptorX-Contact这系列工作。
具体怎么做的呢?把蛋白质序列和多序列比对(MSA)这些特征扔进深度ResNet,然后输出残基对接触的概率或者距离分布。接着再用几何或物理优化的手段,把预测的接触或距离约束转成三维结构。
这个思路挺巧妙的——相当于先用CNN解决一个”二维图像”问题(接触图),再把这个图转成三维几何。
关键突破在于:在很多没有模板的蛋白质上,预测精度大幅超越了之前的方法。这是第一次,深度学习在蛋白质结构预测上展现出真正的威力。
说实话,看到RaptorX那篇论文的时候,我意识到这次可能不太一样了。深度学习终于开始”使上劲”了。
AlphaFold1:混合框架的雏形
2018年,DeepMind出手了。
他们在CASP13(第十四届蛋白质结构预测关键评估竞赛)上拿了冠军,第一次让AI”压倒性”地领先于传统方法。那次比赛的结果让很多人愣了好几秒——差距实在太明显了。
AlphaFold第一版的核心思路是:用深度神经网络预测残基间的距离分布、二面角这些几何特征,然后用一个基于能量和约束的优化过程,把这些预测出来的几何约束”翻译”成三维结构。
跟之前的RaptorX相比,AlphaFold预测的信息更丰富——不只预测接触,还预测距离直方图、角度等等,优化过程也更加系统化。
但这一代的风格仍然是”预测约束 + 优化”,深度学习主要负责生成约束,最后的结构还是要靠物理优化的手段来构建。有点像是AI负责出主意,人类负责执行。
AlphaFold2:端到端的革命
2020年,真正的大爆发来了。
AlphaFold2在CASP14上几乎是碾压式的胜利。当时有人说,这基本解决了大部分单链蛋白质的稳态结构预测问题。
这话听起来有点夸张,但我看了论文之后,觉得这个评价并不为过。
AlphaFold2的核心创新是什么呢?它引入了Evoformer——一个基于注意力机制的网络模块。这个模块在序列维度和残基对维度之间反复进行信息交互,像是在处理一张”图加序列”的复杂结构。
最关键的是:它直接输出所有原子的三维坐标,而不是先预测接触图再加优化。这是真正意义上的端到端结构预测。
你可以理解成:之前的方法是让AI先画个草图,然后让人按照草图去施工。AlphaFold2呢?AI直接给你端上来一个完整的结构。
精度高到什么程度呢?CASP14的评委说,这是”基本解决了生物学50年的大难题”。
这个评价让我又一次愣住了。上一次有这种分量的评价,可能还是人类基因组计划完成的时候。
AlphaFold2之后,DeepMind还做了很多扩展:AlphaFold-Multimer预测蛋白复合体,AlphaFold3进一步扩展到蛋白-核酸、蛋白-小分子配体等更复杂的体系。几乎每隔一段时间就有新进展。
还有一个不得不提的是RoseTTAFold,来自华盛顿大学的Baker团队,用”三轨网络”实现了类似的能力。三条轨道分别处理1D序列、2D残基对特征、3D坐标,三者之间用注意力不断信息交互。精度比AlphaFold2稍逊,但更轻量,资源要求更低。
语言模型时代:不再依赖MSA
AlphaFold2/RoseTTAFold之后,这条技术路线继续演化,其中一个重要方向是把蛋白质当”语言”来处理。
ESMFold、ProtTrans这些模型,把大规模蛋白质序列当成语料库,用Transformer语言模型做自监督训练,然后直接从单序列得到结构或者embedding。
这意味着什么呢?AlphaFold2需要构建多序列比对(MSA),这一步其实挺耗时间的。但ESMFold不需要,它直接从序列出发,预测速度可以快很多倍。
好处显而易见:不依赖MSA,适合那些找不到同源序列的”冷门”蛋白质,也为下游的功能预测和生成任务打好了基础。
最近还有个叫TDFold的新方法(2026年4月发表在Nature Machine Intelligence),把扩散模型用到了单序列蛋白质结构预测上,预测500个氨基酸的蛋白质只需要约10秒,而AlphaFold2需要近1000秒。这个效率提升还是很可观的。
我看到这个消息的时候,第一反应是:这才几年时间?从AlphaFold2到TDFold,才五六年,预测速度就快了100倍。这个领域发展得太快了,快到我都有点跟不上的感觉。
生成式设计:从预测到创造
这条技术演进的末端,是从”预测已有序列的结构”走向”设计新的序列和结构”。
RFdiffusion把扩散模型用到蛋白结构生成上,可以直接生成能折叠成目标结构的新序列。
这已经不只是”预测”了,而是在”创造”。
背后用到的技术包括扩散模型、flow matching、变分自编码器(VAE)、能量模型等生成式AI算法。
想象一下:以前你要找一个能特定折叠的蛋白质,可能要在自然界中找好多年。现在你直接告诉AI,我需要这个形状的蛋白质,它就给你生成一个。
这事儿听起来有点科幻,但正在变成现实。
为什么AI能搞定蛋白质折叠
回顾这条技术演进之路,我一直在想一个问题:为什么深度学习能搞定蛋白质折叠?
物理学家的答案是:因为蛋白质折叠的本质是物理过程,遵循物理规则,所以用物理模拟理论上能算出来。
但问题是,算出来需要多长时间?可能比宇宙寿命还长。
深度学习的答案是:不用算那么精确的物理过程,只需要”记住”足够多的序列-结构对应关系,就能预测新的对应关系。
这个思路更接近生物进化的事实:自然界通过亿万年进化,已经”见过”了大量的蛋白质折叠方式。深度学习通过学习这些数据,找到了其中的规律。
某种程度上,AlphaFold的成功是站在了进化的肩膀上——它学习的不是物理规则,而是几十亿年的生物实验数据。
从工具到平台
AlphaFold的意义不只是一个工具,更是一个平台。
DeepMind把AlphaFold2的代码开源了,还和欧洲生物信息研究所合作,搞了个AlphaFold数据库,覆盖2.4亿个蛋白质结构,免费向全球开放。
这个数据库现在被全球190多个国家的300万研究者使用。甚至有100万用户来自低收入国家——以前这些国家的实验室根本没机会接触前沿的结构数据,现在点开网页就能用。
牛津大学的团队用这个数据库预测了疟疾蛋白的全长结构,给疫苗设计找到了新靶点。马耳他大学用它模拟罕见基因突变蛋白,破解了早发性骨质疏松症的遗传机制。最夸张的是土耳其有个本科生,用免费的AlphaFold数据库发了15篇结构研究论文。
还有一个信号很有意思:2024年的诺贝尔化学奖颁给了AlphaFold团队,理由是”解决生物学50年的重大挑战”。一个计算机团队拿到诺贝尔化学奖,这在历史上可能是第一次。
下一步会是什么
回到开头的问题:蛋白质折叠问题被解决了吗?
我倾向于说:基本解决了,但还没有完全解决。
对于单链蛋白质的稳态结构预测,AlphaFold2已经做得相当好了。但蛋白质的动态变化、折叠过程、与其他分子的相互作用等问题,还需要更多研究。
而且,从”预测”到”设计”还有一段路要走。RFdiffusion这些生成式方法已经展示了可能性,但要真正成为药物研发的常规工具,可能还需要几年时间。
有意思的是,AlphaFold的成功催生了一个新产业:IsomorphicLabs是DeepMind拆出来的AI药物研发公司,2025年拿了6亿美元融资,跟诺华、礼来这些大药企签了30亿美元的合作。传统新药研发平均要10到15年、花10多亿美元,AlphaFold出来后,早期开发成本和时间都能省下不少。
6亿美元、30亿美元合作——这些数字放在五年前,我是不敢想的。当时大家还在讨论AlphaFold能不能真的 work,现在人家已经开始赚大钱了。技术到商业的转化速度,有时候快得让人反应不过来。
这条技术演进之路,大概是这样的:
技术演进时间线:物理/同源建模 → 浅层ML+接触图 → 深度CNN(RaptorX) → AlphaFold1 → AlphaFold2/RoseTTAFold → 语言模型(ESMFold/OmegaFold) → 生成式设计(RFdiffusion)
如果你想深入了解某个方向,我的建议是:挑2-3个代表性算法做”工程级”理解,比如RaptorX(卷积+接触图的经典)、AlphaFold2(Transformer+端到端)、一个语言模型化的代表(ESMFold或TDFold),再加一个生成式(RFdiffusion)。
理解了这几个节点,这条技术演进之路基本上就清晰了。
以后有机会,再针对某个具体方向深入聊聊。
参考资料:
-
AlphaFold2论文:https://www.nature.com/articles/s41586-021-03819-2 -
RoseTTAFold论文:https://www.science.org/doi/10.1126/science.abj8754 -
TDFold论文:https://www.nature.com/articles/s42256-026-01210-2 -
AlphaFold数据库:https://alphafold.ebi.ac.uk
夜雨聆风