从物理模拟到生成式设计:AI蛋白质预测的完整演进史

从物理模拟到生成式设计：AI蛋白质预测的完整演进史

说起来，最近跟一个做生物医药的朋友聊天，他说他们实验室现在预测蛋白质结构，基本就是往AlphaFold里一扔，几秒钟出结果。

我问他：那你们还用X射线晶体学吗？

他愣了一下：现在谁还用那玩意儿啊，又慢又贵。

这句话让我挺感慨的。五年前，谁能想到这个困扰了生物学家五十年的超级难题，会被AI用六年的时间基本解决？今天想系统梳理一下这条技术演进之路，当作一份”导航图”，方便以后想深入某个方向时有个方向感。

物理时代：笨办法与巧办法

先说在深度学习介入之前，科学家是怎么预测蛋白质结构的。

主要靠两拨人：一拨是搞物理模拟的，用分子动力学、蒙特卡洛这些方法，从能量函数出发，让蛋白质自己”折叠”。说白了就是模拟物理世界的规则，让原子们自己找到能量最低的位置。这个思路很优雅，但计算代价极大——你得有超算，还得等很久，而且只能处理小体系。

另一拨人走的是”抄作业”的路线，叫同源建模。啥意思呢？如果已经有一个类似序列的实验结构，那我就把这个已知结构当模板，套到新序列上去。这招在有模板的时候挺好用，但没有相似模板的时候，精度就急剧下降。

这两类方法撑了几十年，但在”无模板的 de novo预测”上基本没什么进展。当时大家都觉得，蛋白质折叠这事儿太复杂了，纯物理算不动，抄作业也找不到本子。

有意思的是，那时候很多人甚至怀疑这个问题能不能被解决。

浅层AI：隔靴搔痒的第一次尝试

大概在深度学习火起来之前，AI就开始尝试介入了。但那会儿的方法比较”朴素”——先用AI预测二级结构、接触图（就是哪些氨基酸残基会靠在一起），然后再拿这些信息去约束物理或几何建模。

用的是啥模型呢？SVM、随机森林、浅层神经网络这些。简单来说，就是对局部序列片段做特征工程，然后猜一猜哪些残基对会接触。

这类方法确实比纯规则强一点，但说实话，没有出现那种”质的飞跃”的感觉。预测精度提高了一点点，但离真正解决结构问题还差得远。

我当时看到这些论文的感觉就是：AI确实在努力，但使不上劲。

2016年转折点：CNN搞定了接触图

真正的转折点，很多人认为是2016到2017年。

这时候深度残差网络（ResNet）成熟了，有人开始用它来预测蛋白质残基之间的接触或距离矩阵。最有代表性的是RaptorX-Contact这系列工作。

具体怎么做的呢？把蛋白质序列和多序列比对（MSA）这些特征扔进深度ResNet，然后输出残基对接触的概率或者距离分布。接着再用几何或物理优化的手段，把预测的接触或距离约束转成三维结构。

这个思路挺巧妙的——相当于先用CNN解决一个”二维图像”问题（接触图），再把这个图转成三维几何。

关键突破在于：在很多没有模板的蛋白质上，预测精度大幅超越了之前的方法。这是第一次，深度学习在蛋白质结构预测上展现出真正的威力。

说实话，看到RaptorX那篇论文的时候，我意识到这次可能不太一样了。深度学习终于开始”使上劲”了。

AlphaFold1：混合框架的雏形

2018年，DeepMind出手了。

他们在CASP13（第十四届蛋白质结构预测关键评估竞赛）上拿了冠军，第一次让AI”压倒性”地领先于传统方法。那次比赛的结果让很多人愣了好几秒——差距实在太明显了。

AlphaFold第一版的核心思路是：用深度神经网络预测残基间的距离分布、二面角这些几何特征，然后用一个基于能量和约束的优化过程，把这些预测出来的几何约束”翻译”成三维结构。

跟之前的RaptorX相比，AlphaFold预测的信息更丰富——不只预测接触，还预测距离直方图、角度等等，优化过程也更加系统化。

但这一代的风格仍然是”预测约束 + 优化”，深度学习主要负责生成约束，最后的结构还是要靠物理优化的手段来构建。有点像是AI负责出主意，人类负责执行。

AlphaFold2：端到端的革命

2020年，真正的大爆发来了。

AlphaFold2在CASP14上几乎是碾压式的胜利。当时有人说，这基本解决了大部分单链蛋白质的稳态结构预测问题。

这话听起来有点夸张，但我看了论文之后，觉得这个评价并不为过。

AlphaFold2的核心创新是什么呢？它引入了Evoformer——一个基于注意力机制的网络模块。这个模块在序列维度和残基对维度之间反复进行信息交互，像是在处理一张”图加序列”的复杂结构。

最关键的是：它直接输出所有原子的三维坐标，而不是先预测接触图再加优化。这是真正意义上的端到端结构预测。

你可以理解成：之前的方法是让AI先画个草图，然后让人按照草图去施工。AlphaFold2呢？AI直接给你端上来一个完整的结构。

精度高到什么程度呢？CASP14的评委说，这是”基本解决了生物学50年的大难题”。

这个评价让我又一次愣住了。上一次有这种分量的评价，可能还是人类基因组计划完成的时候。

AlphaFold2之后，DeepMind还做了很多扩展：AlphaFold-Multimer预测蛋白复合体，AlphaFold3进一步扩展到蛋白-核酸、蛋白-小分子配体等更复杂的体系。几乎每隔一段时间就有新进展。

还有一个不得不提的是RoseTTAFold，来自华盛顿大学的Baker团队，用”三轨网络”实现了类似的能力。三条轨道分别处理1D序列、2D残基对特征、3D坐标，三者之间用注意力不断信息交互。精度比AlphaFold2稍逊，但更轻量，资源要求更低。

语言模型时代：不再依赖MSA

AlphaFold2/RoseTTAFold之后，这条技术路线继续演化，其中一个重要方向是把蛋白质当”语言”来处理。

ESMFold、ProtTrans这些模型，把大规模蛋白质序列当成语料库，用Transformer语言模型做自监督训练，然后直接从单序列得到结构或者embedding。

这意味着什么呢？AlphaFold2需要构建多序列比对（MSA），这一步其实挺耗时间的。但ESMFold不需要，它直接从序列出发，预测速度可以快很多倍。

好处显而易见：不依赖MSA，适合那些找不到同源序列的”冷门”蛋白质，也为下游的功能预测和生成任务打好了基础。

最近还有个叫TDFold的新方法（2026年4月发表在Nature Machine Intelligence），把扩散模型用到了单序列蛋白质结构预测上，预测500个氨基酸的蛋白质只需要约10秒，而AlphaFold2需要近1000秒。这个效率提升还是很可观的。

我看到这个消息的时候，第一反应是：这才几年时间？从AlphaFold2到TDFold，才五六年，预测速度就快了100倍。这个领域发展得太快了，快到我都有点跟不上的感觉。

生成式设计：从预测到创造

这条技术演进的末端，是从”预测已有序列的结构”走向”设计新的序列和结构”。

RFdiffusion把扩散模型用到蛋白结构生成上，可以直接生成能折叠成目标结构的新序列。

这已经不只是”预测”了，而是在”创造”。

背后用到的技术包括扩散模型、flow matching、变分自编码器（VAE）、能量模型等生成式AI算法。

想象一下：以前你要找一个能特定折叠的蛋白质，可能要在自然界中找好多年。现在你直接告诉AI，我需要这个形状的蛋白质，它就给你生成一个。

这事儿听起来有点科幻，但正在变成现实。

为什么AI能搞定蛋白质折叠

回顾这条技术演进之路，我一直在想一个问题：为什么深度学习能搞定蛋白质折叠？

物理学家的答案是：因为蛋白质折叠的本质是物理过程，遵循物理规则，所以用物理模拟理论上能算出来。

但问题是，算出来需要多长时间？可能比宇宙寿命还长。

深度学习的答案是：不用算那么精确的物理过程，只需要”记住”足够多的序列-结构对应关系，就能预测新的对应关系。

这个思路更接近生物进化的事实：自然界通过亿万年进化，已经”见过”了大量的蛋白质折叠方式。深度学习通过学习这些数据，找到了其中的规律。

某种程度上，AlphaFold的成功是站在了进化的肩膀上——它学习的不是物理规则，而是几十亿年的生物实验数据。

从工具到平台

AlphaFold的意义不只是一个工具，更是一个平台。

DeepMind把AlphaFold2的代码开源了，还和欧洲生物信息研究所合作，搞了个AlphaFold数据库，覆盖2.4亿个蛋白质结构，免费向全球开放。

这个数据库现在被全球190多个国家的300万研究者使用。甚至有100万用户来自低收入国家——以前这些国家的实验室根本没机会接触前沿的结构数据，现在点开网页就能用。

牛津大学的团队用这个数据库预测了疟疾蛋白的全长结构，给疫苗设计找到了新靶点。马耳他大学用它模拟罕见基因突变蛋白，破解了早发性骨质疏松症的遗传机制。最夸张的是土耳其有个本科生，用免费的AlphaFold数据库发了15篇结构研究论文。

还有一个信号很有意思：2024年的诺贝尔化学奖颁给了AlphaFold团队，理由是”解决生物学50年的重大挑战”。一个计算机团队拿到诺贝尔化学奖，这在历史上可能是第一次。

下一步会是什么

回到开头的问题：蛋白质折叠问题被解决了吗？

我倾向于说：基本解决了，但还没有完全解决。

对于单链蛋白质的稳态结构预测，AlphaFold2已经做得相当好了。但蛋白质的动态变化、折叠过程、与其他分子的相互作用等问题，还需要更多研究。

而且，从”预测”到”设计”还有一段路要走。RFdiffusion这些生成式方法已经展示了可能性，但要真正成为药物研发的常规工具，可能还需要几年时间。

有意思的是，AlphaFold的成功催生了一个新产业：IsomorphicLabs是DeepMind拆出来的AI药物研发公司，2025年拿了6亿美元融资，跟诺华、礼来这些大药企签了30亿美元的合作。传统新药研发平均要10到15年、花10多亿美元，AlphaFold出来后，早期开发成本和时间都能省下不少。

6亿美元、30亿美元合作——这些数字放在五年前，我是不敢想的。当时大家还在讨论AlphaFold能不能真的 work，现在人家已经开始赚大钱了。技术到商业的转化速度，有时候快得让人反应不过来。

这条技术演进之路，大概是这样的：

技术演进时间线：物理/同源建模 → 浅层ML+接触图 → 深度CNN(RaptorX) → AlphaFold1 → AlphaFold2/RoseTTAFold → 语言模型(ESMFold/OmegaFold) → 生成式设计(RFdiffusion)

如果你想深入了解某个方向，我的建议是：挑2-3个代表性算法做”工程级”理解，比如RaptorX（卷积+接触图的经典）、AlphaFold2（Transformer+端到端）、一个语言模型化的代表（ESMFold或TDFold），再加一个生成式（RFdiffusion）。

理解了这几个节点，这条技术演进之路基本上就清晰了。

以后有机会，再针对某个具体方向深入聊聊。

参考资料：

AlphaFold2论文：https://www.nature.com/articles/s41586-021-03819-2
RoseTTAFold论文：https://www.science.org/doi/10.1126/science.abj8754
TDFold论文：https://www.nature.com/articles/s42256-026-01210-2
AlphaFold数据库：https://alphafold.ebi.ac.uk