乐于分享
好东西不私藏

生成式AI蛋白设计的前世今生:Baker团队Nature重磅综述

生成式AI蛋白设计的前世今生:Baker团队Nature重磅综述

生成式AI蛋白设计的前世今生

刚刚!David Baker的团队在Nature上发表了一篇综述。(太强了,昨天才报道了Baker Lab的工作,今天又发了篇Nature综述当一个领域的顶级实验室开始写”回顾与展望”,通常意味着一件事:战局已定,下一轮开始了。

这篇综述的标题叫《The past, present and future of de novo protein design》。文章里用了一个措辞,读完之后会一直留在脑子里——

“The key current questions in these areas are not how to design, but what to design.”

怎么设计,已经不是问题了。

什么是de novo蛋白质设计?

自然界的蛋白质,是几亿年进化出来的。人类想要一个新功能的蛋白质,过去只有两条路:

一,改造现有蛋白质——拿一个天然蛋白做原料,定向进化,一点一点改。Frances Arnold用这个方法拿了诺贝尔奖。

二,从零开始设计——给定想要的功能,从第一性原理出发,算出一条氨基酸序列,折叠出全新的三维结构,实现目标功能。这就是de novo蛋白质设计(de novo意为”从头”)。

这件事有多难?难在你要同时解决三个问题:设计主链骨架、给骨架配上合适的氨基酸序列、验证这个设计真的能折叠成你想要的样子。每一步都有可能失败,每一步的组合空间都大到难以想象。

过去六年发生了什么

2003年,Baker实验室设计出了人类历史上第一个全新折叠的蛋白质——Top7。晶体结构和计算模型几乎完全吻合。这件事轰动了结构生物学界,但成功率极低,耗时极长。

2020年前后,一切开始加速。

AlphaFold出现了。它不只是预测蛋白质结构的工具——它证明了序列到结构的映射是可以被机器学习捕捉的。这改变了整个设计范式。

随后是RFdiffusion(2023年)。这是Baker实验室开发的扩散模型,思路直接借鉴了图像生成AI(DALL·E的底层逻辑):先把蛋白质结构”加噪”到随机分布,训练网络一步步”去噪”还原。生成图片时从随机噪声出发生成新图;生成蛋白质时从随机坐标出发生成新结构。再加上ProteinMPNN——给定骨架结构,自动设计氨基酸序列。这三件工具组合在一起,构成了当前蛋白质设计的标准流水线:

RFdiffusion生成骨架 → ProteinMPNN设计序列 → AlphaFold验证预测

成功率从十年前的个位数百分比,跃升到了可以系统性解决问题的水平。

四个战场,已经赢了三个

综述把de novo蛋白质设计划分为四大方向。文中非常直接地说明了哪些已解决、哪些还没有。

战场一:设计新蛋白质折叠 ✓ 基本解决

从TIM桶蛋白到跨膜β-桶,从螺旋重复蛋白到全新拓扑结构,过去20年设计并实验验证的新结构已经涵盖了极其广泛的空间。

跨膜蛋白是其中一个重要分支。计算设计现在能以高精度设计α螺旋和β折叠跨膜孔道,包括离子通道和锌转运体。纳米孔测序技术依赖天然β-桶蛋白,de novo设计让定制孔径成为可能——蛋白质测序、通用传感,都在这条路上。

还有个别人很少提的进展:把设计延伸到非天然氨基酸和非天然骨架。7到14残基的大环肽,l型和d型氨基酸混合,能折叠成明确结构,能口服,能穿膜。这和小分子药物的边界,已经开始模糊。

战场二:设计蛋白质组装体 ✓ 基本解决

纳米颗粒、蛋白笼、一维纤维、二维阵列、三维晶体……这些听起来像材料科学的词,现在都可以通过计算设计实现。

最能说明问题的是一个已经落地的案例:SKYCovione。这是基于de novo设计的二十面体纳米颗粒疫苗,也是世界上第一个经临床批准的、完全由计算设计构建的药物。它已经获得监管授权,用于人类。

不是概念验证,是上市药物。

战场三:设计蛋白质结合物 ✓ 接近解决

这是目前研发管线最密集的方向。

Rosetta + RFdiffusion + ProteinMPNN的组合,已经对超过200个蛋白靶点实现了实验验证的结合物设计。对流感、新冠、MERS的设计miniprotein,在动物模型里已经展现出与抗体相当甚至更强的中和活性。

综述里说了一句让制药界需要认真对待的话:

“For affinity reagent and therapeutic antibody generation, classic techniques such as animal immunization and random library selection will likely be supplanted by computational design, which is faster, cheaper and more precise.”

动物免疫,随机文库筛选——这两件事是现在抗体药物研发的核心流程,耗时数年,耗资数亿。如果这个判断是对的,整个行业的研发范式会重写。

酶设计在过去几年有了真正的突破。RFdiffusion2可以直接围绕催化活性位点生成蛋白质支架(就像先摆好几个关键氨基酸,再往外”生长”出整个蛋白)。最新设计的金属水解酶,kcat/KM超过10⁴ M⁻¹s⁻¹——这个数字比十年前的计算设计酶高出了数个数量级。

但难题依然存在:反应能垒高的催化(比如水氧化、固氮)、多步催化的精确控制,仍然是当前方法的边界。

多态功能系统更是一整个新前沿:设计能响应信号、发生构象变化、执行机械运动的蛋白质机器。Baker实验室已经设计出了轴-转子蛋白组装体,以及能被别构调控的开关系统——但从”原理展示”到”真正有用的纳米机器”,路还很长。

为什么这对AI大分子赛道很重要

值得单独说一下产业含义。过去几年,AI蛋白质设计赛道的公司融资活跃,但外界常有一个疑问:这些技术真的到了实用阶段吗?成功率多少?能不能替代湿实验?Baker这篇综述给出了一个相对明确的答案:

蛋白结合物设计,已经接近可靠。成功率虽有提升空间(尤其是极性靶点),但200+靶点的实验验证摆在那里,这不是”有时候能行”,是”系统性可行”。

最后

2003年,第一个de novo折叠蛋白。

2016年,第一个成功的多组件纳米颗粒。

2020年,RFdiffusion之前的最后一代物理方法。

2023年,RFdiffusion发布,范式转移完成。

2026年,Baker Lab写综述,说”怎么设计”已经不是问题。

蛋白从头设计领域完成了自己的青春期,开始进入成年阶段。下一个十年,蛋白质设计的问题会是:我们想设计什么?设计出来给谁用?怎么把设计变成真正运作的药物、材料和机器?这些问题,比”怎么设计”更难,也更重要。

参考文献:Yang W, Wang S, Lee GR, Zhang JZ, et al. The past, present and future of de novo protein design. Nature 652, 1139–1152 (2026). https://doi.org/10.1038/s41586-026-10328-7