乐于分享
好东西不私藏

从头设计蛋白质:AI改写蛋白质工程

从头设计蛋白质:AI改写蛋白质工程

Scalpel工具箱 RFdiffusion环境配置复杂?Scalpel《AI+蛋白质工程》课程:Docker一键部署→扩散模型原理→结合物设计→论文复现。

导语

2026年4月29日,Nature发表了David Baker团队的重量级综述”The past, present and future of de novo protein design”。这不是一篇普通的方法学论文,而是一份”蛋白质设计时代的宣言”——宣告从”随机筛选”到”计算设计”的范式转变已经完成。

RFdiffusion、ProteinMPNN、AlphaFold3的开源组合,使任何生化研究者都能进行蛋白质结构设计。论文核心论断:蛋白质结构设计和结合剂设计”已接近解决”——核心问题不再是”如何设计”,而是”设计什么”。这篇深度解析,我们从生信视角拆解这一范式转变的技术内核。

论文基本信息

论文标题

The past, present and future of de novo protein design.

发表期刊

Nature | IF≈50.5 | 2026年4月29日

研究团队

Yang W, Wang S, Lee GR, Zhang JZ; David Baker Lab, University of Washington

DOI

10.1038/s41586-026-10328-7

核心论断

蛋白质结构设计、结合剂设计已接近解决

开源工具

RFdiffusion, ProteinMPNN, AlphaFold3 Server

核心论点:范式转变

“能否设计”到”设计什么”

论文开篇即抛出震撼论断:

核心论断“While there is still room for improvement in success rates and activities, the long-standing challenges of designing new protein structures, assemblies and protein binders are close to being solved. The key current questions in these areas are not how to design, but what to design.”

翻译:虽然成功率和活性仍有提升空间,但设计新蛋白质结构、组装体和结合剂的长期挑战已接近解决。当前的关键问题不再是“如何设计”,而是”设计什么”。

三个已解决的领域

领域

解决程度

核心工具

蛋白质结构设计

已解决

RFdiffusion(骨架扩散生成)+ ProteinMPNN(序列优化)

蛋白质结合剂设计

已解决

RFdiffusion条件生成 + AlphaFold验证

蛋白质组装体设计

已解决

对称性约束 + RFdiffusion

三个前沿挑战

挑战

当前状态

未来方向

酶设计

有进展

高能垒反应催化剂、过渡态稳定化

蛋白质开关/纳米机器

前沿领域

整合结合、构象变化、催化的集成系统

多状态系统

活跃研究

可响应环境变化的功能蛋白质

技术核心:三大工具链

1. RFdiffusion:扩散模型生成蛋白质骨架

RFdiffusion是蛋白质设计领域的”Stable Diffusion”——基于扩散模型的蛋白质骨架生成工具。

核心原理:基于RoseTTAFold的结构预测网络,训练为扩散模型,从随机噪声逐步生成蛋白质骨架

条件生成:支持给定口袋位置、给定对称性、给定拓扑结构的条件生成

成功率:独立测试集验证显示,生成的骨架在AlphaFold2预测中具有高plDDT分数

2. ProteinMPNN:序列优化

生成骨架后,需要“填充”氨基酸序列。ProteinMPNN解决了这个问题——给定蛋白质骨架,生成最优氨基酸序列。

原理:基于图神经网络的序列设计,将蛋白质骨架建模为图结构,节点为氨基酸位置

优势:比传统Rosetta设计速度快100倍,且成功率更高

在线服务器:无需本地安装,直接上传PDB即可获得设计序列

3. AlphaFold3:结构验证

设计完成后,如何验证?AlphaFold3提供了”设计-验证”闭环的关键一环。

功能:预测蛋白质-蛋白质、蛋白质-配体复合物结构

优势:AlphaFold2更准确地预测蛋白质-蛋白质界面

服务器:DeepMind开放非商业用途服务器

应用领域与案例分析

1. 蛋白质结合剂设计

应用场景:设计针对特定靶点的蛋白结合剂,用于药物开发、检测、成像

典型案例:设计针对流感病毒血凝素的结合蛋白,中和病毒感染

成功率:论文报告结合剂设计成功率已达到可实用水平

2. 酶设计

进展:已成功设计多种水解酶、氧化还原酶

挑战:高能垒反应(如C-H键活化)的催化剂设计仍有困难

方向:过渡态稳定化、辅因子整合

3. 蛋白质纳米机器

概念:设计可响应环境变化、执行特定功能的蛋白质系统

示例:设计可被小分子开关的蛋白质、可变构的信号传导系统

前沿:这是论文指出的“未来5-10年”的主要方向

对生信研究的启示

1. 工具链已开源,门槛大幅降低

工具

安装方式

学习资源

RFdiffusion

GitHub开源 + Docker

github.com/RosettaCommons/RFdiffusion

ProteinMPNN

WebServer + GitHub

github.com/dauparas/ProteinMPNN

AlphaFold3

WebServer(非商业)

alphafoldserver.com

2. 生信人的机会

机会一:下游应用开发将蛋白质设计工具与特定应用场景结合,如抗体设计、酶工程

机会二:算法改进扩散模型架构优化、条件生成策略、多目标优化

机会三:数据挖掘从已设计的蛋白质中挖掘设计规则、构效关系

机会四:整合分析将蛋白质设计与组学数据整合,如肿瘤新抗原结合剂设计

3. 论文复现建议

第一步:复现RFdiffusion基本流程——生成随机蛋白质骨架

第二步:尝试条件生成——给定口袋位置设计结合剂

第三步:使用ProteinMPNN优化序列

第四步:AlphaFold3验证设计结构

第五步:(可选)湿实验验证

Scalpel工具箱 Scalpel《AI+蛋白质工程》课程提供RFdiffusion+ProteinMPNN完整复现代码和教程。

局限性与未来展望

当前局限

成功率虽高但非100%,仍需多轮迭代优化

酶设计仍有挑战,尤其是高能垒反应

设计蛋白质的表达、稳定性需要实验验证

多状态系统、开关的设计刚起步

未来5-10年展望

论文对未来的展望充满信心:

展望“Over the next five to ten years, we anticipate the design of sophisticated protein nanomachines and materials with functionality ranging far beyond that generated during natural evolution for a wide range of applications in medicine, technology and sustainability.”

翻译:未来5-10年,我们预期将设计出功能远超天然进化的复杂蛋白质纳米机器和材料,应用于医学、技术和可持续发展。

小编深度点评

这篇Nature综述的最大价值是什么?不是新技术,而是”范式宣言”——宣告蛋白质设计已从”前沿研究”进入”工具可用”时代。

核心洞察RFdiffusion之于蛋白质设计,正如Stable Diffusion之于图像生成——它将一个高度专业化的研究领域变成了”任何人都可以尝试”的工具。对于生信人来说,这意味着一个巨大的机会窗口:你不需要成为蛋白质结构专家,就能设计出有潜力的蛋白质。关键在于如何将这个工具与你熟悉的领域(如疾病靶点、组学数据)结合。

对生信人的三点建议:

立即上手:RFdiffusion和ProteinMPNN都有在线服务器,不需要复杂的环境配置

关注应用:工具已就绪,关键是找到有意义的应用场景

跟踪进展:这一领域正在快速迭代,每月都有新突破

最后,这篇论文的Open Access性质值得点赞——任何人都可以免费阅读全文,这是科学传播的正确方式。

资源汇总

论文原文

DOI: 10.1038/s41586-026-10328-7(Nature官网)

RFdiffusion

github.com/RosettaCommons/RFdiffusion

ProteinMPNN

github.com/dauparas/ProteinMPNN + WebServer

AlphaFold3 Server

alphafoldserver.com

David Baker Lab

benchling.com/baker

Scalpel课程

一对一教学,可提供代码

Scalpel推荐课程 想系统掌握蛋白质设计工具?Scalpel《AI+蛋白质工程》课程:RFdiffusion+ProteinMPNN+AlphaFold3完整pipeline,零基础到实战。限时优惠 

需要生信分析支持?Scalpel生信·  定制分析 | 云服务器 | 课题设计