AI“原子级”设计酶:RFdiffusion2从反应机理直接生成活性酶

华盛顿大学David Baker团队在 《Nature Methods》 发表研究，推出新一代蛋白设计模型RFdiffusion2。该方法首次支持以原子级活性位点描述（theozyme）为条件，无需预先指定残基顺序或侧链构象，直接生成全新酶蛋白。在41个多样活性位点基准测试中，RFdiffusion2成功率为100%（41/41），而此前方法仅16/41。实验验证了四种不同机制的酶（逆醛缩酶、半胱氨酸水解酶、两种锌金属水解酶），仅筛选不到96个设计即获得活性，且结构完全原创（TM-score 0.47–0.54），为从头酶设计开辟了新范式。

研究流程：
选择催化机理（已知酶结构或DFT计算过渡态）→ 构建原子级theozyme（含催化残基侧链原子和配体）→ RFdiffusion2生成蛋白骨架（同时推断残基索引和侧链构象）→ LigandMPNN设计序列 → 结构预测（Chai-1/AF3）筛选 → 表达纯化 → 动力学表征

一、为什么是突破？——“原子级”+“无索引”，让设计回归化学直觉

传统酶设计需将催化基团转化为带索引的残基主链，再反向搜索/扩散支架，过程复杂且受限。RFdiffusion2首次直接以原子坐标（而非残基级）作为条件，且支持“无索引残基”——即只提供原子位置，不指定是哪几个残基、在序列何处。模型自主推断侧链构象和序列索引，扩展设计空间数十个数量级，在41个多样活性位点上实现100%支架覆盖，并成功设计出多种活性酶。

二、实验逻辑+关键数据

先构建高难度基准：从M-CSA数据库筛选41个催化活性位点（覆盖EC1-5类），随机抽取催化残基的部分原子作为“原子级基序”，其中包含多个不连续片段（最多7个“残基岛”）。→ 数据意义：模拟真实酶设计中最棘手的“多个不连续催化残基”支架问题。

对比RFdiffusion与RFdiffusion2：RFdiffusion2无需逆旋转异构体采样和索引枚举，直接输入原子基序即可生成。在41个案例中，RFdiffusion2全部找到合格支架（催化残基重原子RMSD<1.5 Å且无配体冲突），而RFdiffusion仅16/41成功。尤其在4–7个残基岛时，RFdiffusion成功率趋近0（图3b-c）。→ 数据意义：原子级+无索引条件化彻底解决了复杂活性位点支架难题。

消融实验证明推断能力：对比“给定天然旋转异构体+天然索引”、“随机采样”、“RFdiffusion2自主推断”三种策略。在3–6个残基岛案例中，自主推断策略表现最佳，甚至优于给定天然值（图3e）。→ 数据意义：模型自主搜索旋转异构体和索引空间比固定假设更有效。

实验验证四种酶：分别设计逆醛缩酶（kcat/KM=6.34 M⁻¹s⁻¹）、半胱氨酸水解酶（248 M⁻¹s⁻¹）、两种锌金属水解酶（77和16,000 M⁻¹s⁻¹）。每个案例测试设计数≤96，均获得活性。最活跃的设计与PDB中任何已知结构无明显相似性（TM-score 0.47–0.54）。→ 数据意义：模型不仅能计算上成功，更能产出真实催化活性、结构全新的酶。

三、结果验证或讨论

流匹配（Flow Matching）替代扩散
RFdiffusion2改用流匹配框架，训练更稳定，无需辅助损失或自条件化。同时引入随机中心化（stochastic centering）使模型能自主优化基序与支架的相对位置，解决了以往扩散模型在第一步偏移固定的问题。

多级条件控制
用户可为配体原子指定相对溶剂可及表面积（RASA），控制活性口袋深浅；通过ORI伪原子指定支架质心与配体的相对位置；可输入部分配体，模型补全其余构象。这些能力让设计师能精细调控酶口袋几何和埋藏程度。

无索引残基的妙用
催化三联体（如Cys-His-Asn）的残基在序列上可能相隔很远，传统方法需枚举所有索引组合。RFdiffusion2通过训练时随机“去索引化”残基，学得将无索引原子映射到骨架上的能力，一次生成即确定索引和侧链，极大简化流程。

从已知结构扩展到DFT设计
对于锌水解酶，团队未依赖天然酶结构，而是用密度泛函理论（DFT）计算过渡态几何，直接输入theozyme。RFdiffusion2据此生成支架并获得高活性酶（kcat/KM达16,000 M⁻¹s⁻¹），证明模型能从纯化学机理出发设计新酶。

四、方法优势

原子级条件化：直接使用催化残基侧链原子坐标+配体原子坐标，保留全部化学信息，无需手工将侧链转为主链框架。

无索引残基处理：通过在训练中随机遮蔽残基索引信息，模型学习将“游离”原子自动匹配到合适的主链位置并分配正确序列索引，彻底消除指数级组合搜索。

流匹配+SE(3)流：旋转和平移用黎曼流匹配，确保旋转采样的统计效率；训练不依赖预训练权重，从零开始收敛稳定。

灵活的控制接口：RASA（溶剂可及表面积）条件控制埋藏深度；ORI伪原子控制整体位置；部分配体推断生成完整配体构象。

高性能基准AME：首次发布包含41个真实催化位点的原子级支架基准，涵盖高难度多残基岛案例，可长期用于评测新模型。

五、意义与展望

理论层面：证明了深度生成模型可以直接从原子级的“化学意图”生成完整的蛋白-配体复合物，将酶设计从“拼接已有片段”转变为“自由探索化学空间”。

技术层面：RFdiffusion2可作为通用平台，用于金属蛋白设计、小分子结合蛋白、蛋白-蛋白界面改造等需要原子精度控制的任务。AME基准将推动AI酶设计的标准化评估。

转化层面：该方法能快速生成针对任意底物的水解酶、转移酶等，有望应用于生物修复（塑料降解）、生物催化（药物中间体）、生物传感等领域。未来结合DFT自动化计算过渡态，可实现全自动“机理→酶”设计流程。

文献来源：
Ahern W, Yim J, Tischer D, et al. Atom-level enzyme active site scaffolding using RFdiffusion2. Nat Methods. 2025. doi:10.1038/s41592-025-02975-x