乐于分享
好东西不私藏

AI 辅助蛋白设计常用软件

AI 辅助蛋白设计常用软件

AI 辅助蛋白设计常用软件

AI 蛋白设计通常由一条计算流水线完成,单个软件很少覆盖全部任务。常见流程是:目标定义 → 结构预测 → 骨架生成 → 序列设计 → 复合物建模 → 能量评估 → 人工检查 → 实验验证。

这些软件可粗略分成六类:结构预测模型用于判断序列或复合物可能形成什么结构;骨架生成模型用于从约束出发生成三维结构;序列设计模型用于给定结构反推序列;复合物与互作建模模型用于评估蛋白与蛋白、核酸、小分子或金属的空间关系;能量评估和结构优化工具用于筛除不稳定或界面不合理的候选;可视化工具用于人工检查结构化学合理性。

结构预测与复合物建模软件

AlphaFold2:成熟常用的深度学习结构预测模型,适合单蛋白结构预测、多聚体建模和设计序列回折验证。在流程中,它常位于序列设计之后,用于检查候选序列能否回到预期骨架。pLDDT 反映局部置信度,PAE 反映链间位置不确定性。

ColabFold:AlphaFold2 / AlphaFold2-Multimer 的轻量化快速使用方案,常用于教学、初学者练习、中小规模结构预测和设计序列回折验证。它降低了本地部署门槛,适合日常流程。ColabFold 主要用于快速预测和验证,结果仍需结合置信度判断。

AlphaFold3:新一代生物分子复合物结构预测模型,可处理蛋白、DNA、RNA、小分子、离子和修饰残基等对象。它适合关注蛋白-配体、蛋白-核酸和复杂生物分子体系的设计者,也可作为设计后交叉验证工具。AF3 结果不能等同于实验结构。

ESMFold:基于蛋白语言模型的快速结构预测工具,输入单条序列即可给出结构模型。它速度快,适合大规模序列初筛、宏基因组蛋白预测和低成本初评。对复杂复合物、精细界面、长无序区和低置信区域需要谨慎解释。

RoseTTAFold / RoseTTAFold All-Atom:RoseTTAFold 可用于蛋白结构预测和复合物建模;All-Atom 版本将对象扩展到蛋白、核酸、小分子、金属和共价修饰。All-Atom 属于新一代互作建模工具,适合作为蛋白-配体、蛋白-核酸和金属结合体系的补充工具。

Chai-1:开放的多模态生物分子结构预测模型,可处理蛋白、小分子、DNA、RNA 及其复合物。它适合作为 AlphaFold3 之外的开放模型选择,用于复合物预测、候选设计交叉验证和蛋白-配体建模。使用时应关注输入质量和模型置信度。

Boltz-1 / Boltz-2:Boltz-1 是开放的生物分子复合物结构预测模型,定位接近 AF3 类任务。Boltz-2 进一步关注结构预测和 binding affinity 相关建模,对药物发现、蛋白-配体设计和复合物排序有参考价值。affinity prediction 只能作为筛选指标。

蛋白骨架生成软件

RFdiffusion:成熟常用的蛋白骨架生成工具,可用于 de novo backbone design、motif scaffolding、binder backbone generation 和对称寡聚体设计。它通常位于序列设计之前:先生成三维结构框架,再交给 ProteinMPNN 等工具设计序列。

RFdiffusion2:新一代 enzyme scaffold 方向工具,重点在原子级酶活性位点 scaffold。它适合围绕 catalytic motif、theozyme、底物或辅因子的关键原子关系生成支撑结构。该工具适合酶设计任务,仍需结构预测、几何筛选和酶活验证。

RFdiffusion3:新一代 all-atom 生物分子互作设计工具,可在蛋白侧链、配体、核酸和其他非蛋白原子背景下生成结构。它适合蛋白-小分子、蛋白-核酸、蛋白-蛋白界面和酶活性位点任务,完整功能仍依赖后续验证。

序列设计软件

ProteinMPNN:根据给定蛋白骨架反推氨基酸序列的深度学习序列设计模型。它是成熟常用工具,常与 RFdiffusion 搭配:RFdiffusion 生成 backbone,ProteinMPNN 生成候选序列,随后用 AlphaFold2、ColabFold 或 ESMFold 检查回折。

LigandMPNN:在非蛋白原子环境下进行蛋白序列设计的模型,适合小分子、金属、核酸和辅因子附近的序列优化。它能利用配体或金属原子的空间与化学信息,常用于结合口袋、酶活性位点和核酸结合蛋白设计。

ESM-IF / inverse folding 类模型:Inverse folding:根据给定结构反推可能支撑该结构的氨基酸序列。ESM-IF1 这类模型适合序列候选生成、突变设计和结构约束下的序列优化,可作为 ProteinMPNN 的补充。

结合蛋白与小蛋白设计 pipeline

ColabDesign / AfDesign:基于 AlphaFold 反馈的可组合设计框架,可用于序列优化、protein hallucination、partial hallucination 和 binder design。它是成熟常用的探索工具,适合教学、快速原型和小规模设计。使用时需要理解目标函数、约束和筛选指标。

BindCraft:成熟常用的自动化 de novo binder design pipeline,主要面向蛋白-蛋白结合设计,尤其是小型 binder。它整合 AlphaFold2 反向优化、MPNN 和 PyRosetta 等步骤,从靶蛋白结构出发生成、优化和筛选候选 binder。候选仍需要实验验证。

ProteinDJ:新一代模块化蛋白设计 pipeline,面向高通量和自动化运行。它可串联 RFdiffusion 或 BindCraft、ProteinMPNN 或 FAMPNN、AlphaFold2 或 Boltz-2,并加入过滤和结果汇总。它适合批量 binder 设计和 HPC 环境,仍需更多实际任务验证。

物理建模、能量评估与结构优化工具

Rosetta:成熟常用的蛋白结构建模与设计套件,可用于能量评估、界面设计、酶设计、突变扫描、构象采样和结构优化。它在 AI 蛋白设计中常位于生成和预测之后,用于再筛选候选。Rosetta 能量分数不能直接代表实验活性。

PyRosetta:Rosetta 的 Python 接口,适合开发自定义蛋白设计流程、自动化筛选脚本和能量分析流程。许多 binder pipeline 会调用 PyRosetta 计算界面残基、clash、能量项或进行局部优化。

FoldX:用于蛋白稳定性、突变效应和 ΔΔG 估计的快速工具。它适合初筛突变对稳定性、折叠能或结合能的影响,也常用于比较单点突变和界面突变。FoldX 结果依赖结构质量,不能替代热稳定性或结合实验。

可视化与辅助分析软件

PyMOL:成熟常用的分子可视化软件,适合查看蛋白结构、展示结合界面、标注突变位点、检查氢键和疏水接触,并制作图片。它主要用于可视化和人工检查。

ChimeraX:结构可视化和结构分析软件,适合大型复合物、密度图、分子表面和高质量结构展示。它常用于检查多链复合物、蛋白-核酸复合物、Cryo-EM 密度图和复杂装配体。

Foldseek:成熟常用的蛋白结构相似性搜索工具,适合在大型结构库中快速寻找与候选设计相似的已知结构。它可辅助评估设计蛋白的新颖性,并帮助发现潜在功能相似结构。

一个典型 AI 蛋白设计流程示例

目标:设计一个靶蛋白小型 binder。

  1. 用 AlphaFold2 / ColabFold、AlphaFold3 或 RoseTTAFold 获得靶蛋白结构。
  2. 用 RFdiffusion 生成可能结合靶蛋白表面的 binder backbone。
  3. 用 ProteinMPNN 为 backbone 设计候选序列。
  4. 用 AlphaFold2-Multimer、AlphaFold3、Chai-1 或 Boltz 预测复合物。
  5. 用 Rosetta、PyRosetta 或 FoldX 做能量和界面筛选。
  6. 用 PyMOL 或 ChimeraX 检查界面、氢键、疏水接触和构象合理性。
  7. 用 Foldseek 检查结构相似性和新颖性。
  8. 选择少量候选进入合成、表达纯化和结合实验。

选择建议

  • 单蛋白结构预测:AlphaFold2 / ColabFold、ESMFold。
  • 蛋白复合物预测:AlphaFold2-Multimer、AlphaFold3、Chai-1、Boltz-1 / Boltz-2。
  • 蛋白-配体 / 蛋白-核酸复合物预测:AlphaFold3、Chai-1、Boltz-1 / Boltz-2、RoseTTAFold All-Atom。
  • 从零生成蛋白骨架:RFdiffusion。
  • 酶活性位点 scaffold:RFdiffusion2。
  • 原子级互作设计:RFdiffusion3、LigandMPNN、RoseTTAFold All-Atom。
  • 骨架到序列:ProteinMPNN。
  • 配体 / 金属 / 核酸环境下的序列设计:LigandMPNN。
  • binder 自动化设计:BindCraft、ColabDesign、RFdiffusion + ProteinMPNN。
  • 结构优化与能量评估:Rosetta、PyRosetta、FoldX。
  • 结构展示与人工检查:PyMOL、ChimeraX。
  • 结构相似性搜索:Foldseek。