AI 驱动的抗体设计工作流
导语
我整理了 10 篇有关抗体设计的文章,1 篇综述 9 篇单独的设计,整理出了抗体设计流程,补充了我抗体设计领域的一些不足。文章 4 个部分,1:设计流程 2:一些经验 3:遇到的坑 4:一些指标,最后把涉及的论文标题及网址罗列下。
设计流程

1. 输入阶段 (Input Phase):靶点定义与初始数据采集
该阶段的核心是获取靶点(抗原)信息并对抗体序列进行初步处理。
-
• 靶点结构获取:利用 PDB 数据库或 ESMFold 预测抗原 3D 结构。 -
• 序列注释:使用 ANARCI 对抗体可变区进行编号,区分框架区 (FR) 和互补决定区 (CDR)。 -
• 候选来源:从 OAS、SAbDab 数据库或免疫库中提取已知序列。 -
• 论文独特方法: -
◦ Galindo et al. (SNV 研究):强调在输入端评估靶点表位中的单核苷酸变异 (SNV),利用 AlphaMissense 识别可能导致抗体药物产生抗药性的潜在位点。 -
◦ Chungyoun et al. (FLAb2 基准):提出在输入端必须考虑生殖系编辑距离 (Germline distance),以修正 AI 模型因学习进化信号而产生的预测偏差。
2. 核心设计策略 (Core Design Strategy):多样性生成
这一阶段通过各种 AI 算法生成抗体候选分子或优化现有骨架。
-
• 从头生成 (De novo):利用扩散模型(如 RFdiffusion)生成新的 CDR 循环或骨架结构。 -
• 序列再设计:使用 ProteinMPNN 进行固定骨架的氨基酸序列优化,以提高稳定性和溶解度。 -
• 语言模型辅助:利用 IgLM 或 ProGen2 等抗体/蛋白质专用语言模型预测高概率序列。 -
• 论文独特方法: -
◦ Evers et al. (“Germinal”):将 AlphaFold-Multimer 与 IgLM 结合,在生成过程中引入自定义损失函数,实现结构与序列的同步优化。 -
◦ Galindo et al. (胞内抗体):在 ProteinMPNN 设计中采用局部固定策略,仅优化框架区,而固定 CDR 及其周围 3 Å 范围内的残基,以在改善胞内折叠的同时保留结合力。
3. 筛选与优化 (Screening & Optimization):性能预测
利用计算指标在进入实验前压缩搜索空间。
-
• 置信度筛选:依据 AlphaFold2/3 的 pLDDT 或 pTM 评分剔除物理上不可行的设计。 -
• 可开发性评估 (Developability):通过计算等电点 (pI)、表面电荷和疏水性评估聚集风险。 -
• 物理驱动评分:利用 Rosetta (ddG) 或 FoldX 预测突变对亲和力的影响。 -
• 论文独特方法: -
◦ Siegmund et al. (pI 对齐策略):提出针对多特异性抗体,将 Fab 和 VHH 域的 pI 值调整至 7.5–9.0 范围内,以显著提高胶体稳定性和降低粘度。 -
◦ Ausserwöger et al. (TAP 指标):引入“治疗性抗体分析器 (TAP)”准则,特别关注 3-4 个大体积疏水残基构成的表面补丁,这是预测非特异性结合的关键经验法则。 -
◦ Abanades et al. (ImmuneBuilder):在预测结构的同时提供残基级误差估计 (pRMSD),作为筛选高可信度构象的滤网。
4. 验证环节 (Validation):实验确认与闭环
通过物理化学和生物学实验确认设计分子的功能。
-
• 结合亲和力测定:通过 SPR 或 BLI 测定 K_DKD 值。K D -
• 热稳定性评估:使用 nanoDSF 或 DSC 测量熔解温度 ( T_mTm)。T m -
• 显示技术:利用酵母表面展示 (YSD) 进行快速筛选。 -
• 论文独特方法: -
◦ Sun et al. (DSA 域特异性分析):针对 TAK-186 等多结构域药物,开发了域特异性竞争 assay,通过监测抗药物抗体 (ADA) 对不同域的抑制率,精确定位免疫原性位点。 -
◦ Grevys et al. (HERA 细胞分析):引入人类内皮细胞回收检测 (HERA),直接模拟 FcRn 介导的循环回收,用于评估变异序列对体内半衰期的影响。 -
◦ Galindo et al. (活细胞共定位 + FRAP):直接在活细胞内观察 intrabody 的共定位情况,并结合光漂白恢复 (FRAP) 技术在真实生理环境下测量结合动力学。
一些经验
1. 序列设计与结构约束法则
-
• CDR 长度控制:互补决定区(CDR)的长度是构象柔性的关键决定因素。较长的 CDR 循环通常与更高的构象柔性相关,这可能导致抗体具有更高的结合多特异性(Promiscuity)和脱靶结合风险。 -
• 表面补丁 (Surface Patches) 大小:仅需 3 到 4 个连续的大体积疏水或芳香族残基(如 W, Y, F, L, I)组成的表面补丁,就足以诱导抗体的非特异性结合。 -
• VHH 特有的非规范二硫键:超过 25% 的 VHH 序列含有非规范二硫键,这些键通常将 CDR3 连接到框架区。在设计或人源化时,必须保留参与这些二硫键的半胱氨酸,以维持 CDR3 的结构稳定性。
2. 改造与回补突变 (Back-mutation) 策略
-
• VHH 人源化“低风险”策略:在将 CDR 移植到人类支架时,为了保持亲和力,建议采取以下回补突变准则: -
◦ 回补突变关键的 Vernier 区和 Hallmark 位置(IMGT 编号的第 42, 49, 50, 52 位)。 -
◦ 保留所有与 CDR3 形成非规范二硫键的半胱氨酸。 -
• 电荷中和法:在可变区引入负电荷突变以中和或降低整体 pI 值,已被证明是增加抗体体内半衰期的有效手段。
3. 生物物理与可开发性阈值
-
• 等电点 (pI) 对齐法则:对于多特异性抗体(如 IgG1-VHH 格式),建议将所有可变域(Fab 和 VHH)的 pI 值调整在 7.5 至 9.0 之间。这种弱碱性范围可以减少酸性配方中的电荷吸引,从而提高胶体稳定性并降低粘度。 -
• 热稳定性基准线:在可开发性筛选中,通常设定 和o n s e t > 50 ∘ C 作为合格候选分子的基准线。m 1 > 55 ∘ C -
• 结合能变化阈值:使用 FoldX 等工具评估突变影响时,通常采用 ΔΔG>1 kcal/mol 作为判断突变是否显著降低结合能的切断值。
4. AI 模型微调与运行经验
-
• ProteinMPNN 关键残基固定范围:在重新设计胞内抗体支架时,经验法则指出必须固定 CDR 及其周围 3 Å 范围内的框架残基。若固定范围设为 0 Å,则实验成功率为零;若设为 5 Å,则保留了过多原始残基,优化空间不足。 -
• ProteinMPNN 运行参数设置:针对抗体优化,推荐的通用设置为:采样温度 (Sampling Temperature) = 0.1,骨架噪声 (Backbone Noise) = 0.02,序列生成数量通常设为 15 条。 -
• 微调数据量规则:大规模基准测试(FLAb2)显示: -
◦ 当实验数据 < 300 条时,建议使用大型预训练模型(如 billion-parameter models)的嵌入向量进行下游预测。 -
◦ 当实验数据 > 1000 条时,简单的 One-hot 编码模型性能即可与复杂的预训练大模型持平。 -
• 结构预测误差过滤:在 ABodyBuilder2 等模型中,可以利用多个预测构象的根均方预测误差 (RMSPE) 作为滤网。设定约 1 Å 的截断值可以有效剔除结构建模不准确的候选者。 -
• 扩散模型 (Diffusion) 损失函数经验:在 de novo 设计中,通过引入自定义损失函数,激励模型生成非结构化的 CDR 循环,而非扩散模型容易产生的 alpha 螺旋,这对抗体功能至关重要。
遇到的坑
1. 结构预测的“坑”:CDR-H3 的不确定性与物理畸变
-
• 设计难点与失败案例: -
◦ CDR-H3 预测精度极低:几乎所有模型在预测 CDR-H3 环时的均方根偏差(RMSD)显著高于其他区域。即使是先进的模型也难以准确捕捉其高柔性和极端多样性。 -
◦ 物理不可能性(Physical Implausibility):深度学习模型生成的结构常出现原子严重碰撞(Clashes)、非物理键长或顺式肽键(Cis-peptide bonds)。例如,IgFold 在精修后仍可能产生大量顺式肽键。 -
• 人工经验修正: -
◦ 强制物理约束精修:引入 OpenMM 或 Rosetta 进行能量最小化和限制性精修,以纠正模型输出的立体化学错误。 -
◦ 集成预测与误差过滤:通过生成结构系综(Ensemble),利用预测误差估计(如 pRMSD)作为滤网。作者建议设定约 1 Å 的截断值,剔除结构不稳定的设计。
2. 性能评估的“坑”:高置信度 (pLDDT) 不等于功能成功
-
• 设计难点与失败案例: -
◦ “置信度陷阱”:在胞内抗体(Intrabodies)设计中,作者发现某些候选者尽管 AlphaFold2 的 pLDDT 评分极高(>90),但在活细胞实验中却表现为严重聚集或完全不结合。 -
◦ 环境敏感性失效:模型通常基于静态结构预测,忽略了胞内还原性环境对折叠和溶解度的影响。 -
• 人工经验修正: -
◦ 关键残基固定策略:在使用 ProteinMPNN 重新设计骨架时,经验法则指出必须固定 CDR 及其周围 3 Å 范围内的框架残基。若固定范围设为 0 Å,实验成功率为零。 -
◦ 算法偏见屏蔽:ProteinMPNN 存在明显的**“赖氨酸偏向(Lysine bias)”**,倾向于将 Q/R/S/T 突变为 Lys (K)。作者建议根据具体的结构上下文评估这些突变,而非盲目接受模型输出。
3. 可开发性的“粘性”陷阱:非特异性结合的误导
-
• 设计难点与失败案例: -
◦ 净电荷的误导性:抗体可能拥有理想的等电点(pI)或净电荷,但表面存在的**局部电荷/疏水补丁(Surface Patches)**会导致其非特异性结合(“粘性”问题)。 -
◦ 失败案例 MEDI1912:因 CDRH1 中存在由 Trp30、Phe31 和 Leu56 组成的疏水补丁,导致体内清除极快且粘度极高。 -
• 人工经验修正: -
◦ 补丁破坏策略(Patch Disruption):不改变整体 pI,而是通过人工点突变将补丁中的疏水氨基酸改为极性氨基酸。 -
◦ 电荷/空间屏蔽:在补丁附近引入相反电荷的氨基酸或引入 N-糖苷化位点,利用糖链遮盖有害表面。
4. 数据偏见的“坑”:生殖系偏见 (Germline Bias)
-
• 设计难点与模型失效: -
◦ 进化信号优于物理信号:大规模基准测试(FLAb2)显示,当前的 AI 模型在预测药代动力学(PK)和免疫原性方面表现极差(80% 的数据集无相关性)。 -
◦ 失效原因:预训练模型学习到的是序列距离生殖系的远近(Germline distance),而非真实的生物物理规律。模型往往给“更像天然”的序列打高分,从而忽略了决定功能的关键突变。 -
• 人工经验修正: -
◦ 引入物理基准线:在评估时手动结合电荷计算(BioPython Charge)等物理参数,因为物理模型在预测聚集和 PK 方面往往比大型预训练模型更可靠。 -
◦ 纠正偏见评估:在验证模型性能时,必须使用偏相关分析(Partial correlation)扣除生殖系距离的影响,以看清模型是否真正学到了生物物理特性。
一些指标
|
|
|
|
|---|---|---|
| 1 |
|
|
| 2 |
|
等电点(pI)对齐策略
|
| 3 |
|
域特异性分析 (DSA)
|
| 4 |
|
扩散相互作用参数 ( |
| 5 |
|
表面补丁指标 (TAP guidelines)
|
| 6 |
|
|
| 7 | 结合能变化 ( |
|
| 8 | AC-SINS 聚合评分
|
|
| 9 |
|
残基级误差估计 (pRMSD)
|
| 10 |
|
pLDDT (置信度)
|
文章列表
-
1. Closing the loop: Experimentally validated methods in artificial intelligence–driven protein designhttps://doi.org/10.1016/j.sbi.2026.103272 -
2. From discovery to the clinic: structural insights, engineering options, clinical, and ‘next wave’ applications of camelid-derived single-domain antibodieshttps://doi.org/10.1080/19420862.2025.2583210 -
3. Heterogeneous and evolving epitope landscape of clinical anti-drug antibodies against multidomain biotherapeutic: a case study of TAK-186https://doi.org/10.1080/19420862.2025.2587584 -
4. Optimizing colloidal stability and viscosity of multispecific antibodies at the drug discovery-development interface: a systematic predictive case studyhttps://pmc.ncbi.nlm.nih.gov/articles/PMC12407640/ -
5. Non-specificity as the sticky problem in therapeutic antibody developmenthttps://doi.org/10.1038/s41570-022-00438-x](https://doi.org/10.1038/s41570-022-00438-x -
6. Antibody variable sequences have a pronounced effect on cellular transport and plasma half-lifehttps://doi.org/10.1016/j.isci.2022.103746 -
7. Single-amino acid variants in target epitopes can confer resistance to antibody-based therapieshttps://doi.org/10.1126/scitranslmed.ady4877 -
8. Fitness Landscape for Antibodies 2: Benchmarking Reveals That Protein AI Models Cannot Yet Consistently Predict Developability Propertieshttps://pmc.ncbi.nlm.nih.gov/articles/PMC12767642 -
9. ImmuneBuilder: Deep-Learning models for predicting the structures of immune proteinshttps://doi.org/10.1038/s42003-023-04927-7 -
10. AI-assisted protein design to rapidly convert antibody sequences to intrabodies targeting diverse peptides and histone modificationshttps://pmc.ncbi.nlm.nih.gov/articles/PMC12758555 
夜雨聆风