乐于分享
好东西不私藏

AI 驱动的抗体设计工作流

AI 驱动的抗体设计工作流

导语

我整理了 10 篇有关抗体设计的文章,1 篇综述 9 篇单独的设计,整理出了抗体设计流程,补充了我抗体设计领域的一些不足。文章 4 个部分,1:设计流程 2:一些经验 3:遇到的坑 4:一些指标,最后把涉及的论文标题及网址罗列下。


设计流程

1. 输入阶段 (Input Phase):靶点定义与初始数据采集

该阶段的核心是获取靶点(抗原)信息并对抗体序列进行初步处理。

  • • 靶点结构获取:利用 PDB 数据库或 ESMFold 预测抗原 3D 结构。
  • • 序列注释:使用 ANARCI 对抗体可变区进行编号,区分框架区 (FR) 和互补决定区 (CDR)。
  • • 候选来源:从 OAS、SAbDab 数据库或免疫库中提取已知序列。
  • • 论文独特方法:
    • ◦ Galindo et al. (SNV 研究):强调在输入端评估靶点表位中的单核苷酸变异 (SNV),利用 AlphaMissense 识别可能导致抗体药物产生抗药性的潜在位点。
    • ◦ Chungyoun et al. (FLAb2 基准):提出在输入端必须考虑生殖系编辑距离 (Germline distance),以修正 AI 模型因学习进化信号而产生的预测偏差。

2. 核心设计策略 (Core Design Strategy):多样性生成

这一阶段通过各种 AI 算法生成抗体候选分子或优化现有骨架。

  • • 从头生成 (De novo):利用扩散模型(如 RFdiffusion)生成新的 CDR 循环或骨架结构。
  • • 序列再设计:使用 ProteinMPNN 进行固定骨架的氨基酸序列优化,以提高稳定性和溶解度。
  • • 语言模型辅助:利用 IgLM 或 ProGen2 等抗体/蛋白质专用语言模型预测高概率序列。
  • • 论文独特方法:
    • ◦ Evers et al. (“Germinal”):将 AlphaFold-Multimer 与 IgLM 结合,在生成过程中引入自定义损失函数,实现结构与序列的同步优化。
    • ◦ Galindo et al. (胞内抗体):在 ProteinMPNN 设计中采用局部固定策略,仅优化框架区,而固定 CDR 及其周围 3 Å 范围内的残基,以在改善胞内折叠的同时保留结合力。

3. 筛选与优化 (Screening & Optimization):性能预测

利用计算指标在进入实验前压缩搜索空间。

  • • 置信度筛选:依据 AlphaFold2/3 的 pLDDT 或 pTM 评分剔除物理上不可行的设计。
  • • 可开发性评估 (Developability):通过计算等电点 (pI)、表面电荷和疏水性评估聚集风险。
  • • 物理驱动评分:利用 Rosetta (ddG) 或 FoldX 预测突变对亲和力的影响。
  • • 论文独特方法:
    • ◦ Siegmund et al. (pI 对齐策略):提出针对多特异性抗体,将 Fab 和 VHH 域的 pI 值调整至 7.5–9.0 范围内,以显著提高胶体稳定性和降低粘度。
    • ◦ Ausserwöger et al. (TAP 指标):引入“治疗性抗体分析器 (TAP)”准则,特别关注 3-4 个大体积疏水残基构成的表面补丁,这是预测非特异性结合的关键经验法则。
    • ◦ Abanades et al. (ImmuneBuilder):在预测结构的同时提供残基级误差估计 (pRMSD),作为筛选高可信度构象的滤网。

4. 验证环节 (Validation):实验确认与闭环

通过物理化学和生物学实验确认设计分子的功能。

  • • 结合亲和力测定:通过 SPR 或 BLI 测定 KDK_DKD 值。
  • • 热稳定性评估:使用 nanoDSF 或 DSC 测量熔解温度 (TmT_mTm)。
  • • 显示技术:利用酵母表面展示 (YSD) 进行快速筛选。
  • • 论文独特方法:
    • ◦ Sun et al. (DSA 域特异性分析):针对 TAK-186 等多结构域药物,开发了域特异性竞争 assay,通过监测抗药物抗体 (ADA) 对不同域的抑制率,精确定位免疫原性位点。
    • ◦ Grevys et al. (HERA 细胞分析):引入人类内皮细胞回收检测 (HERA),直接模拟 FcRn 介导的循环回收,用于评估变异序列对体内半衰期的影响。
    • ◦ Galindo et al. (活细胞共定位 + FRAP):直接在活细胞内观察 intrabody 的共定位情况,并结合光漂白恢复 (FRAP) 技术在真实生理环境下测量结合动力学。

一些经验

1. 序列设计与结构约束法则

  • • CDR 长度控制:互补决定区(CDR)的长度是构象柔性的关键决定因素。较长的 CDR 循环通常与更高的构象柔性相关,这可能导致抗体具有更高的结合多特异性(Promiscuity)和脱靶结合风险。
  • • 表面补丁 (Surface Patches) 大小:仅需 3 到 4 个连续的大体积疏水或芳香族残基(如 W, Y, F, L, I)组成的表面补丁,就足以诱导抗体的非特异性结合。
  • • VHH 特有的非规范二硫键:超过 25% 的 VHH 序列含有非规范二硫键,这些键通常将 CDR3 连接到框架区。在设计或人源化时,必须保留参与这些二硫键的半胱氨酸,以维持 CDR3 的结构稳定性。

2. 改造与回补突变 (Back-mutation) 策略

  • • VHH 人源化“低风险”策略:在将 CDR 移植到人类支架时,为了保持亲和力,建议采取以下回补突变准则:
    • ◦ 回补突变关键的 Vernier 区和 Hallmark 位置(IMGT 编号的第 42, 49, 50, 52 位)。
    • ◦ 保留所有与 CDR3 形成非规范二硫键的半胱氨酸。
  • • 电荷中和法:在可变区引入负电荷突变以中和或降低整体 pI 值,已被证明是增加抗体体内半衰期的有效手段。

3. 生物物理与可开发性阈值

  • • 等电点 (pI) 对齐法则:对于多特异性抗体(如 IgG1-VHH 格式),建议将所有可变域(Fab 和 VHH)的 pI 值调整在 7.5 至 9.0 之间。这种弱碱性范围可以减少酸性配方中的电荷吸引,从而提高胶体稳定性并降低粘度。
  • • 热稳定性基准线:在可开发性筛选中,通常设定 onset>50 和 m1>55C 作为合格候选分子的基准线。
  • • 结合能变化阈值:使用 FoldX 等工具评估突变影响时,通常采用 ΔΔG>1 kcal/mol 作为判断突变是否显著降低结合能的切断值。

4. AI 模型微调与运行经验

  • • ProteinMPNN 关键残基固定范围:在重新设计胞内抗体支架时,经验法则指出必须固定 CDR 及其周围 3 Å 范围内的框架残基。若固定范围设为 0 Å,则实验成功率为零;若设为 5 Å,则保留了过多原始残基,优化空间不足。
  • • ProteinMPNN 运行参数设置:针对抗体优化,推荐的通用设置为:采样温度 (Sampling Temperature) = 0.1骨架噪声 (Backbone Noise) = 0.02,序列生成数量通常设为 15 条。
  • • 微调数据量规则:大规模基准测试(FLAb2)显示:
    • ◦ 当实验数据 < 300 条时,建议使用大型预训练模型(如 billion-parameter models)的嵌入向量进行下游预测。
    • ◦ 当实验数据 > 1000 条时,简单的 One-hot 编码模型性能即可与复杂的预训练大模型持平。
  • • 结构预测误差过滤:在 ABodyBuilder2 等模型中,可以利用多个预测构象的根均方预测误差 (RMSPE) 作为滤网。设定约 1 Å 的截断值可以有效剔除结构建模不准确的候选者。
  • • 扩散模型 (Diffusion) 损失函数经验:在 de novo 设计中,通过引入自定义损失函数,激励模型生成非结构化的 CDR 循环,而非扩散模型容易产生的 alpha 螺旋,这对抗体功能至关重要。

遇到的坑

1. 结构预测的“坑”:CDR-H3 的不确定性与物理畸变

  • • 设计难点与失败案例
    • ◦ CDR-H3 预测精度极低:几乎所有模型在预测 CDR-H3 环时的均方根偏差(RMSD)显著高于其他区域。即使是先进的模型也难以准确捕捉其高柔性和极端多样性。
    • ◦ 物理不可能性(Physical Implausibility):深度学习模型生成的结构常出现原子严重碰撞(Clashes)非物理键长顺式肽键(Cis-peptide bonds)。例如,IgFold 在精修后仍可能产生大量顺式肽键。
  • • 人工经验修正
    • ◦ 强制物理约束精修:引入 OpenMM 或 Rosetta 进行能量最小化和限制性精修,以纠正模型输出的立体化学错误。
    • ◦ 集成预测与误差过滤:通过生成结构系综(Ensemble),利用预测误差估计(如 pRMSD)作为滤网。作者建议设定约 1 Å 的截断值,剔除结构不稳定的设计。

2. 性能评估的“坑”:高置信度 (pLDDT) 不等于功能成功

  • • 设计难点与失败案例
    • ◦ “置信度陷阱”:在胞内抗体(Intrabodies)设计中,作者发现某些候选者尽管 AlphaFold2 的 pLDDT 评分极高(>90),但在活细胞实验中却表现为严重聚集或完全不结合。
    • ◦ 环境敏感性失效:模型通常基于静态结构预测,忽略了胞内还原性环境对折叠和溶解度的影响。
  • • 人工经验修正
    • ◦ 关键残基固定策略:在使用 ProteinMPNN 重新设计骨架时,经验法则指出必须固定 CDR 及其周围 3 Å 范围内的框架残基。若固定范围设为 0 Å,实验成功率为零。
    • ◦ 算法偏见屏蔽:ProteinMPNN 存在明显的**“赖氨酸偏向(Lysine bias)”**,倾向于将 Q/R/S/T 突变为 Lys (K)。作者建议根据具体的结构上下文评估这些突变,而非盲目接受模型输出。

3. 可开发性的“粘性”陷阱:非特异性结合的误导

  • • 设计难点与失败案例
    • ◦ 净电荷的误导性:抗体可能拥有理想的等电点(pI)或净电荷,但表面存在的**局部电荷/疏水补丁(Surface Patches)**会导致其非特异性结合(“粘性”问题)。
    • ◦ 失败案例 MEDI1912:因 CDRH1 中存在由 Trp30、Phe31 和 Leu56 组成的疏水补丁,导致体内清除极快且粘度极高。
  • • 人工经验修正
    • ◦ 补丁破坏策略(Patch Disruption):不改变整体 pI,而是通过人工点突变将补丁中的疏水氨基酸改为极性氨基酸。
    • ◦ 电荷/空间屏蔽:在补丁附近引入相反电荷的氨基酸或引入 N-糖苷化位点,利用糖链遮盖有害表面。

4. 数据偏见的“坑”:生殖系偏见 (Germline Bias)

  • • 设计难点与模型失效
    • ◦ 进化信号优于物理信号:大规模基准测试(FLAb2)显示,当前的 AI 模型在预测药代动力学(PK)和免疫原性方面表现极差(80% 的数据集无相关性)。
    • ◦ 失效原因:预训练模型学习到的是序列距离生殖系的远近(Germline distance),而非真实的生物物理规律。模型往往给“更像天然”的序列打高分,从而忽略了决定功能的关键突变。
  • • 人工经验修正
    • ◦ 引入物理基准线:在评估时手动结合电荷计算(BioPython Charge)等物理参数,因为物理模型在预测聚集和 PK 方面往往比大型预训练模型更可靠。
    • ◦ 纠正偏见评估:在验证模型性能时,必须使用偏相关分析(Partial correlation)扣除生殖系距离的影响,以看清模型是否真正学到了生物物理特性。

一些指标

亲和力(Affinity)预测主要指标
可开发性(Developability)评估指标
1
实验验证的 KDK_DKD(SPR/BLI)、设计成功率
热稳定性(Tm)、表达量、溶解性、免疫原性评估
2
抗体-抗原复合物结构预测、低纳摩尔亲和力
等电点(pI)对齐策略

、电荷分布、表面疏水性、化学稳定性
3
线性肽扫描结合强度、B 细胞表位评分 (BepiPred/SEMA)
域特异性分析 (DSA)

、ADA 表位景观、免疫原性风险
4
实验测定的结合亲和力
扩散相互作用参数 (kDk_DkD)

、粘度 (Viscosity)、Tm/Tonset、HIC 留存时间
5
靶点特异性识别(锁钥模型)
表面补丁指标 (TAP guidelines)

:疏水补丁、电荷补丁、CDR 长度、电荷不对称性
6 KDK_DKD

 (SPR/MST)、pH 敏感性结合
净电荷预测、等电点、FcRn 结合动力学与体内半衰期
7 结合能变化 (ΔΔG)

、AlphaMissense 突变影响评分
抗原/复合物结构稳定性评估
8 KDK_DKD (SPR/BLI)、模型困惑度 (Perplexity) AC-SINS 聚合评分

、体内清除率 (PK)、CIC 留存时间(多反应性)、ADA 响应率
9
结构精度 (RMSD)、侧链扭转角精度
残基级误差估计 (pRMSD)

、相对溶剂可及性
10
活细胞共定位比例、FRAP 结合动力学
pLDDT (置信度)

、pTM/PAE 评分、溶解性加权指数 (SWI)、预测 pKapKapKa

文章列表

  1. 1. Closing the loop: Experimentally validated methods in artificial intelligence–driven protein designhttps://doi.org/10.1016/j.sbi.2026.103272
  2. 2. From discovery to the clinic: structural insights, engineering options, clinical, and ‘next wave’ applications of camelid-derived single-domain antibodieshttps://doi.org/10.1080/19420862.2025.2583210
  3. 3. Heterogeneous and evolving epitope landscape of clinical anti-drug antibodies against multidomain biotherapeutic: a case study of TAK-186https://doi.org/10.1080/19420862.2025.2587584
  4. 4. Optimizing colloidal stability and viscosity of multispecific antibodies at the drug discovery-development interface: a systematic predictive case studyhttps://pmc.ncbi.nlm.nih.gov/articles/PMC12407640/
  5. 5. Non-specificity as the sticky problem in therapeutic antibody developmenthttps://doi.org/10.1038/s41570-022-00438-x](https://doi.org/10.1038/s41570-022-00438-x
  6. 6. Antibody variable sequences have a pronounced effect on cellular transport and plasma half-lifehttps://doi.org/10.1016/j.isci.2022.103746
  7. 7. Single-amino acid variants in target epitopes can confer resistance to antibody-based therapieshttps://doi.org/10.1126/scitranslmed.ady4877
  8. 8. Fitness Landscape for Antibodies 2: Benchmarking Reveals That Protein AI Models Cannot Yet Consistently Predict Developability Propertieshttps://pmc.ncbi.nlm.nih.gov/articles/PMC12767642
  9. 9. ImmuneBuilder: Deep-Learning models for predicting the structures of immune proteinshttps://doi.org/10.1038/s42003-023-04927-7
  10. 10. AI-assisted protein design to rapidly convert antibody sequences to intrabodies targeting diverse peptides and histone modificationshttps://pmc.ncbi.nlm.nih.gov/articles/PMC12758555