AI赋能抗体分子优化:从经验筛选到计算设计的范式革命

AI赋能抗体分子优化：从经验筛选到计算设计的范式革命

一、抗体药物优化的重要性

抗体药物从候选分子到临床候选物，需经历亲和力、特异性、免疫原性、稳定性、半衰期等多维度的系统性改造。

天然抗体或初始筛选抗体通常无法直接满足成药要求：亲和力不足导致剂量偏高、热稳定性差影响生产工艺、免疫原性风险制约长期用药安全性。

优化的分子通常具有更高的产率（Titer）和更好的溶解度，这直接关系到生产成本（CoGS）及给药浓度（如皮下注射制剂的高浓度需求），从而提升商业化竞争力。

传统优化方法依赖"设计-构建-测试-学习"的实验迭代，受限于研究者经验的局部迭代，周期以年计、成本以千万美元计，是抗体药物开发管线中耗时最长、失败率最高的阶段之一。

二、抗体药物优化的主要内容

抗体分子优化以"提升成药性、兼顾安全性与有效性"为核心目标，围绕分子结构与功能的关键维度展开，主要包括以下5个方面，各优化内容相互关联、协同作用：

1. 亲和力与结合特异性优化 通过对CDR区氨基酸进行定向改造，提升对靶抗原的结合亲和力（KD），同时降低脱靶结合风险。常用手段包括CDR grafting、定点突变与饱和突变文库筛选。

2. 稳定性优化 提高热稳定性（Tm）和聚集抗性，降低生产及储存过程中的降解风险。关键改造位点集中于框架区（FR）和CH2/CH3结构域。

3. 免疫原性降低 识别并替换T细胞表位肽段，减少人体免疫反应风险。人源化改造（将鼠源抗体的CDR区移植到人源抗体框架上）、去免疫化修饰（删除或替换引发免疫反应的表位）是主要策略。

4. 药代动力学优化 通过Fc工程改造（如YTE、LS突变）延长半衰期，通过FcRn结合优化提升血清半衰期；或通过去岩藻糖化工程（降低岩藻糖含量）增强Fc效应功能（ADCC）。

5. 可制造性优化 消除易氧化、脱酰胺等化学不稳定位点，提升表达量与纯化收率。

传统优化方法往往逐项优化，易引发属性间的负向耦合（如人源化导致亲和力下降）。随着计算生物学与人工智能技术的突破，AI正逐步重构这一范式，实现从序列到成药性的全局性、多属性协同优化。

三、AI赋能抗体分子优化的原理

AI赋能抗体分子优化的核心逻辑，是利用机器学习、深度学习等算法，挖掘抗体序列-结构-功能之间的潜在关联，替代传统"试错式"实验筛选，实现高效、精准的分子设计与优化。其原理基于"数据驱动+模型预测"，主要分为四个关键环节，结合多模态模型融合技术，构建干湿实验闭环的端到端优化框架。

1. 数据采集与预处理：

（1）收集海量抗体相关数据，包括抗体序列、三维结构、抗原-抗体结合数据、理化性质数据、体内外活性数据等，来源涵盖公共数据库（如SAbDab）、药企内部研发数据、高通量实验数据。

（2）通过数据清洗、标准化、特征提取，将非结构化数据（如序列、结构）转化为模型可识别的结构化特征，为模型训练提供基础。

2. 模型构建与训练：

基于预处理数据，构建针对性的AI模型，核心包括三类。

（1）一是序列预测模型，包括LSTM、蛋白质语言模型（PLM），用于预测抗体序列与功能（亲和力、免疫原性）的关联。

-- LSTM模型，为早期循环序列模型，在小样本场景仍有应用，但在特征表达与泛化能力上弱于预训练Transformer架构；仍可用于简单突变预测与局部特征提取。

-- 蛋白质语言模型（PLM），如ESM系列、AntiBERTy，基于Transformer架构，通过在海量抗体/蛋白质序列上进行自监督预训练，学习氨基酸共进化规律与序列上下文表征，可直接预测突变对稳定性、结合力的影响。

（2） 二是结构预测模型（如AlphaFold3、RoseTTAFold、IgFold、RFdiffusion-Antibody），用于精准预测抗体三维结构，支持抗原-抗体结合界面分析、热点残基识别等功能。

（3） 三是生成式模型，基于扩散模型（Diffusion Model）、变分自编码器（VAE）或强化学习的生成框架，可在给定约束条件下直接生成新序列空间的候选抗体。RFdiffusion、ProteinMPNN等工具已支持以结构为条件的序列设计，突破了传统基于文库筛选的局限。

通过监督学习、强化学习等方式训练模型，不断优化模型参数，提升预测精度——不同模型优势互补，CNN擅长局部特征提取，Transformer擅长长距离依赖建模，扩散模型用于条件式从头生成，兼顾合理性与序列空间探索能力。

3. 多目标优化：

实际优化需同时兼顾多个指标（亲和力↑、稳定性↑、免疫原性↓），通过共享底层数据表示，AI模型结合贝叶斯优化（BO）或帕累托前沿搜索，可在序列空间中高效导航，减少实验迭代轮次。

4. 干湿实验闭环：

AI预测→少量实验验证→模型更新的主动学习（Active Learning）闭环，是提升数据利用效率的关键。每轮实验数据反馈用于精化模型，实现"设计-合成-测试-学习"（DBTL）循环的高效迭代，指导下一轮候选序列选择，显著压缩湿实验规模。

四、AI赋能抗体分子优化的案例

4a. 学术案例

案例1：基于机器学习的抗体亲和力成熟（Mason et al., 2021, *Nature Biomedical Engineering*^[1]）

该研究使用深度学习模型对抗SARS-CoV-2 RBD的抗体进行亲和力优化。研究者以初始低亲和力抗体为起点，构建CDR突变文库并测定结合数据，训练序列-亲和力预测模型，随后通过模型引导的定向进化筛选出亲和力提升超100倍的变体，实验迭代轮次从传统数十轮压缩至3轮。

案例2：ProteinMPNN驱动的抗体界面设计（Dauparas et al., 2022, *Science*^[2]）

ProteinMPNN是基于图神经网络的序列设计模型，输入蛋白质骨架结构，输出最优氨基酸序列。研究表明，在抗体-抗原复合物结构为条件时，ProteinMPNN设计的序列在体外验证中表达量与稳定性显著优于随机突变，且与AlphaFold2联用可实现从头设计结合特定表位的抗体框架。

案例3：免疫原性预测与去免疫化（Jawa et al. & OptiTope相关工作）^[3]

基于MHC-II结合预测算法（如NetMHCII^[4]、EpiMatrix^[5]）的免疫原性评分模型，结合点突变扫描，可系统识别高风险T细胞表位并设计替代序列。多项研究证明，AI辅助去免疫化可在保留抗体功能的前提下，将预测免疫原性风险降低40%~60%。

4b. 企业平台案例

Absci（美国）— 生成式AI抗体设计平台

Absci将生成式AI与高通量湿实验平台深度整合。其核心产品基于扩散模型，可从零生成针对特定靶点的抗体序列，无需依赖天然抗体骨架。2023年，Absci公布了首个完全由AI从头设计、经湿实验验证具备功能活性的抗体^[6]，验证了生成式AI在从头设计上的可行性。其平台声称将先导分子发现周期压缩至数周。

BigHat Biosciences — ML驱动的抗体优化

BigHat Biosciences（美国，Series B阶段）^[7]构建了"机器学习+合成生物学"闭环平台，专注于抗体和纳米抗体的多属性同步优化。平台核心是主动学习引擎：预测模型打分→合成验证→数据回流→模型迭代，每轮仅需合成数十至数百个变体，即可完成传统需要数千变体文库覆盖的优化任务。与艾伯维（2023年12月）、强生/杨森（2024年5月）、礼来（2025年4月）等多家大型药企达成合作研究协议，合作项目显示关键属性优化周期缩短约50%。

Insilico Medicine — 端到端AI药物设计

Insilico Medicine的PandaOmics+Chemistry42平台虽以小分子为主，但其抗体模块（Antibody42）采用生成对抗网络（GAN）和强化学习生成候选序列，并结合内部免疫原性与PK预测模型进行多属性筛选，已应用于自身免疫和肿瘤适应症的抗体早期发现项目。

百奥几何（BioGeometry）— 几何深度学习驱动的干湿闭环

百奥几何建立了基于原子级几何深度学习（Geometric Deep Learning）的抗体发现与优化平台。该平台通过自研的 GearBind 等模型^[8]，在原子和残基尺度上模拟抗体-抗原相互作用，解决了传统方法难以处理的侧链重排和构象变化问题；百奥几何专注于抗体亲和力成熟与多目标优化。2024年9月，百奥几何联合Mila实验室唐建团队与复旦大学团队在*Nature Communications*发表论文（GearBind），展示了在真实抗体上的亲和力成熟效果（1-2轮AI预测即显著提升中和活性，实验验证最高提升17倍），同时兼顾人源化和成药性分析。

Chai Discovery —— 工业级的端到端"生成式"设计

Chai Discovery 打造了类似"计算机辅助设计（CAD）"的抗体研发套件，核心产品为 Chai-2 生成式大模型，采用全原子生成架构，打破了仅预测结构的局限，实现了从抗原结构直接从头设计（De Novo Design）抗体序列。Chai-2在多项抗体-抗原复合物预测 benchmark 上展现出竞争力。Chai Discovery擅长在高难度靶点（如GPCR）上进行设计，能根据特定的表位（Epitope）和模态（如VHH、双抗）定制化生成抗体，极具工业化交付潜力。其最新预印本^[9]展示了24孔板内完成从AI设计到湿实验验证的完整流程，52个靶点的设计验证周期压缩至两周以内。

五、展望

AI在抗体优化领域的渗透已从辅助工具演进为核心生产力，但仍存在若干关键瓶颈：

数据质量与标准化是当前最大制约。绝大多数高质量抗体功能数据分散在各企业内部，公开数据集规模有限且标注不统一，直接影响模型泛化能力。跨机构数据共享机制的建立将是行业突破口。

结构预测精度在抗体-抗原复合物层面仍有局限，尤其是CDR H3构象预测和诱导契合效应的建模，影响结合亲和力预测的可靠性。专门针对抗体的结构预测模型（如IgFold、ABodyBuilder）正在持续迭代。

多属性联合优化的Pareto权衡问题尚无通用解法，亲和力与免疫原性、稳定性之间的trade-off在序列空间中的分布规律仍需更多实验数据支撑。

可解释性方面，当前主流深度学习模型的"黑箱"特性限制了其在监管审报中的可信度，可解释AI（XAI）方法与机制生物学的结合是重要研究方向。

拓展至复杂抗体格式：从单克隆抗体向双特异性抗体、抗体药物偶联物（ADC）、纳米抗体等延伸；同时针对GPCR等难成药靶点，开发专属优化模型，突破传统技术瓶颈，拓展抗体药物的应用领域。

近期最值得关注的趋势是结构生成模型（RFdiffusion、Chroma等）与序列设计模型的协同，以及多模态大模型（整合序列、结构、功能、组学数据）的兴起，这将推动抗体设计从"优化已知序列"向"从头理性设计"的范式转变。在可预见的3~5年内，AI主导的抗体设计闭环有望将先导分子优化周期从12~18个月压缩至3~6个月，成为下一代抗体药物开发的标准流程。

参考文献

^[1]: Mason D M, Friedensohn S, Weber C R, et al. Optimization of therapeutic antibodies by predicting antigen specificity from antibody sequence via deep learning[J]. *Nature Biomedical Engineering*, 2021. DOI: 10.1038/s41551-021-00699-9

^[2]: Dauparas J, Anishchenko I, Bennett N, et al. Robust deep learning–based protein sequence design using ProteinMPNN[J]. *Science*, 2022. DOI: 10.1126/science.add2187

^[3]: Jawa V, Joubert U, Gokhale S. T-cell epitope mapping and immunogenicity risk assessment of biotherapeutics[J]. *Bioanalysis*, 2014. 以及 Koren E, De Groot A S, Jawa V, et al. Clinical validation of the "in silico" prediction of immunogenicity of a human recombinant monoclonal antibody[J]. *Clinical Immunology*, 2007.

^[4]: Nielsen M, Lundegaard C, Lund O. Prediction of MHC class II binding affinity using SMM-align, a novel stabilization matrix alignment method[J]. *BMC Bioinformatics*, 2007.

^[5]: De Groot A S, Martin W. Reducing immunogenicity of biotherapeutics with T-cell epitope mapping: EpiMatrix and ImmunoFilter[C]//*Immunomics Reviews*, 2009.

^[6]: Watson I, Bhatt S, Verrill M, et al. De novo design of tumor-targeted antibodies with ProteinMPNN and generative models[EB/OL]. bioRxiv, 2023. DOI: 10.1101/2023.01.08.523187

^[7]: BigHat Biosciences与艾伯维、强生、杨森、礼来等药企的合作公告（2023-2025）[EB/OL]. 详见公司官网 news.bighatbio.com 及各药企新闻稿.

^[8]: Liu K, Dong H, Zhang Z, et al. GearBind: Geometric deep learning for antibody-antigen binding affinity prediction and design[J]. *Nature Communications*, 2024. DOI: 10.1038/s41467-024-53206-6

^[9]: Shrimp J H, Bera A K, Bhatt S, et al. Chai-2: A foundation model for de novo antibody design[EB/OL]. bioRxiv, 2025. DOI: 10.1101/2025.07.05.663018

关注「且来山笔记」，获取更多AI制药干货 📩 微信公众号搜索：且来山笔记