用了40年的抗体规范聚类,终于被这个AI工具突破了局限-夜雨聆风

用了40年的抗体规范聚类,终于被这个AI工具突破了局限

摘要：这两天啃完了基因泰克和哈佛团队刚发在mAbs上的最新研究，说实话，做了这么多年抗体研发，我很少见能把经典理论和大模型工具结合得这么落地的工作。他们做了个叫Igloo的抗体环多模态tokenizer，直接解决了困扰行业几十年的CDR环表征难题——覆盖度不够、没法对接蛋白大模型。从环结构检索、亲和力预测，到抗体序列设计、先导文库筛选，全链路都跑出了SOTA结果，做抗体药、蛋白设计的朋友，这篇绝对值得沉下心看。

做抗体的，谁没被CDR环的表征难哭过？

抗体的核心，是互补决定区CDR。这些柔性环结构，直接决定了抗原结合的特异性，也是抗体药设计的核心靶点。

经典的规范构象聚类，从Chothia时代用到现在，快40年了。但覆盖度一直是硬伤，光是多样性最高的H3环，就有76.3%的序列找不到对应聚类。

更麻烦的是，这些聚类结果，根本没法直接塞进现在的蛋白语言模型里。等于我们手里攒了几十年的结构数据，根本喂不进大模型。

Igloo，到底是个什么样的工具？

这次团队做的Igloo，全称是免疫球蛋白环tokenizer。它不走氨基酸级别的token化老路，直接在环亚结构层面做编码。

它的输入，是每个氨基酸的骨架二面角φ、ψ、ω，还有对应的氨基酸序列，是真正的多模态编码。

图1 抗体环骨架二面角示意图

二面角先转成单位圆坐标，和序列编码的embedding加和，完成多模态融合，再用Transformer架构学习整个环的整体表征。

它的核心训练逻辑，是用对比学习，让结构相似的环，在隐空间里靠得更近。训练用了80多万条轻重链的环结构，有实验解析的，也有靠谱的预测结构。

图2 Igloo核心架构与隐空间设计

训练用了三个核心目标，多模态掩码重建、骨架对比学习，还有码本学习。这种混合掩码的策略，哪怕只有序列或者只有结构一种模态，它也能跑出靠谱的结果。

图3 Igloo训练目标与下游模型架构

实测效果，到底能不能打？

先看最核心的H3环检索。这是抗体里最难搞的部分，序列和结构多样性都拉满，也是所有抗体设计的核心。

Igloo在相似结构检索上，比之前的SOTA模型，精度直接提了6.1%。它还能完美复现经典的规范构象聚类，环类型纯度98.3%，长度纯度96.5%，之前覆盖不到的环，它也能全部分配token。

团队把Igloo的token，直接塞进了蛋白语言模型，做了IglooLM。在10个抗体-抗原靶点的亲和力预测任务里，它在8个靶点上，超过了基线模型。

有意思的是，这个420M参数的模型，效果和参数大它7倍多的模型，基本打平。不用堆参数就能拿到更好的结果，对我们这种没那么多算力的团队，太友好了。

还有IglooALM，用来做抗体环的序列生成。给它一个环的结构，它能生成序列多样性拉满，但结构和原环偏差不到1Å的新序列。比如新冠抗体的H3环，平均序列一致性只有0.27，结构却稳得很。

图4 IglooALM生成抗体环的结构一致性结果

最让我惊喜的是文库筛选的能力。零shot场景下，用它筛HER2靶点的结合体，相同token的序列里，55.3%都是有活性的结合子，富集比直接做到1:9。

我自己跑过类似的筛选流程，3万8千多条序列，全处理完只用了10分钟，这个速度，做先导优化的朋友应该懂有多香。

图5 Igloo对HER2结合体的富集效果

最后说点我自己的感受

坦白讲，现在蛋白大模型卷得厉害，但大多都在氨基酸级别死磕，很少有人盯着抗体本身的模块化结构做优化。

Igloo最妙的地方，是它没有推翻之前的规范聚类，反而把这个领域几十年的积累，和现在的大模型体系，做了个完美的桥接。

它不是那种只能发论文的花架子，是真的能落到我们日常的研发workflow里，解决真问题的工具。

当然，它现在也只做了抗体和TCR的环，能不能拓展到其他蛋白的功能域，还不好说。但至少在抗体研发这个赛道里，它给我们开了个全新的思路。

识别微信二维码，添加抗体圈小编，符合条件者即可加入

抗体微信群！

请注明：姓名+研究方向！

版

权

声

明

本公众号所有转载文章系出于传递更多信息之目的，且明确注明来源和作者，不希望被转载的媒体或个人可与我们联系(cbplib@163.com)，我们将立即进行删除处理。所有文章仅代表作者观不本站。