Science | 基于AI语言模型系统发掘超大规模细菌抗噬菌体防御系统细菌编码了高度多样化的抗病毒防御系统,目前已有超过250种系统通过实验验证,涵盖广泛的分子机制。随着计算与实验筛选的持续推进,新的防御系统不断被发现,表明其真实多样性远超当前认知。然而,抗噬菌体防御系统的整体规模与组成仍未被系统解析。 尽管多样性尚不明确,已知防御系统在蛋白序列与基因组结构层面呈现出一定共性特征,例如特定功能结构域,以及在“防御岛”或前噬菌体区域的富集。这提示抗噬菌体系统可通过跨机制的模式进行识别,而不仅依赖传统的序列同源性。 2026年4月2日,法国巴斯德所Aude Bernheim 团队在《Science 》发表研究,构建了三种互补的蛋白质与基因组语言模型,实现对抗噬菌体系统的规模化识别, 系统发掘出海量新型抗噬菌体蛋白,构建了细菌抗噬菌体防御系统图谱数据库 ,显著拓展了对细菌免疫体系的整体认知 。 主要结果 (1)开发三种互补的深度学习模型,突破传统同源性搜索局限,实现泛基因组尺度的抗噬菌体功能预测: a)ALBERTDF:基于局部基因组上下文推断防御功能,不依赖蛋白序列; b)ESMDF:基于蛋白质语言模型,从氨基酸序列中提取特征; c)GeneCLRDF:整合序列与基因组信息,性能最佳,在基准测试中达到99%精确率和92%召回率。 (2)通过在大肠杆菌和白色链霉菌中的实验验证,鉴定出12种此前未知的抗噬菌体防御系统,证实模型预测的可靠性。 (3)新发现系统涵盖多种功能结构域(如脱氧核酸酶、肽酶等),并包含此前未与抗病毒免疫相关的蛋白类型,表明模型能够捕捉超越已知机制的功能特征。 (4)在超过32,000个细菌基因组中进行系统预测,结果显示平均约1.5%的基因参与抗病毒防御,其中超过85%的蛋白家族此前未被注释为免疫相关。 (5)共预测约239万个抗噬菌体蛋白,形成约23,000个操纵子家族,其中绝大多数为全新防御单元。 (6)基于上述结果构建细菌抗病毒免疫图谱(atlas),揭示一个远超既往认知的广阔防御体系,并通过交互式平台公开共享。 研究意义 (1)提出了用于大规模发现抗噬菌体防御系统的深度学习框架,并构建了系统性的细菌抗噬菌体免疫图谱。 (2)该方法显著拓展了对细菌免疫多样性的认识,并为后续的功能研究与机制解析提供了重要基础。 Ernest Mordret et al. ,Protein and genomic language models uncover the unexplored diversity of bacterial immunity.Science392,eadv8275(2026). DOI:10.1126/science.adv8275