Science | AI发现90%未知细菌免疫机制
这篇文章发表于2026年4月2日,由巴斯德研究所团队主导完成,主要研究细菌如何抵御病毒(噬菌体)入侵。作者利用类似“AI语言模型”的方法,把蛋白序列和基因排列当作“语言”来分析,从而在大规模基因组数据中系统性地寻找新的抗病毒防御系统。研究不仅构建了多种深度学习模型,还在实验中验证了一部分预测结果,确实发现了此前未知的抗病毒机制。
研究目的
数 据
研究整合了大规模微生物组学数据,包括约3.2万个细菌基因组、超过1.23亿个蛋白质序列,并构建了包含数百万蛋白家族的数据集。在此基础上,作者预测出约239万个潜在抗噬菌体蛋白,超过85%的蛋白家族此前从未与免疫功能相关。同时,他们将这些基因进一步组织为约2.3万个操作子家族,并在实验中验证了多个新系统,显示这些预测具有真实生物学意义。整体来看,细菌基因组中约1.5%的基因可能参与抗病毒防御。
模型构建
1. 基于基因组上下文的模型(ALBERTDF)
该方法将细菌基因组看作“句子”,把蛋白家族当作“单词”,利用类似自然语言处理的模型学习基因在基因组中的排列规律。模型通过识别那些常与已知防御系统相邻出现的基因,从而预测新的抗病毒相关基因。这种方法的优势在于可以发现完全没有序列相似性的全新系统,但受限于计算规模,难以扩展到全部基因组。
2. 基于蛋白序列的模型(ESMDF)
该方法直接利用蛋白质氨基酸序列进行建模,通过蛋白语言模型学习序列中的潜在功能信息。模型能够识别远距离的序列相似性,从而预测哪些蛋白具有防御功能。相比传统同源比对,这种方法更灵敏,能够发现一些变异较大的防御蛋白,但仍然偏向于识别与已知系统相似的类型。
3. 序列+基因组整合模型(GeneCLRDF)
这是本文最核心的方法,将蛋白序列信息和基因组上下文信息结合起来,通过对比学习同时理解“蛋白本身”和“所在环境”。模型不仅判断单个基因是否具有防御功能,还能识别其在基因组中的组织结构,从而更准确地预测完整防御系统。该方法在准确性和覆盖度上都明显优于前两种方法,是本文性能最强的模型。
4. 实验验证方法
作者从预测结果中挑选候选基因或系统,在大肠杆菌和链霉菌中进行表达实验,并用多种噬菌体进行感染测试。通过检测细菌存活或病毒复制能力变化,验证这些候选系统是否具有真实的抗病毒功能。结果成功验证了多个全新的防御系统,证明模型预测具有可靠性。
5. 操作子与系统级整合分析
在基因层面预测的基础上,作者进一步将共定位的基因组合成操作子,并按相似性进行聚类,构建抗病毒系统的结构单元。这一步使研究从“单基因预测”上升到“系统级理解”,更接近真实生物功能组织形式。
结果解读
Fig1 基因组上下文模型发现新型抗病毒系统
通过将基因组当作“语言”进行建模,作者构建了基于基因排列信息的深度学习模型,能够区分具有防御功能和非防御功能的基因。模型预测出一批此前没有任何同源信息的候选系统,并在链霉菌中进行实验验证,其中大部分能够显著抑制噬菌体感染,说明仅依赖基因邻域信息也可以有效发现全新的抗病毒机制。

Fig2 蛋白语言模型识别抗病毒蛋白能力
基于蛋白序列的模型能够从氨基酸层面学习功能特征,实现对抗病毒蛋白的准确分类。结果显示,该模型不仅能很好地区分已知防御蛋白与非防御蛋白,还能在不同类型防御系统中保持较好的泛化能力。进一步实验验证表明,模型筛选出的候选系统中有相当一部分具备真实抗噬菌体功能,证明序列层面的信息足以支持功能预测。

Fig3 融合模型显著提升预测精度与系统识别能力
整合序列信息和基因组上下文后,模型在准确性和覆盖度上明显提升,不仅能够识别单个防御蛋白,还能更精准地定位整个防御模块在基因组中的结构位置。在不同基因组环境中,该模型相比单一方法更能区分真正的防御区域与背景噪音,并在精确率和召回率之间取得最佳平衡,成为性能最优的预测工具。

Fig4 构建细菌抗病毒系统的全景图谱
在大规模基因组数据上应用模型后,作者系统性描绘了细菌抗病毒系统的整体分布。结果显示,预测得到的防御相关蛋白和操作子数量远超已有认知,大多数属于未知类型,同时在不同细菌物种中呈现出明显差异。进一步分析发现,这些系统与移动遗传元件密切相关,提示其在进化中的重要作用,也揭示了细菌免疫体系的复杂性和多样性。

总 结
Fig1 方法突破传统同源依赖
传统方法主要依赖序列相似性来发现新系统,而本研究表明,仅凭基因在基因组中的排列关系,也能识别功能相关模块。这说明抗病毒系统在进化过程中具有明显的结构规律,为后续发现完全新型机制提供了新思路。
Fig2 序列信息仍然是核心信号
蛋白语言模型能够捕捉远距离的序列特征,不仅复现已知防御系统,还能识别其变体形式。这表明蛋白序列中蕴含着丰富的功能信息,但单独使用时仍然更偏向已知系统的扩展,而非完全新结构的发现。
Fig3 多信息融合是关键提升点
融合序列和基因组上下文后,模型既能发现新系统,又能提高识别准确性,说明这两类信息是互补的。该策略代表了一种更接近真实生物学逻辑的建模方式,为复杂功能预测提供了更通用的框架。
Fig4 细菌免疫远比想象复杂
大规模预测结果表明,绝大多数抗病毒系统仍未被功能注释,细菌免疫体系的规模和复杂性被严重低估。同时,这些系统与移动遗传元件的紧密关联,提示它们在进化中具有高度动态性,未来仍有大量未知机制等待挖掘。

论文链接:https://www.science.org/doi/10.1126/science.adv8275
夜雨聆风