乐于分享
好东西不私藏

欣资讯 | 集成式AI知识图谱框架IBIS推动细菌酶学与代谢研究创新

欣资讯 | 集成式AI知识图谱框架IBIS推动细菌酶学与代谢研究创新

细菌通过其多样化的代谢途径在生态系统中占据主导地位。基因组数据已成为研究细菌代谢的共同起点,但现有技术和工具在预测和比较代谢方面的能力仍然有限。

近日,加拿大麦克玛斯特大学研究团队于期刊PNAS发表文章An integrated AI knowledge graph framework of bacterial enzymology and metabolism,研究开发了一个结合深度学习和知识图谱集成式生物合成推断系统(Integrated Biosynthetic Inference Suite, IBIS),能够快速、可扩展地推断细菌代谢,超越了传统生物信息学工具,为天然产物发现、合成生物学及环境微生物组研究提供了全新工具。

图1 | IBIS是Transformer和Graphormer模型的集合,旨在全面注释细菌代谢

* 本文仅作前沿内容分享,如有错误/不足,欢迎留言指正 : )

* 编辑/整理不易,转载需联系授权并注明出处 : )

基于Transformer的并行多任务训练解析细菌酶学

作为建立细菌代谢预测统一框架的第一步,研究开发了IBIS-Enzyme——一种基于Transformer的模型,专门用于预测与细菌代谢过程相关的多种蛋白质标签(图2A)。这些标签包括通用非酶类别、EC编号定义的完整本体层次结构,以及从文献和核糖体合成后修饰肽(RiPPs)中整理的参与特殊代谢途径的酶类。在每个训练步骤中,从各数据集中采样蛋白质序列,通过同一Transformer模型生成蛋白质嵌入,随后传递至独立的神经网络以预测相应标签。这种并行多任务训练使模型能够生成高分辨率的嵌入表示,足以通过近似最近邻(ANN)分类与参考数据库比对,准确分配蛋白质注释。

图2 | 用Transformer进行生物合成酶和结构域的鉴定

全面酶注释支持细菌代谢预测

训练完成后,IBIS-Enzyme将原始蛋白质序列编码为嵌入表示,并通过ANN分类预测EC编号和与特殊代谢(SM)相关的蛋白质家族。EC编号通过分层框架描述酶功能(如EC 1.1.1.1代表乙醇脱氢酶)。训练数据集包含来自SwissProt和蛋白质数据库(RCSB.org)的高质量注释,以及来自TrEMBL的低丰度酶类补充数据。在推理阶段,模型首先将查询蛋白分类为非酶或初级EC类(F1=0.91),若为酶,则进一步通过ANN预测四级EC编号,其F1评分(0.95)显著优于DeepEC(0.84)和CLEAN(0.70)(图2D)。

突破传统限制的特殊代谢注释

41.1%的SM相关蛋白无法通过现有EC框架准确注释。为此,训练集新增了1,100个手动整理的生物合成蛋白家族,通过独立于EC的ANN分类实现F1=0.91的预测精度。此外,IBIS-Enzyme可精准标注多域酶的功能区域(F1=0.89),其注释覆盖度显著超越antiSMASH和PRISM(图2C)。

生物合成域功能预测的优化

接着,研究通过额外训练的IBIS-Domain模型,对IBIS-Enzyme预测的域生成嵌入表示,捕捉底物特异性和功能亚型等属性。该模型在非核糖体肽和聚酮底物预测中表现优于现有工具,其预测结果更符合化学性质(如丝氨酸与苏氨酸的合理替代)。

嵌入检索速度优势

通过将IBIS-Enzyme的蛋白质嵌入与ANN分类相结合,IBIS系统在注释速度上超过了现有的方法。与DIAMOND和hmmscan相比,IBIS在标注100,000个序列时分别快了5.7倍和19.9倍。向量量化技术(如Qdrant)进一步提升了嵌入检索效率。

零样本识别未表征酶类

IBIS-Enzyme在1,434个未参与训练的EC类酶测试中,通过UMAP可视化显示功能相似酶类在嵌入空间中紧密聚集(图2B),AUC达0.942。这种“零样本”性能表明IBIS-Enzyme可能识别出当前EC本体中未表示的新酶。

初级代谢的预测

通过规则系统IBIS-PM,研究从基因组数据中推断出3,966条初级代谢(PM)途径(图3A)。对52,584个基因组组装的分析表明,代谢特征向量能准确预测基因组分类(F1=0.929),表明IBIS-PM提供了足够的代谢特征,可以支持与传统分类一致的代谢分组。

图3 | 利用 IBIS 定义PM与SM

次级代谢的独立识别

IBIS-SM通过Graphormer将基因组表示为图结构(节点为IBIS-Enzyme嵌入的蛋白质,边为基因间距权重),预测生物合成基因簇(BGC)的化学类型和边界(图3A)。在36类BGC分类中,其平均AUC达0.93,显著优于antiSMASH(0.72)和DeepBGC(0.66)(图3B)。

BGC的上下文向量表示与大规模比较

IBIS-BGC,另一个Graphormer模型,用于创建BGCs的上下文化向量表示,使得大规模比较分析成为可能。IBIS-BGC通过整合IBIS-SM、IBIS-Enzyme和IBIS-Domain的预测,生成BGC的嵌入表示,其与代谢物Tanimoto化学相似性的Pearson相关性(0.84)远超BiG-SLICE(0.56)(图4B)。基于GPU加速的聚类分析,在1小时内完成近200万BGC的比较,定义219,587个BGC家族(图4C)。

图4 | 利用 IBIS-BGC 实现大规模BGC嵌入与比较

IBIS知识图谱的应用

IBIS知识图谱(IBIS-KG)整合了酶学、初级代谢和专门代谢的全面注释,通过大规模分配和比较代谢途径,迅速识别出不符合已知代谢的酶。IBIS-KG还能够识别与特定生态位相关的BGCs,并利用这些关联来推断编码代谢物的功能角色。

未表征代谢途径的探索

IBIS-KG能够识别出未被充分研究的细菌中的潜在新生物合成能力,并通过分析基因组中的共定位、未分配酶的富集区域,揭示了大量可能的操纵子。例如,IBIS-KG发现了一个与根瘤相关的操纵子,其中包含四个未表征的酶和九个已知的酶。这些已知酶与植物发育相关,表明该操纵子可能在根际细菌中具有功能相关性。这种能力为未来的研究和实验验证提供了新的方向,推动了对细菌代谢多样性的深入理解。

获取原文:

https://doi.org/10.1073/pnas.2425048122

综上,IBIS系统通过其Enzyme模块的嵌入向量,利用近似最近邻(ANN)注释技术,能够高效地对蛋白质进行功能标记,识别并标记蛋白质的KO标签和EC编号。IBIS系统能够快速识别和比较不同细菌物种中的代谢途径,为理解细菌的代谢多样性和进化关系提供了强大的工具。IBIS-Enzyme在预测EC编号和与专门代谢相关的蛋白质家族方面表现出色,其F1分数达到了0.95。此外,IBIS系统通过各个模块(如IBIS-Domain、IBIS-PM、IBIS-SM和IBIS-BGC)提供了全面的代谢分析,从生物合成域的底物特异性预测到BGCs的识别和比较,均展现出卓越的性能。IBIS系统通过其知识图谱(IBIS-KG)整合了酶学、初级代谢和专门代谢的全面注释,能够识别出不符合已知代谢的酶,并推断编码代谢物的功能角色,为发现新的代谢途径和酶功能提供了强大的支持。

喜欢此内容的人还喜欢

20241227 | 优化羰基还原酶生物催化合成活性药物成分的研究进展

20241206 | 角鲨烯生产的代谢工程研究进展

20241108 | D-阿洛酮糖的生物合成研究进展

20241018 | 虾青素生物合成的代谢工程进展

20240906 | 基因组挖掘和合成生物学在发现和生物合成天然产物方面的最新进展

20240830 | 萜类微生物合成酶工程的研究进展

20240816 | 酵母中生产黄酮类化合物的进展

20240712 | 天然产物糖基化生物制造进展

20240705 | 天然食品色素微生物生产的最新进展

20240614 | 酵母中高效生产单萜类化合物的最新进展

20240607 | 食品工业合成生物学:进步与挑战