
1. MetaWRAP 软件介绍
MetaWRAP 开源的宏基因组分析流程工具 https://github.com/bxlab/metaWRAP,旨在提供一个易用、灵活且全面的数据分析流程,能够从原始测序数据开始,成宏基因组分析的核心任务。MetaWRAP 集成了多种主流生物信息学工具,支持以下关键模块:质量控制,拼接(metaSPAdes 或者 MEGAHIT 等),宏基因组分箱(使用 metaBAT2、MaxBin2 和 CONCOCT),多分箱引擎结果优化(Bin Refinement)
可以实现如下功能:
可视化与分类注释(
Taxonomic Profiling)基因组分箱(Binning):整合
MetaBAT2、MaxBin2、CONCOCT等多种分箱工具分箱提纯与优化(
Bin Refinement):采用混合算法合并不同分箱结果,大幅提升 bin 的完整度和纯度, 这里需要注意的时候的地方该模块可以使用第三方的分箱结果,但是单次Bin Refinement最大支持 3 个分箱引擎,如果提供更多的分箱引擎结果需要迭代多次。分箱重装配(
Reassemble Bins)丰度估算与功能注释
结果统计与可视化
大家使用 MetaWRAP的核心功能主要是分箱(Binning)功能,特别是Bin Refinement模块,通过组合三个不同工具(MetaBAT、MaxBin、CONCOCT),可以显著提高高质量宏基因组组装基因组(MAGs)质量。
2. 值得关注的几个问题
2.1 分箱引擎选择
MetaWRAP可以提供很多丰富的模块组,但是该软件2020年后基本不再进行更新,很多功能模块不再是宏基因组数据分析的最佳实践,比如分箱模块MetaBAT、MaxBin 和 CONCOCT, 根据最新的测评文章 “Comprehensive benchmarking of metagenomic binning tools reveals key factors for improved genome recovery“ (https://www.nature.com/articles/s41467-026-71521-w) 的结果,基于神经网络的 COMEBin,SemiBin2-multi和VAMB-multi 在测评中胜出,需要特别注意的地方是,SemiBin2和SemiBin2-multi 以及VAMB-multi 和VAMB是不同的分箱策略,分箱效果是不同的,从结果看VAMB 要比 VAMB-multi 差很多,SemiBin2 可以使用单样本模式取代SemiBin2-multi。


使用 checkm2 评估 MetaBAT2, SemiBin2, Comebin 以及 metawrap bin_refinement的分箱结果
2.2 MAG 优化
针对 bin 优化问题,MetaWRAP 的Bin Refinement通过组合多个分箱引擎可以得到更多的 MAGs,这里大概有几个需要值得关注的地方:
不同的分箱优化工具,对
bin的 打分score算法不同,直接导致最后优选出的bins会有一些差别,比如有些bin使用MetaWRAP可以保留,但是在DAS_tool流程中会被过滤掉。合并
bin的问题,DAS_tool选择score最好的bin,MetaWRAP使用一种 “破坏性策略”(这里描述为不是单纯的selector, 而是 refinement),可以通过通过多引擎交集策略选择并来自多个分箱工具中相似的bin的contigs,从而有效降低污染度。
2.3 性能问题
MetaWRAP分箱导致运行时间比较长的核心模块是 checkm (https://github.com/ecogenomics/checkm),提升性能的策略是使用 checkm2 (https://github.com/chklovski/CheckM2/tree/main/bin) 替换 checkm。可以参考 ”https://github.com/masalgar/metaWRAP/blob/master/bin/metawrap-modules/bin_refinement.sh“,速度提升接近4倍
这里需要注意的是:checkm2 和checkm 计算的污染度和完整度会有一些差别,所以无法完全重复 checkm的结果,从小规模测试结果(使用 checkm2 评估)显示,checkm2 的结果 MAGs 的数量会多于 checkm,污染度也会低于 checkm, 但是完整度要稍微低于 checkm 的结果。

使用checkm2评估基于checkm1和checkm2的metawrap bin_refinement以及das_tool的最终结果
2.4 实践逻辑
最后推荐的实践方案:分箱选择 COMEBin(推荐 GPU环境),SemiBin2(考虑到大规模项目,使用单样本模式可以规模化,推荐 GPU 环境)和 metabat2(速度快,CPU 即可)三个引擎,然后使用 MetaWRAP 核心功能模块 Bin Refinement 模块,并使用checkm2替换 checkm,同时确保较高的性能和质量。
MetaWRAP 需要和 checkm2使用不同的 conda环境,从容器部署的角度,可以将checkm2 和MetaWRAP 2个conda环境部署在同一个容器,在 bin_refinement.sh 显式指定对应的 checkm2完成软件层兼容,并在执行命令时将 checkm2 的数据库映射到容器内部/db 位置
该部分内容会集中到下一期宏基因组分箱培训课程。
夜雨聆风