单菌基因组圈图工具-2 | Proksee引文解读

Proksee: In-depth characterization and visualization of bacterial genomes (细菌基因组的深入表征和可视化). Jason R Grant, Paul Stothard, et. al. Nucleic Acids Res. 2023 Jul 5. doi: 10.1093/nar/gkad326. 加拿大阿尔伯塔大学,农业、食品与营养科学系;加拿大公共卫生局国家微生物实验室;马尼托巴大学医学微生物与传染病学系;马尼托巴大学生物化学与医学遗传学系。

1. 通过自定义的参考组装体数据库,提供独特且信息丰富的组装指标;
2. 深度集成的高性能基因组浏览器 (专为Proksee开发),支持以单碱基分辨率查看和比较分析结果;
3. 不断增长的嵌入式分析工具列表,其分析结果可无缝添加到图谱中,或以其它格式搜索、探索;
4. 支持导出图形化图谱、分析结果和日志文件,以便数据共享和研究的可重复性。

Proksee功能概览:输入 (原核生物)基因组或测序Reads,完成组装、分析和可视化
以上所有功能均通过精心设计的多服务器云架构实现,可轻松扩展,满足用户需求,并确保服务器的稳健和响应速度。
引言
高通量测序技术降低了生成测序数据的成本和难度,使得几乎所有实验室都能常规测序其研究生物的基因组。这对细菌基因组尤为重要,因其在生物医学、农业、环境科学、公共卫生和工业领域具有重要应用。细菌基因组广泛用于推断进化关系,并揭示毒力、抗生素耐药性和代谢潜力等生物学特性的遗传基础。
将原始细菌基因组测序数据转化为有意义的结果通常需经过基因组组装、注释和可视化。基因组组装是从测序读段集合中,计算、重建基因组序列的过程。现有多种组装工具,其中最常用于细菌基因组组装的程序包括SPAdes (以高精度著称)和SKESA (以速度和计算效率见长)。
细菌基因组注释是识别和描述基因组特征的过程,典型注释系统结合基因预测程序和参考数据库来识别:蛋白编码基因、rRNA和tRNA。
基因组注释服务 (在线工具)可通过IMG/M (The Integrated Microbial Genomes & Microbiomes system – IMG/M: https://img.jgi.doe.gov/m/. NAR . 2023 Jan)和MicroScope(MicroScope: an integrated platform for the annotation and exploration of microbial gene functions through genomic, pangenomic and metabolic comparative analysis. www.genoscope.cns.fr/agc/microscope. NAR. 2020)访问,而BV-BRC提供基于RASTtk的在线注释。
近年来,命令行驱动的工具 (如Prokka、Bakta和PGAP)因支持高性能计算环境下大规模基因组注释而流行。
其它工具专注于特定遗传特征的注释,例如:
-
CARD/RGI系统用于鉴定抗生素耐药决定因子;
-
IslandViewer用于注释基因组岛;
-
PHASTER用于注释前噬菌体;
-
CRISPR/Cas Finder用于注释CRISPR。
组装和注释后的基因组,需通过可视化,辅助理解其生物学特性和进化关系。Circos和CGView系列基因组查看器等工具,可生成环形或线性布局的基因组图谱,遗传特征以轨道 (Track)形式展示。
现有工具种类繁多,各具不同的功能、运行环境和复杂参数,可能使缺乏专业培训的研究人员无所适从。即使经验丰富的研究者,也需应对工具整合的挑战。译者注:易生信单菌基因组课程可从底层 (原理和代码实操)提供专业培训服务。
为降低使用门槛,我们开发了Proksee:一个用于细菌基因组组装、注释、分析和可视化的网络服务器。Proksee设计简洁,但功能强大,即使新手也能生成并分析细菌基因组。本文描述其架构与功能,并通过案例展示其能力。
材料与方法
Proksee工作流程
Proksee接受预组装的Contig或原始测序读段,生成以环形基因组图谱为核心的项目。用户可启动多种注释和分析工具 (包括自定义程序或第三方软件),这些工具分为两类:
-
客户端工具(如GC Skew):直接在浏览器中运行,结果即时添加到图谱;
-
服务器工具(如Prokka、BLAST):在服务器上执行作业,完成后可查看并添加结果至图谱 (下图1)。

图1. Proksee工作流程. Genomes and reads (after being assembled) are converted into map JSON with the CGViewBuilder script. Map JSON is converted to a graphical map using CGView.js.
输入与数据管理
Proksee支持3种输入类型:
-
预组装的Contig(GenBank、EMBL、FASTA格式或NCBI登录号);
-
Illumina测序读段(FASTQ文件,支持单端或双端,压缩或未压缩);
-
JSON存档文件 (来自先前Proksee运行结果)。
输入限制为最多1000万碱基 (10 million bases),或1GB测序读段文件。项目分为2种:会话项目 (临时存储,一周未活动后删除)和用户项目 (需账户登录,永久存储,支持跨设备访问)。
Proksee也可接受CGView.js (https://js.cgview.ca)的JSON文件作为输入。此格式包含之前生成的Proksee图谱的所有详细信息,包括Contig序列、特征、标题和图例,以及所有自定义项 (如颜色、字体、特征宽度等)。这些JSON文件可以在Proksee中通过下载面板 (Download Panel)创建,以存档项目供以后查看。
序列组装
测序数据使用SPAdes组装,生成的组装指标通过与Proksee自定义参考数据库 (包含117个物种的公开基因组数据)对比,以条形图形式报告 (下图2)。若无匹配物种,则采用NCBI参考序列排除标准 (如Contig L50>500、N50<5000或Contig数量>2000时标记为需排除)。

图2. 组装报告. (A) 上方:通过与Proksee自定义的参考数据库 (库中已有的特定物种的组装体)比较,显示对用户的组装体 (黑色竖线)的评估;下方:为NCBI的排除标准 (将组装体与NCBI参考序列排除标准比较). (B) 点击某个评估结果 (条形图)后,显示组装体评估值分布的细节。
项目视图与基因组浏览器
项目界面分为左侧标签页 (图谱视图-Map Tab、项目信息-About Tab、分析输出-Job tabs),及右侧侧边栏 (工具启动-Tools、图谱定制、作业监控–Jobs、结果下载–Data/Download),如下图3A。(右)侧边栏包含:显示面板 (Display Panel-自定义图谱内容与外观)、区域面板 (Regions Panel-管理Contig、特征、书签,搜索/选择/修改)和下载面板 (导出PNG/SVG图像、JSON存档文件)。

图3A. 项目页面 (Project page)和图谱查看器 (Map viewer)。项目页面左侧有一组选项卡式窗口 (显示图谱选项卡Map Tab),右侧有一个带有多个面板的侧边栏 (显示工具面板)。图谱选项卡由交互式图谱以及以下元素组成:位置栏Location Bar-查看、编辑或标记图谱上的当前位置;格式栏Format Bar-更改图谱布局 (线性或圆形)、反转图谱颜色或更改纵横比;控制栏Control Bar-缩放、平移或重置图谱。
图谱查看器与基因组浏览器
图谱选项卡 (Map Tab)包括图形图谱,以及位置栏 (Location Bar)、格式栏 (Format Bar)和控制栏 (Control Bar),如图3A。位置栏显示正在查看的碱基对位置和当前缩放级别。位置栏中的标记按钮 (Mark)可为当前查看的位置设置书签。书签允许通过快捷键或使用区域面板快速导航到感兴趣的区域。格式栏有反转图谱颜色的按钮,以及更改视图格式 (线性/圆形)和纵横比 (方形/全尺寸)的按钮。控制栏有重置、放大/缩小和平移图谱的按钮。用户还可以使用鼠标和触摸手势进行平移和缩放 (可精确到单个碱基对)。将鼠标悬停在图谱元素 (如特征/Contigs/图)上会显示信息丰富的弹出窗口;单击图谱元素后,会在右侧边栏中打开详细信息 (下图3B)。

图 3B. 图谱的放大视图,显示主干中的谱图序列、悬停在特征 (如CAS集群)上的弹出窗口,以及颜色选择器。
工具与作业 (Job)管理
服务器工具启动后生成作业标签页,显示实时日志、结果摘要和文件下载链接 (下图4)。用户可选择将特征添加到指定轨道,并通过交互式图谱验证结果。






图4. 基于服务器的工具的工作流程。以mobileOG-db工具为例。(A) 启动基于服务器的工具,将显示“开始”对话框,其中可提供作业的名称,以及特定于不同工具的选项。(B) 已完成的作业将显示一张报告卡,其中包含所发现特征的摘要,以及一个将其添加到图谱的按钮 (加号)。该报告还包括一份特征文件列表 (即关键结果文件),并附有查看或下载每个文件的链接。(C) 添加对话框,用于将作业结果添加到图谱中,其中包含选择要添加哪些要素,以及为添加的要素使用哪些轨迹 (Track)和图例 (Legend)的选项。(D) 添加了特征与功能的图谱。显示的是从GenBank文件 (NZ CP007470)中提取的原始特征 (即CDS、tRNA、rRNA),mobileOG-db特征分为五类 (如:稳定性/转移/防御、复制/重组/修复、整合/切除、转移和噬菌体),以及GC Content和GC Skew工具的结果。(E) 文件卡显示此作业的输入和输出文件的文件树 (顶部),和其中一个输出文件的文档查看器 (底部)。
设备兼容性与用户体验
Proksee采用响应式设计,适配笔记本、平板和手机。支持亮/暗主题切换,集成帮助系统和教程,兼容Chrome、Edge、Firefox和Safari等现代浏览器。
实现
-
后端:基于Ruby on Rails,采用分布式架构 (主服务器处理Web请求,工作服务器执行作业),托管于加拿大数字研究联盟云平台。
-
前端:使用React框架和CGView.js (交互式基因组浏览器),通过Redux管理状态。
-
工具集成:通过Prokan框架 (YAML配置文件)支持第三方工具,利用Conda/Docker处理依赖。
-
作业管理:Sidekiq和Redis实现队列调度,支持动态扩展。

结果
使用统计。发布一年内 (2022年2月14日~2023年2月14日):
-
创建55,616个项目,运行110,325次作业;
-
下载33,594张图谱;
-
39,862名访客,305,000次页面浏览,平均访问时长8分21秒;
-
用户来自90余个国家,前十大用户来源为中国、印度、美国、韩国、加拿大等。
案例研究
A.金黄葡萄球菌读段组装 (图5A):组装结果显示Contig边界与GC Skew突然变化 (Abrupt changes)关联 (Coincide),提示组装不完整。

B.流感嗜血杆菌移动遗传元件鉴定 (图5B):通过VirSorter、mobileOG-db等工具识别共有区域。

C.单核细胞增生李斯特菌临床分离株前噬菌体差异 (图5C):BLAST和FastANI比较揭示菌株间前噬菌体φLMC1的存在差异。

D.金黄色葡萄球菌甲氧西林耐药基因分析 (图5D):CARD/RGI识别mecA基因,BLAST比较36个相关基因组。

讨论
Proksee通过集成分析与可视化,支持在单一图谱中叠加多工具结果,助力发现关键基因组元件。其优势包括:
-
动态交互式图谱 (支持缩放至单碱基);
-
丰富的导出选项 (SVG、PNG、JSON存档);
-
与BRIG、GView等工具相比,支持更广泛的分析类型和作业管理功能。未来计划新增线粒体基因组注释、SNP识别、长读长组装流程等功能。
数据可用性
Proksee可通过https://proksee.ca免费访问。CGView.js源代码和集成指南详见https://js.cgview.ca。组装流程代码托管于GitHub (github.com/proksee-project/proksee-cmd)和Zenodo (doi.org/10.5281/zenodo.7825816)。

夜雨聆风