实用组学小工具——PLASMe质粒序列识别-夜雨聆风

实用组学小工具——PLASMe质粒序列识别

一、什么是 PLASMe

PLASMe是由香港城市大学孙燕妮教授团队开发的一款开源生物信息学工具，专门用于从宏基因组短读长组装（short-read assemblies）中识别质粒序列（Plasmid contigs）。

质粒鉴定主要存在两个挑战。首先，质粒展现出高度的遗传多样性。除了频繁的突变，质粒在进化过程中还经历了大规模的结构变化，如插入、删除和易位。这些快速的突变和结构变化可能导致质粒之间的序列相似性非常低。第二个挑战是质粒和染色体之间共享的基因或片段。质粒和染色体在共同进化过程中频繁发生基因转移。因此，质粒和染色体可以共享高度相似的区域，使得质粒筛选变得困难，特别是对于短contigs。

PLASMe软件充分利用了基于比对和学习的方法的优势：其中的比对组件可以很容易地识别已知质粒，而使用Transformer 模型可以识别远源的质粒。通过将质粒序列编码为基于蛋白簇的token集定义的“语言”，Transformer可以通过位置编码和注意机制学习蛋白质的重要性及其相关性。

PLASMe软件的流程如下图所示。首先，过滤长度小于1k或大于350k的contigs。然后，将它们与质粒数据库使用BLASTN进行比对。如果contigs与参考序列的比对具有高的对齐覆盖度和一致度（默认为），则将其分类为质粒；否则，它们将根据其比对结果分配到相应的目（order），并调用对应的Transformer进行预测。

二、如何使用和获取？

PLASMe是一款开源工具，支持在Linux系统下运行。

# 下载软件包

git clone https://github.com/HubertTang/PLASMe.gitcd PLASMe

# 创建PLASMe运行环境（需提前安装conda）

conda env create -f plasme.yamlconda activate plasme

# 下载参考数据库（12.4GB）

python PLASMe_db.py

# 执行质粒序列预测

python PLASMe.py [INPUT_CONTIG] [OUTPUT_PLASMIDS] [OPTIONS]

用户可以通过其GitHub仓库（https://github.com/HubertTang/PLASMe）获取源代码、使用指南和测试数据。其输入通常为FASTA格式的组装序列（contigs），输出为质粒的分类结果。

三、密码子生信云带您零基础做生信

上海唯那生物已推出生信云平台服务，包含多种测序数据一键化分析流程和超百种实用小工具。可以帮助大家更方便的生物信息学分析，将操作流程简单化，无需安装软件，无需配置环境，即可快速输出需要的结果。

本节内容介绍的是免费小工具“质粒片段识别（PLASMe）”。您仅需微信扫码注册一个账号，在相应界面提交二代组装序列（fasta格式），就能从该序列中鉴定质粒片段。

小工具结果

*_plasmid.fasta：所有预测为质粒的contig

*_report.xls：已鉴定质粒contig描述的报告文件

contig：每个片段的唯一标识符；
length：序列长度；
reference：参考序列编号；
order：宿主菌目级分类；
evidence：判定依据，Transformer 表明主要依赖其深度学习模型识别，说明这些序列与已知质粒的直接序列相似性可能不高，属于“远源”识别，BLAST 则代表通过高相似度序列比对直接判定；
score：置信度评分，PLASMe模型预测该片段为质粒的置信度，范围0-1。分数越接近1，置信度越高；
amb_region：模糊/不确定区域，标记了该contig内部，模型无法明确区分是质粒序列还是染色体序列的区间。以“起始-结束”坐标对表示。

模糊区域指的可能是与染色体共享的区域。如果查询源形包含大量模糊区域，则需谨慎，因为它可能源自染色体。

软件版本：PLASMe_v1.1

参考文献

Tang X, Shang J, Ji Y, et al. PLASMe: a tool to identify PLASMid contigs from short-read assemblies using transformer. Nucleic Acids Res. 2023;51(15): e83. doi:10.1093/nar/gkad578

基因组组装注释、统计绘图、数据处理、格式转换、数据下载、比较分析，百款专业小工具免费用

注册即用，一键直达：

https://cloud.mimazi.net/tool/index.html

分析细菌基因组，选专业平台，认准密码子·生信云，注册即用，不限样本量，7天免费使用！

云流程使用，一键直达：

https://cloud.mimazi.net/cloud/index.html

实用组学小工具——PLASMe质粒序列识别

wang

猜你喜欢