乐于分享
好东西不私藏

SIRIUS软件技术指南:从数据到结构的深度解析

SIRIUS软件技术指南:从数据到结构的深度解析

色谱质谱,物性表征测试(可合作),实验耗材,技术培训

SIRIUS软件技术指南:从数据到结构的深度解析

SIRIUS 是一款强大的基于 Java 的软件框架,它集成了 CSI:FingerID、CANOPUS 等工具,能够基于液质数据并结合多种数据库对分子结构进行精准注释 [[化合物注释]]。本指南将带你一步步掌握其核心用法。

一、软件安装与初始化

1.版本获取与安装

最新的 SIRIUS 版本为 6.2.2(发布于 2025-06-03),该版本内置了 Java 运行环境,用户无需另行安装 Java,下载后即可直接运行 [[化合物注释]]。

2.账户注册与登录

软件启动后,你需要进行账户登录。请注意,注册时必须使用机构邮箱(Institutional Email),这是使用该软件的前提条件 [[化合物注释]]。

图示:登录界面状态

如下图所示,登录成功后,界面右侧的“Web service Connection”区域会显示各项连接均已成功建立,且许可证状态为“Academic License”。
![[表†2|化合物注释]]

二、数据导入与预处理

1.数据格式要求

SIRIUS 支持通用的质谱数据格式,主要包括 .mzML 和 .mzXML 格式。如果你的原始数据是其他格式,建议使用 MSConvert 软件进行转换 [[化合物注释]]。软件推荐使用棒状图格式的数据,不过 v6.2 之后的版本也兼容轮廓图数据 [[化合物注释]]。

2.导入操作

将转换好的数据文件直接拖入软件左侧的文件导入区域即可 [[化合物注释]]。导入成功后,点击左侧的 Feature 列表,中间窗口便会展示相关的提取离子色谱图(EIC)及质谱信息。

图示:数据文件准备

下图展示了在文件管理器中准备好的.mzML等格式的质谱数据文件,这些是分析的基础。
![[图†2|化合物注释]]

图示:数据导入后的界面概览

数据导入后,软件界面会列出检测到的化合物,包括其加合物类型、m/z值、保留时间及置信度。右侧面板则提供了详细的质量评估信息。
![[表†11|化合物注释]]

3.本地数据库导入(可选)

如果你有特定的本地数据库需要比对,可以通过软件的“Database”模块进行导入,支持的格式包括 .tsv, .sdf, .msp, .mgf 等 [[化合物注释]]。

图示:数据库导入步骤

下图清晰展示了从点击“Database”模块,到添加新数据库,再到选择并导入本地文件的完整流程。
![[表†7|化合物注释]]

三、核心计算与参数设置

这是 SIRIUS 分析流程中最关键的一环。点击“Compute All”或在列表中右键选择感兴趣的特征进行计算 [[化合物注释]]。

1.全局配置

在计算对话框中,你需要根据实际情况设置参数:
u仪器类型:选择 Q-TOF、Orbitrap 或 FT-ICR 等。
u质量精度:设置 MS2 的质量精度(如 10 ppm)。
u加合物设置:勾选可能的加合物形式,如 [M+H]+, [M+Na]+ 等 [[化合物注释]]。

2.模块选择

SIRIUS 集成了多个核心模块,其中“SIRIUS”模块本身(用于分子式识别)是必选的 [[图†3|化合物注释]]。
uZODIAC:用于分子式重排序,提高准确性。
uCSI:FingerID:用于指纹预测和化合物结构搜索。
uCANOPUS:用于化合物类别的预测。

图示:参数设置界面

下图展示了详细的计算参数设置窗口,包括仪器类型、元素过滤策略以及各个功能模块的选择。请注意,“SIRIUS”模块作为核心是必选的。
![[图†3|化合物注释]]

四、结果查看与深度分析

计算完成后,你可以在“structures”标签下查看化合物鉴定结果 [[化合物注释]]。

1.结构鉴定结果

软件会列出可能的化合物结构及其分子式,并显示其来源数据库(如 PubChem)。

图示:结构推断结果

下图展示了两个高置信度的结构推断示例,包含了分子结构式、名称及分子式。

![[表†10|化合物注释]]

2.导出与二次分析

SIRIUS 允许用户将注释结果导出为 Excel 表格,方便后续的数据整合与分析。导出的表格通常包含 molecularFormula(分子式)、InChI、smiles、ionMass(离子质量)等关键信息 [[化合物注释]]。

图示:导出数据示例

下表展示了部分导出的数据,包括保留时间、离子质量、分子式等信息,这对于后续的导向分离至关重要。

![[表†12|化合物注释]]
图示:CANOPUS类别注释数据
结合保留时间和CANOPUS预测的化合物类别(如萜类Terpenoids、生物碱Alkaloids等),可以构建用于导向分离的数据表格。
![[表†5|化合物注释]]

五、进阶应用:SIRIUS与GNPS的对比优势

在实际应用中,SIRIUS 相比于常用的 GNPS 平台展现出了独特的优势:
1.信息量更丰富:SIRIUS 能够结合多种数据库进行注释,单个液质数据经 SIRIUS 注释后产生的信息量远超 GNPS [[化合物注释]]。
2.注释覆盖率更高:GNPS 并非对所有液质信息都能进行注释,而 SIRIUS 采用了不同的算法策略,能够对所有输入数据进行处理 [[化合物注释]]。
3.个性化操作:SIRIUS 提供了更多的可调节参数和数据库选择(较 GNPS 多 20 个可选库),适合进行深入的结构解析 [[化合物注释]]。

六、实战经验与建议

根据实际操作经验,以下建议有助于提高你的工作效率:
1.网络稳定性:由于软件需要通过网络连接服务器进行部分计算,稳定的网络环境至关重要。若网络不佳,可能会出现连接中断的情况,表现为“waiting”状态 [[化合物注释]]。
2.分段计算:处理大量数据时,建议优先使用 CANOPUS 功能进行类别注释,或者分批次进行计算。若遇到计算中断,只需重新运行未完成的部分即可 [[化合物注释]]。
3.数据预处理:确保输入数据的峰保留时间处理得当,避免因微小的时间偏差导致重复数据的出现 [[化合物注释]]。

学习参考资料

SIRIUS Software about  the following paper:
Kai Dührkop, Markus Fleischauer, Marcus Ludwig, Alexander A. Aksenov, Alexey V. Melnik, Marvin Meusel, Pieter C. Dorrestein, Juho Rousu and Sebastian Böcker
SIRIUS4: a rapid tool for turning tandem mass spectra into metabolite structure information
Nat Methods, 16, 2019.  https://doi.org/10.1038/s41592-019-0344-8
Depending on the tools you have used :
Kai Dührkop, Louis-Félix Nothias, Markus Fleischauer, Raphael Reher, Marcus Ludwig, Martin A. Hoffmann, Daniel Petras, William H. Gerwick, Juho Rousu, Pieter C. Dorrestein and Sebastian Böcker
Systematic classification of unknown metabolites using high-resolution fragmentation mass spectra
Nature Biotechnology, 2020.  https://doi.org/10.1038/s41587-020-0740-8
(Cite if you are using: CANOPUS)
Yannick Djoumbou Feunang, Roman Eisner, Craig Knox, Leonid Chepelev, Janna Hastings, Gareth Owen, Eoin Fahy, Christoph Steinbeck, Shankar Subramanian, Evan Bolton, Russell Greiner, David S. Wishart
ClassyFire: automated chemical classification with a comprehensive, computable taxonomy
J Cheminf, 8, 2016.  https://doi.org/10.1186/s13321-016-0174-y
(Cite if you are using: CANOPUS)
Kim, Hyun Woo and Wang, Mingxun and Leber, Christopher A. and Nothias, Louis-Félix and Reher, Raphael and Kang, Kyo Bin and van der Hooft, Justin J. J. and Dorrestein, Pieter C. and Gerwick, William H. and Cottrell, Garrison W.
NPClassifier: A Deep Neural Network-Based Structural Classification Tool for Natural Products
Journal of Natural Products, 84, 2021.  https://doi.org/10.1021/acs.jnatprod.1c00399
(Cite if you are using: CANOPUS)
Kai Dührkop, Huibin Shen, Marvin Meusel, Juho Rousu and Sebastian Böcker
Searching molecular structure databases with tandem mass spectra using CSI:FingerID
Proc Natl Acad Sci U S A, 112, 2015.  https://doi.org/10.1073/pnas.1509788112
(Cite if you are using: CSI:FingerID)
Martin A. Hoffmann and Louis-Félix Nothias and Marcus Ludwig and Markus Fleischauer and Emily C. Gentry and Michael Witting and Pieter C. Dorrestein and Kai Dührkop and Sebastian Böcker
Assigning confidence to structural annotations from mass spectra with COSMIC
bioRxiv, 2021.  https://doi.org/10.1101/2021.03.18.435634
(Cite if you are using: CSI:FingerID, COSMIC)
Sebastian Böcker and Kai Dührkop
Fragmentation trees reloaded
J Cheminform, 8, 2016.  https://doi.org/10.1186/s13321-016-0116-8
(Cite if you are using: Fragmentation Trees)
Sebastian Böcker, Matthias Letzel, Zsuzsanna Lipták and Anton Pervukhin
SIRIUS: Decomposing isotope patterns for metabolite identification
Bioinformatics, 25, 2009.  https://doi.org/10.1093/bioinformatics/btn603
(Cite if you are using: Isotope Pattern analysis)
Marcus Ludwig, Louis-Félix Nothias, Kai Dührkop, Irina Koester, Markus Fleischauer, Martin A. Hoffmann, Daniel Petras, Fernando Vargas, Mustafa Morsy, Lihini Aluwihare, Pieter C. Dorrestein, Sebastian Böcker
ZODIAC: database-independent molecular formula annotation using Gibbs sampling reveals unknown small molecules
bioRxiv, 2019.  https://doi.org/10.1101/842740
(Cite if you are using: ZODIAC)

SIRIUS质谱预测软件操作教程

面向质谱分析初学者和代谢组学研究人员的完整指南

引言

在代谢组学和天然产物研究领域,从复杂的质谱数据中准确鉴定化合物结构一直是一项具有挑战性的任务。传统的方法主要依赖谱图库匹配,但这种方法受到库容量的限制,对于新型化合物或缺乏标准品的情况往往束手无策。SIRIUS软件的出现为这一难题提供了优雅的解决方案——它采用in silico(计算预测)方法,无需谱图库即可从MS/MS数据中推导出化合物的分子式和结构信息。
本教程将系统性地介绍SIRIUS软件的核心功能、操作流程和实用技巧,帮助质谱分析初学者和代谢组学研究人员快速掌握这一强大工具。

第一部分:SIRIUS概述

1.1 什么是SIRIUS

SIRIUS是由德国耶拿大学(University of Jena)Sebastian Böcker团队开发的开源Java软件,专门用于从小分子MS/MS数据中鉴定化合物结构。与传统的谱图库搜索方法不同,SIRIUS采用计算机预测方法(in silico approach),不依赖于现有的谱图数据库,这使其能够处理新型化合物或缺乏标准品的复杂天然产物样本。
SIRIUS的核心创新在于将同位素模式分析碎裂树(Fragmentation Tree)计算相结合,通过严密的数学算法从质谱数据中推导出化合物的分子式和结构信息。这一方法在2020年被权威期刊Nature Methods评为”method to watch”,充分证明了其在代谢物鉴定领域的重要地位。
提示:SIRIUS的”SIRIUS”并非缩写,而是引用了夜空中最亮恒星的名称,象征着其在代谢物鉴定领域的引领作用。

1.2 SIRIUS核心模块介绍

SIRIUS实际上是一个集成多个强大模块的综合平台,每个模块负责特定的分析任务,它们协同工作形成完整的工作流:
SIRIUS核心模块

模块名称

功能描述

输入要求

SIRIUS

分子式鉴定,基于同位素模式和碎裂树计算

MS1 + MS2

ZODIAC

分子式候选物重新排名,使用贝叶斯网络

SIRIUS结果

CSI:FingerID

分子指纹预测和结构数据库搜索

分子式结果

CANOPUS

化合物分类预测,基于ClassyFire本体论

分子式结果

COSMIC

结构鉴定置信度评分

CSI:FingerID结果

MSNovelist

De novo结构生成(SIRIUS 6新增)

分子式 + 指纹

模块间的依赖关系
SIRIUS是所有分析的基石,必须首先运行
ZODIAC优化SIRIUS的分子式排名
CSI:FingerID和CANOPUS都需要SIRIUS提供的分子式
CANOPUS还需要CSI:FingerID的分子指纹预测结果
MSNovelist可独立使用或与CSI:FingerID互补

1.3 SIRIUS 6新特性

2024年发布的SIRIUS 6版本带来了多项重要更新:
MSNovelist De Novo结构生成这是SIRIUS 6最重要的新功能。MSNovelist使用编码器-解码器RNN模型,可以根据分子指纹和分子式信息直接生成化合物的SMILES结构,突破了数据库搜索的限制。
谱图库匹配增强支持与本地谱图库进行恒等搜索和类似物搜索,引入余弦相似度评分机制。
Epimetheus碎片化验证新增的碎片化验证模块可以交叉验证候选结构的合理性,提高鉴定置信度。
改进的LC-MS预处理增强了加合离子检测和特征峰识别的算法,提高了复杂样本的分析准确性。

1.4 系统要求与安装

硬件要求
处理器
:多核CPU,推荐4核以上
内存
:建议16GB以上,复杂数据集可能需要32GB
硬盘
:至少10GB可用空间用于安装和临时文件
显示器
:1920×1080分辨率或更高
软件要求
操作系统
:Windows 10/11、macOS 10.14+、Linux(Ubuntu 20.04+)
Java
:Java 17或更高版本(SIRIUS内置JRE,无需单独安装)
网络
:需要互联网连接以访问CSI:FingerID服务器
安装步骤
访问SIRIUS官方网站下载页面:https://bio.informatik.uni-jena.de/software/sirius/
根据您的操作系统选择对应版本(Windows选择.exe或.zip,macOS选择.dmg,Linux选择.tar.gz)
解压下载的文件到您希望安装的位置
首次启动时需要注册学术账号:
注意:学术用户可以免费使用SIRIUS,但需要有效的学术邮箱地址进行注册。

第二部分:数据准备与导入

2.1 支持的输入格式

SIRIUS支持多种质谱数据格式,选择合适的格式对于获得最佳分析结果至关重要:
推荐格式

格式

扩展名

说明

mzML

.mzML

开放标准格式,包含完整的LC-MS元数据,推荐用于LC-MS运行数据

mzXML

.mzXML

较早的开放格式,由Institute for Systems Biology开发

其他支持格式

格式

扩展名

说明

MGF

.mgf

Mascot Generic Format,峰列表格式,适用于单级或碎片质谱

ms

.ms

SIRIUS专用格式,可存储MS1和MS2谱图

CEF

.cef

Agilent MassHunter格式

提示:对于完整的LC-MS运行数据,推荐使用mzML格式,它保留了完整的保留时间信息和同位素模式。对于简单的MS/MS分析,MGF格式更为轻量。

2.2 数据预处理

外部预处理工具:虽然SIRIUS内置了预处理功能,但在处理复杂LC-MS数据时,使用专业工具进行预处理可以获得更好的结果:
MZmine
:开源的LC-MS数据处理平台,提供峰检测、对齐、归一化等功能
OpenMS
:C++库和Python接口的LC-MS分析框架
ProteoWizard MSConvert
:格式转换工具,支持将原始仪器数据转换为mzML
格式转换:如果您的数据是仪器原始格式(如.d、.raw、.wiff等),需要先转换为mzML格式:
plaintext

MSConvert input.raw –filter “peakPicker true” –mzML output.mzML

SIRIUS内置预处理:SIRIUS具有零参数(zero-parameter)预处理功能,可以自动处理:
同位素模式检测和去同位素峰
加合离子识别
噪声过滤

2.3 导入数据

通过拖放导入
启动SIRIUS并打开主界面
将数据文件直接拖放到SIRIUS窗口中
文件将自动被导入并显示在样本列表中
LC-MS运行导入流程
导入步骤详解
打开样本导入视图
选择数据文件
确认导入

2.4 加合离子处理

加合离子是质谱分析中的重要概念,正确的加合离子识别对于准确的分子式鉴定至关重要。
加合离子命名规则:SIRIUS使用标准化的加合离子命名格式:
plaintext

[M-LOSS+ADDUCT±IONIZATION]±

例如:[M+H]+表示质子化分子离子,[M+Na]+表示钠离子加合,[M-H]-表示去质子化离子。
加合离子检测
常用加合离子参考表

正离子模式(Positive)

负离子模式(Negative)

说明

[M+H]+

[M-H]-

最常见

[M+Na]+

[M+Cl]-

常见碱金属加合

[M+K]+

[M+FA-H]-

甲酸根加合

[M+NH4]+

铵离子加合

[M+H-H2O]+

脱水离子

提示:在正离子模式下,通常[M+H]+是最主要的信号;在负离子模式下,[M-H]-占主导。但生物样本中可能存在多种加合离子,SIRIUS会自动检测并列出所有可能的加合形式。

第三部分:分子式鉴定(SIRIUS核心)

3.1 工作原理

分子式鉴定是SIRIUS的核心功能,也是所有后续分析的基础。SIRIUS采用独特的双管齐下策略:
同位素模式分析(MS1):不同元素具有独特的同位素分布模式。例如,碳元素有12C和13C两种稳定同位素,其比值约为99:1。通过分析分子离子峰的同位素分布,SIRIUS可以:
确定化合物的大致元素组成
计算碳原子数量
排除不可能的分子式候选
碎裂树计算(MS2):碎裂树描述了化合物在质谱仪中碎裂的层级关系。与真实的化合物碎裂过程不同,碎裂树是一个计算模型,表示”如果这个分子式是正确的,那么它应该如何碎裂”。
综合评分
plaintext

总分 = 同位素分数 × 碎裂树分数

两个分数相乘确保了只有同时满足同位素模式和碎裂模式的分子式才会获得高分。

3.2 分子式候选物生成策略

SIRIUS提供三种分子式候选物生成策略:
De Novo(从头)模式
穷举所有化学可行的分子式
适用于:新型化合物、数据库中不存在的化合物
缺点:计算量大,可能产生化学上不可能的分子式
数据库搜索模式
仅在预先设定的结构数据库中搜索
适用于:已知类别的代谢物
优点:计算速度快,结果更可靠
Bottom-up(自底向上)模式
从已识别的碎片分子式自底向上构建母离子分子式
适用于:高能量碎裂、数据质量较差的样本
建议:对于未知化合物,推荐使用De Novo模式;对于已知类别的代谢物,数据库搜索模式更高效。

3.3 元素设置

正确的元素设置对于获得准确的分子式鉴定结果至关重要。
默认元素
plaintext

H, C, N, O, P

这些元素是绝大多数有机化合物的主要组成元素。
可选稀有元素
plaintext

B, S, Cl, Se, Br, F, I, Si, Na, K, Ca, Mg, Fe, Zn

元素设置建议

场景

元素选择

通用代谢物

默认元素 + S, Cl, Br

卤代化合物

添加 F, I

含硅化合物

添加 Si

金属离子化合物

添加 Na, K, Ca, Mg

警告不要同时选择所有稀有元素!这会极大增加候选分子式数量,导致计算时间大幅延长,且可能产生错误结果。只添加您预期可能存在的元素。

3.4 参数配置

关键参数说明
仪器类型(Instrument)

仪器类型

质量精度

适用场景

Orbitrap

高分辨(<5 ppm)

Thermo仪器

Q-TOF

高分辨(<10 ppm)

Agilent、Bruker仪器

FT-ICR

最高分辨(<1 ppm)

高端研究

Q-TOF 2014+

改进的Q-TOF

新型Agilent仪器

质量偏差(Tolerance)
建议值:Orbitrap使用5 ppm,Q-TOF使用10 ppm
过小的容差可能遗漏正确分子式
过大的容差会产生过多假阳性
候选物数量(Candidates)

-c

参数指定每个特征的候选分子式数量
建议值:10-50
ZODIAC优化后可以接受更高的初始值
其他重要参数
Candidate peak number
:考虑的前体离子候选峰数量
Maximum tree depth
:碎裂树最大深度,默认6
Positive/Negative mode
:根据实际采集模式选择

3.5 结果解读

结果界面解读
左侧面板 – 分子式列表
列出所有候选分子式,按评分排序
显示分子式、同位素分数、碎裂树分数、总分
高亮显示top候选物
右侧面板 – 详细信息
Isotope Pattern Score
:同位素模式匹配度(0-100)
Fragmentation Tree Score
:碎裂树评分
Explained Peaks
:已解释的峰数量和强度百分比
Molecular Formula
:化学式和精确质量
Mass Error
:与测量质量的偏差(ppm)
结果置信度判断

指标

高置信度

低置信度

总分

>50

<20

同位素分数

>80

<50

已解释峰强度

>70%

<40%

排名差距

第1名显著高于第2名

前几名分数接近

3.6 碎裂树解读

碎裂树是SIRIUS的核心创新,理解碎裂树对于评估鉴定结果至关重要。
什么是碎裂树:碎裂树是一个有向无环图,描述了从母离子到碎片离子的层级关系。每个节点代表一个离子(分子式),每条边代表一个碎裂反应(中性丢失)。
如何查看碎裂树:在分子式鉴定结果中,双击感兴趣的分子式即可打开碎裂树可视化窗口。
碎裂树质量评估

特征

好的碎裂树

差的碎裂树

节点数量

多(>10个碎片)

少(<5个碎片)

边的权重

主要丢失清晰

碎片分散

中性丢失

常见丢失(如NH3, H2O, CO)

罕见丢失

覆盖度

高比例的MS2峰被解释

大量未解释峰

常见问题解析
Pull-up问题:当碎裂树无法解释某些峰时,可能会错误地将它们作为独立的子离子纳入树中,导致分子式被”拉起”(pulled up)。表现为高分但化学上不合理。
平行四边形问题:碎裂树中存在两条不同路径得到相同碎片的情况,这会增加计算复杂度但通常不影响最终排名。

第四部分:ZODIAC分子式优化

4.1 为什么需要ZODIAC

ZODIAC(Zero-order Deconvolution with Automated Compound Classification)的引入解决了SIRIUS分子式鉴定中的一个关键问题:在某些情况下,正确分子式的排名可能低于错误分子式。
问题的根源:生物样本中的代谢物来自有限的生物合成通路(如氨基酸合成、糖代谢等),这意味着相关化合物倾向于共享相似的元素组成和结构特征。传统的SIRIUS方法独立评估每个分子式,没有利用这一信息。
ZODIAC的解决方案:ZODIAC通过构建分子式相似性网络,利用贝叶斯统计方法重新排名分子式候选物。如果两个碎片谱图相似的化合物,其分子式也应该相似。

4.2 使用方法

前置要求:
必须先运行SIRIUS分子式鉴定
每个特征需要足够数量的候选分子式(建议-c ≥ 50)
建议至少10个以上特征用于构建网络
启用ZODIAC
在SIRIUS主界面,选择”Settings” → “Compute”
勾选”Run ZODIAC”选项
设置ZODIAC参数:
运行ZODIAC
plaintext

sirius –input data.mgf –project project-space formulas -c 50 zodiac

4.3 参数建议

最小本地连接数(Minimum Local Connections)
较低值(1-2):更敏感,但可能引入噪声
较高值(5+):更保守,但可能遗漏弱关联
边阈值(Edge Threshold)
较低值(0.3-0.4):更多连接,更密集的网络
较高值(0.6-0.7):更少连接,更稀疏的网络
运行时间与精度权衡
ZODIAC的计算时间与特征数量和候选物数量成正比
对于大数据集(>1000特征),可能需要较长的计算时间
可以使用

–zodiac-threads

参数增加并行线程数
提示:如果ZODIAC运行时间过长,可以先在小样本上测试参数,找到最佳设置后再应用于完整数据集。

第五部分:结构鉴定(CSI:FingerID + COSMIC)

5.1 CSI:FingerID工作原理

CSI:FingerID是SIRIUS进行结构鉴定的核心模块,它将分子式信息转换为可能的化合物结构。
工作流程
分子指纹预测
数据库搜索
候选结构排序
数据库选择建议

数据库

化合物数量

适用场景

PubChem

>1亿

通用搜索,最全面

BioCyc

~15,000

已知代谢物

KEGG

~20,000

代谢通路相关

HMDB

~250,000

人源代谢物

5.2 置信度评分(COSMIC)

COSMIC(Confidence of Structure Identification using Machine learning)是SIRIUS 5引入的置信度评分系统,它提供了类似FDR(假发现率)的可靠性评估。
两种评分模式
精确模式(Exact Mode):回答问题:”这个确切结构是否正确?”
严格的1% FDR阈值
适用于需要高置信度的研究
近似模式(Approximate Mode):回答问题:”这个结构是否正确或高度相似?”
放宽的10% FDR阈值
适用于初步筛选或探索性研究
COSMIC分数解读

COSMIC分数

含义

0.9-1.0

极高置信度,正确结构几乎确定

0.7-0.9

高置信度,结构很可能正确

0.5-0.7

中等置信度,结构可能是正确的

0.3-0.5

低置信度,需要进一步验证

<0.3

极低置信度,结果不可靠

5.3 结果解读

结构视图界面
左侧面板 – 结构列表
显示所有候选结构,按评分排序
显示结构名称、CAS号、数据库来源
显示COSMIC分数
右侧面板 – 结构详情
二维分子结构图
分子指纹比较(预测 vs 实际)
匹配详情(哪些指纹匹配/不匹配)
相关谱图比较
分子指纹比较:CSI:FingerID会显示预测指纹与候选结构实际指纹的对比:
✓ 绿色标记:成功预测的指纹特征
✗ 红色标记:未预测到的特征
?灰色标记:不确定的特征
提示:仅依赖一个结构数据库可能遗漏正确结果。建议在多个数据库中搜索,或使用MSNovelist进行de novo结构生成作为补充。

第六部分:化合物分类预测(CANOPUS)

6.1 CANOPUS的独特优势

CANOPUS(Classification of Alkaloids by Organelle Predictability of Ultrahigh-resolution Samples)是SIRIUS家族中一个独特的存在——它是目前唯一能够无需数据库搜索即可预测化合物结构类别的方法。
核心优势

特性

说明

无数据库依赖

不需要已知结构数据库

广泛覆盖

可预测2500+化合物类别

基于本体论

使用ClassyFire化学分类体系

未知物友好

对数据库中不存在的化合物也能分类

ClassyFire本体论:CANOPUS使用ClassyFire分类体系,这是一个层次化的化学本体论:
Kingdom(界)
:有机化合物 vs 无机化合物
Superclass(超类)
:如苯丙醇类、生物碱等
Class(类)
:如黄酮类、萜类等
Subclass(子类)
:更细的分类

6.2 使用方法

前置要求
必须先运行SIRIUS分子式鉴定
需要CSI:FingerID指纹预测结果
启用CANOPUS:在计算设置中勾选”Run CANOPUS”,然后运行分析。

6.3 结果解读

分类预测结果:CANOPUS为每个化合物提供:
预测的类别(Kingdom → Superclass → Class → Subclass)
每个类别的概率分数
分类的置信度
结果可视化:CANOPUS提供多种可视化方式:
层次结构树状图
类别分布饼图/柱状图
化合物-类别热图
应用场景
快速了解代谢样本的整体化学组成
比较不同样本/处理组的化合物类别分布
对大量未知化合物进行初步分类

第七部分:MSNovelist De Novo结构生成

7.1 为什么需要De Novo

尽管CSI:FingerID在结构数据库搜索方面表现出色,但它受到数据库覆盖度的限制。对于以下情况,De Novo方法可能是更好的选择:
数据库搜索的局限性
数据库中只包含已知化合物
新型天然产物可能不在任何数据库中
结构修饰和类似物可能被遗漏
MSNovelist的价值
不依赖任何已知结构
可以为数据库中不存在的化合物生成合理的结构假设
特别适合天然产物研究和代谢物注释

7.2 工作原理

MSNovelist使用**编码器-解码器循环神经网络(RNN)**架构:
编码阶段
输入:分子式信息 + 预测的分子指纹
将这些信息编码为密集向量表示
解码阶段
RNN解码器基于编码向量生成SMILES字符串
使用束搜索(beam search)生成多个候选结构
输出
多个可能的SMILES结构
每个结构的置信度分数
与输入数据的匹配度评估
重要提示:MSNovelist生成的是结构假设,不是最终结论。这些结构需要通过其他方式(如文献检索、NMR验证)进行验证。

第八部分:谱图库匹配

8.1 本地谱图库导入

除了CSI:FingerID的数据库搜索,SIRIUS还支持本地谱图库匹配,可以利用您自己的或第三方谱图库。
支持的格式

格式

扩展名

说明

SIRIUS

.ms

SIRIUS格式,可存储MS1和MS2

MGF

.mgf

Mascot Generic Format

NIST MSP

.msp

NIST格式

MATLAB

.mat

MATLAB格式

MassBank

.mb

MassBank数据库格式

JSON

.json

结构化JSON格式

导入步骤
选择”Database” → “Import Spectral Library”
浏览并选择谱图库文件
选择文件格式
点击”Import”完成导入

8.2 匹配模式

SIRIUS支持两种谱图库搜索模式:
恒等搜索(Identity Search)
寻找与查询谱图几乎完全匹配的标准谱图
使用余弦相似度评分
高分表示高度相似(可能是同一化合物或异构体)
类似物搜索(Analog Search)
寻找具有相似碎裂模式的谱图
适用于数据库中没有完全匹配的情况
可以发现结构类似物
余弦相似度评分
plaintext

Cosine Score = Σ(I1 × I2) / √(ΣI1² × ΣI2²)

范围:0-1(或0-1000)
0.9:高置信度匹配
0.7-0.9:中等置信度
<0.7:低置信度
结构编辑器功能
SIRIUS内置的分子结构编辑器允许用户手动绘制和编辑化合物结构。该编辑器支持:
SMILES字符串输入
交互式结构绘制
MOL文件导入导出
与搜索结果的结构进行比较验证
在结构搜索结果中,您可以使用结构编辑器:
查看候选结构的二维结构图
手动验证结构与谱图的匹配度
修改候选结构进行进一步分析
导出结构用于其他软件

第九部分:命令行界面(CLI)

9.1 基本命令格式

SIRIUS提供强大的命令行界面,适合批量处理和集成到自动化工作流中。
基本语法
bash

sirius [OPTIONS] -i/–input -o/–project

核心选项

选项

说明

-i, --input

输入文件路径

-o, --project

项目空间路径

-p, --instrument

仪器类型

-c, --candidates

每个特征的候选分子式数量

--output

输出目录

9.2 常用命令示例

完整分析流程
bash

sirius –input demo-data/mgf/laudanosine.mgf \

–project project-space \

formulas -p orbitrap \

fingerprints \

classes \

structures \

write-summaries \

–output summary-files-dir

仅分子式鉴定
bash

sirius –input demo-data/ms/Bicuculline.ms \

–project projectspace \

formulas -p orbitrap

包含ZODIAC优化
bash

sirius -i input.mgf \

-o projectspace \

formulas -c 50 \

zodiac \

fingerprint \

structure \

–database pubchem

仅CANOPUS分类
bash

sirius -i input.mgf \

-o projectspace \

formulas \

fingerprint \

canopus

MSNovelist De Novo结构生成
bash

sirius -i input.mgf \

-o projectspace \

formulas \

fingerprint \

msnovelist

9.3 批量处理与集群计算

多文件批量处理
bash

处理多个文件

sirius -i “data/*.mzML” -o projectdir formulas -p orbitrap

并行计算
bash

使用多个线程

sirius -i data.mgf -o projectdir formulas -p orbitrap –threads 8

集群计算:SIRIUS支持通过以下方式进行集群计算:
使用

–sirius-only

先计算SIRIUS部分(本地)
使用

–fingerid-only

单独提交CSI:FingerID任务(服务器)

第十部分:实用技巧与常见问题

10.1 数据质量要求

质量精度要求:SIRIUS对质量精度有严格要求,以下条件是获得准确结果的前提:

要求

说明

质量精度

<20 ppm(Orbitrap通常可达5 ppm)

分辨率

高分辨质谱(Orbitrap、Q-TOF、FT-ICR)

离子源

ESI(电喷雾电离)最适用

数据类型

不适用于四极杆和线性离子阱数据

MS/MS谱图质量
信噪比越高越好
需要清晰的碎片离子
同位素模式应该完整可见
警告:如果您的数据来自低分辨质谱(如四极杆)或质量精度较差(>50 ppm),SIRIUS可能无法提供可靠的结果。

10.2 提高鉴定成功率的技巧

优化质量偏差设置
Orbitrap数据:使用5 ppm
Q-TOF数据:使用10 ppm
如果结果不佳,可以尝试扩大容差范围
合理选择元素范围
plaintext

基础设置

C 0-50 H 0-100 N 0-10 O 0-20 P 0-5

添加常见元素

+13Candidates S 0-3 Cl 0-2 Br 0-1

ZODIAC优化策略
初始候选物数量设置高一些(-c 50或更高)
ZODIAC可以有效提升正确分子式的排名
预处理优化
使用MZmine或OpenMS进行峰检测
过滤低强度峰和噪声
合并来自同一离子的不同加合形式

10.3 常见问题解答

Q1:计算时间过长怎么办?
减少候选分子式数量(-c 10)
使用ZODIAC时增加线程数(–zodiac-threads)
将大文件拆分为小文件处理
Q2:内存不足(OutOfMemoryError)?
增加Java堆内存:

sirius -Xmx32g …

减少同时处理的特征数量
使用数据库搜索而非De Novo模式
Q3:网络服务连接失败?
检查互联网连接
CSI:FingerID需要访问远程服务器
确认防火墙没有阻止SIRIUS
Q4:结果置信度普遍较低?
检查数据质量(质量精度、信噪比)
确认加合离子设置正确
尝试不同的元素设置

10.4 结果导出与可视化

导出碎裂树
格式:SVG、PDF、PNG
可直接在论文中使用
导出结构候选物
格式:CSV、TSV、JSON
包含结构、评分、COSMIC分数
导出项目空间
完整项目备份
可在另一台机器上继续分析
与GNPS集成:SIRIUS结果可以导出为GNPS兼容格式,进行分子网络分析。

第十一部分:实际案例演示

11.1 单一化合物分析

目标:分析示例化合物Bicuculline的MS/MS数据
步骤1:导入数据
bash

sirius –input demo-data/ms/Bicuculline.ms –project bicuculline-project

步骤2:运行分子式鉴定
plaintext

使用GUI操作

1. 选择 File → Open Project

2. 选择导入的.ms文件

3. 点击 Compute → Formulas

4. 设置仪器类型:Orbitrap

5. 点击 Run

步骤3:查看结果
在Formulas视图中查看候选分子式
正确分子式C20H17NO6应排名第一位
同位素分数和碎裂树分数都应较高
步骤4:运行结构鉴定
plaintext

1. 点击 Compute → Fingerprints

2. 点击 Compute → Structures

3. 选择数据库:PubChem

步骤5:验证结果
检查COSMIC分数(应>0.7)
比较预测指纹与实际指纹
查看结构匹配详情

11.2 LC-MS/MS完整运行分析

目标:分析一批LC-MS/MS数据
步骤1:数据预处理
使用MZmine进行峰检测
导出为mzML格式
使用MZmine进行特征对齐和注释
步骤2:导入SIRIUS
bash

sirius –input processed_data.mzML –project lcms-project

步骤3:批量分析
plaintext

使用GUI

1. 选择所有样本

2. Compute → Formulas (勾选ZODIAC)

3. Compute → Fingerprints

4. Compute → Canopus

5. Compute → Structures

步骤4:结果整合
导出汇总表(CSV)
使用R/Python进行下游统计分析

11.3 代谢组学数据集分析

工作流程整合
XCMS Online
→ 峰检测和对齐
SIRIUS
→ 分子式鉴定 + ZODIAC优化
CANOPUS
→ 化合物分类
CSI:FingerID
→ 结构鉴定
统计分析
→ 差异分析、 Pathway分析
实用建议
先运行CANOPUS快速了解样本的化合物类别分布
使用ZODIAC提高分子式排名准确性
CSI:FingerID结果需要结合COSMIC分数筛选

第十二部分:SIRIUS与其他工具比较

12.1 工具对比

工具

方法

数据库依赖

优势

局限

SIRIUS

In silico

可选

综合分析、CANOPUS

需要高分辨数据

CFM-ID

Machine learning

可选

快速、web服务器可用

仅预测谱图

MetFrag

Database search

必须

用户友好

需要已知化合物

MS-FINDER

In silico + DB

必须

多种搜索模式

日语界面

GNPS

Molecular networking

必须

社区资源

需要上传数据

12.2 互补使用策略

推荐工作流
SIRIUS
→ 分子式鉴定(De Novo)
CANOPUS
→ 化合物分类
CSI:FingerID
→ 结构搜索
MSNovelist
→ 补充结构假设
GNPS
→ 分子网络(如果数据已上传)
多工具验证:对于重要发现,建议使用至少两种不同方法进行验证:
SIRIUS分子式 + MS-FINDER分子式
CSI:FingerID结构 + MetFrag结构

附录:SIRIUS操作流程思维导图

结语

SIRIUS软件代表了代谢物结构鉴定领域的重大突破,它将同位素模式分析、碎裂树计算和机器学习方法完美融合,为质谱分析研究人员提供了强大的工具。通过本教程,您应该已经掌握了SIRIUS的核心功能和操作方法。
下一步建议
下载SIRIUS并使用示例数据进行练习
阅读SIRIUS官方文档了解最新功能
加入SIRIUS用户社区获取支持
探索SIRIUS与其他工具的集成应用
温馨提示:SIRIUS开发团队位于德国耶拿大学,持续活跃地进行开发和更新。建议定期检查官方网站获取最新版本和新功能介绍。
参考资源SIRIUS官方网站:
SIRIUS文档:
GitHub仓库:
用户论坛:
本教程基于SIRIUS v6版本编写,部分功能和界面可能随软件更新而变化。

加入仪器分析前沿资料信息库,

送质谱学堂代谢组学分析手册

最近建的可以薅羊毛的有关色谱质谱科研内容的小圈子

···························································································································

仪器分析学苑是,致力于为广大科研工作者、技术人员和学生提供丰富的仪器分析知识、实验技巧和行业动态,可以获取您想要的技术文档,测试优惠,实验耗材,尤其对照品和塑料制品,目前开发了免费质谱工具和质谱解谱软件,低价加入小圈子可获取持续更新仪器学习科研资料http://s.a0j.top/C8dcMnC/CBETB

2.包年咨询,仪器分析学苑知识星球

https://t.zsxq.com/0fi0l3WGy

加入仪器分析知识星球包年服务福利:

加入星球福利二:质谱辅助与解谱软件 ms assistant

随着资料逐渐增加,会员人数逐渐增多,每隔半年,星球价格会依据情况相应上浮,早加入,早享受,等待就是成本!

星球价格,不过一顿饭,但是星球却可以持续的给你提供价值,助力市场开拓,销售增长,职场提升。还能扩大行业链接,增加创富可能!

此外仪器分析学苑 可以提供VIP贵宾服务:

专家社群咨询【送知识星球】

2. 个人咨询(单次和一对一):液相质谱方法开发,empower软件,masslynx软件,unifi软件 qsight simplicity, waters,安捷伦,ab,pe液质联用技术,分子网络GNPS

相关的群聊:

盖独学难成, 唯友为益也,我们给大家建立了一个学习,交流,资源的专业分享平台,群里除了日常可以提问,大神会帮助解答以外,群中还有很多老师分享的文档、资料、书籍,绝对让你受益匪浅!为了防止机器人和无关人员加入:现有两种进群方式

行业动态,职业发展【科学家雄鹰计划】目前分为分析,制剂,生物三个板块【行业大佬背书】

加入一: 分析科学家雄鹰计划群聊a与b,已经超过200人,有大量资源,现转为收费群(19.9),

加入二:9.9元红包,直接入分析科学家雄鹰计划群C,生物科学家雄鹰计划A与制剂科学家雄鹰计划A,关注加星标公众号,在看点赞,转发公众号任意文章在朋友圈3h不删除,邀请入群

测试平台:

实验室生化环材耗材一站实服务,日常耗材,通用仪器

兰杰柯商城https://mall.labgic-ljk.com/,私聊下单,会员可有折扣或福利,优势代理,比克曼,白鲨等,代谢蛋白前处理耗材,其他材料

2. 对照品

20w种有证生化环标准物质bepure(特色同位素液标)https://www.bepurecrm.com/

有证杂质质控:https://www.cato-chem.com/

甄准https://www.zzsrm.cn/ 其他:中药 低聚糖 农残兽药脂质优势代理

3.化学中间体与材料供应

4 复杂中药定性定量测试分析,质谱解谱,代谢组【非靶广靶靶向空间代谢组】,蛋白组,分子网络培训,物性检测SEM ,冷冻SEM,XRD,DSC,TG,ITC,BET等

支持代购分子物质与生化试剂代理品牌:麦克林,阿拉丁,targetmol,sigma,  科进 洁特 耐思 碧云天 索莱宝 凯基 麦迪康  施睿康 源叶 三鹰 江莱 亚科因 陶术 Absea  Apexbio,酶免,艾迪生欢迎咨询等

基于公众号的国内首个科研问答智能体上线了。

大家关注公众号这么久,有些知识搜不到,或者需要找色谱质谱科研资料,我们训练了几十本色谱质谱书籍及包括上千篇公众号文章,而且不断更新,现在关注公众号,后台发送需要提问问题,或者使用公众号中仪器分析学苑智能体小程序,就可以问答知识,快速找资料了 ,更多咨询问题和资料请关注仪器分析学苑知识星球

部分来源于互联网,B站,公众号等

END

声明:本公众号所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。所有文章仅代表作者观点,不代表本站立场。