乐于分享
好东西不私藏

公共测序数据下载工具 fastq-dump 的更新(二)

公共测序数据下载工具 fastq-dump 的更新(二)

传统旧版 fastq-dump 下载公共测序数据时,可能由于网络不稳定等原因,导致下载速度慢。其新版 fasterq-dump,可明显提升大型 SRA 文件的转换速度,提高测序数据下载的速度和稳定性。上期回顾:

公共测序数据下载工具 fastq-dump 的更新(一)

后续的问题:

fasterq-dump 安装之后如何使用?

fasterq-dump 与 fastq-dump 的用法相同吗,分析流程里是否需要改 fastq-dump 的代码?

下载最后获得的是 fastq.gz 压缩文件吗?

如何评估 fasterq-dump 的下载速度稳定性

进入易生信《单菌基因组数据分析》课程的教学服务器账号 (普通用户)

which fastq-dump# /usr/local/bin/fastq-dumpfastq-dump --help

fastq-dump : 3.0.0 (系统公共区旧版)

下载、上传 fasterq-dump 软件包:

上传至教学服务器:

先运行 pipeline 的 1~214 行 (WGS_prokaryote.pipeline.v0.7.sh),再将 218~221 行代码加井号注释掉,并做如下修改运行

cd ${soft}/tar -vxzf sratoolkit.current-centos_linux64.tar.gzexport PATH=${soft}/sratoolkit.3.2.0-centos_linux64/bin/:${PATH}which  fastq-dumpfastq-dump --help
测试 fasterq-dump:
which  fasterq-dump# ~/wgs/soft/sratoolkit.3.2.0-centos_linux64/bin/fasterq-dumpfasterq-dump --help

fasterq-dump : 3.2.0

配置 (必须配置、激活,否则影响下载):

which vdb-config# ~/wgs/soft/sratoolkit.3.2.0-centos_linux64/bin/vdb-config
vdb-config --interactive

以公共测序数据 SRR14877911 为例,比较新、旧 fastq-dump:

新版:

cd ~/wgs/fastq/bak/# 会报错 (fasterq-dump 看起来没有 --gzip 参数)# prefetch SRR14877911 && fasterq-dump SRR14877911 --split-3 --gzip# 2026-04-27T11:49:05 fasterq-dump.3.2.0 # err: param unknown while parsing argument list within application # support module - Unknown argument '--gzip'# 会产生大的 .sra 临时文件 (242 MB,大小几乎等同于 fastq.gz):SRR14877911/SRR14877911.sra# prefetch SRR14877911 && fasterq-dump SRR14877911 --split-3 && pigz -p 4 SRR14877911*.fastq# 总耗时不到 1 分钟prefetch SRR14877911 && fasterq-dump SRR14877911 --split-3 && pigz -p 4 SRR14877911*.fastq && rm -r SRR14877911/# gzip 压缩,总耗时 8 分钟# prefetch SRR14877911 && fasterq-dump SRR14877911 --split-3 && gzip SRR14877911*.fastq && rm -r SRR14877911/

注意:

① pigz 的 -p 4,指定 4 个线程压缩,可根据 CPU 核心数调整

② pigz 压缩后会自动删除原始的 .fastq 文件,只保留 .fastq.gz

③ 若没有安装 pigz,可尝试用 gzip SRR14877911*.fastq 替代 (稍)

④ 代码末尾删除了临时文件 (.sra 临时文件 242 MB,大小几乎等同于 fastq.gz):rm -r SRR14877911/

用时:不到1分钟

日志:

2026-04-27T12:07:53 prefetch.3.2.0: 1) Resolving ‘SRR14877911’…
2026-04-27T12:07:56 prefetch.3.2.0: Current preference is set to retrieve(取回)SRA Normalized Format files with full base quality scores
2026-04-27T12:08:00 prefetch.3.2.0: 1) Downloading ‘SRR14877911’…
2026-04-27T12:08:00 prefetch.3.2.0:  SRA Normalized Format file is being retrieved
2026-04-27T12:08:00 prefetch.3.2.0:  Downloading via HTTPS
2026-04-27T12:08:29 prefetch.3.2.0:  HTTPS download succeed
2026-04-27T12:08:30 prefetch.3.2.0:  ‘SRR14877911’ is valid: 254160414 bytes were streamed from 254154301
2026-04-27T12:08:30 prefetch.3.2.0: 1) ‘SRR14877911’ was downloaded successfully
2026-04-27T12:08:30 prefetch.3.2.0: 1) Resolving ‘SRR14877911’s dependencies…
2026-04-27T12:08:30 prefetch.3.2.0: ‘SRR14877911’ has 0 unresolved dependencies
spots read      : 826,235
reads read      : 1,652,470
reads written   1,652,470

临时文件:

文件大小:

pigz 压缩

151048105 Apr 27 20:28 SRR14877911_1.fastq.gz

167143545 Apr 27 20:28 SRR14877911_2.fastq.gz

gzip 压缩

150856619 Apr 27 20:51 SRR14877911_1.fastq.gz

166961435 Apr 27 20:51 SRR14877911_2.fastq.gz

旧版 (相同的服务器,另一个普通用户,下载相同的 SRR):

cd /disk2/home/microg8_trainee1~/wgs/soft/sratoolkit.3.0.0-centos_linux64/bin/fastq-dump-orig.3.0.0 -v --split-3 --gzip SRR14877911ll -tr

Read 826235 spots for SRR14877911

Written 826235 spots for SRR14877911

文件大小:

150970393144M Apr 27 20:05SRR14877911_1.fastq.gz

167092548  160M Apr 27 20:05SRR14877911_2.fastq.gz

用时: 约30分钟 (19:32 ~ 20:05)

总结:新、旧版下载的文件大小几乎相同 (spots数量完全相同),速度有10倍以上差别。

换一个 SRR,结论同上 (半分钟 vs. 10分钟;文件行数完全相同):

# 新版 - fasterq-dumpprefetch SRR13449601 && fasterq-dump SRR13449601 --split-3 && pigz -p 4 SRR13449601*.fastq && rm -r SRR13449601/# 耗时:半分钟# 文件行数:zcat SRR13449601_1.fastq.gz | wc -l# 3,230,552# 旧版 - fastq-dump~/wgs/soft/sratoolkit.3.0.0-centos_linux64/bin/fastq-dump-orig.3.0.0 -v --split-3 --gzip SRR13449601# Read 807638 spots for SRR13449601# Written 807638 spots for SRR13449601# 耗时:10分钟zcat SRR13449601_1.fastq.gz | wc -l# 3,230,552

适配自己的测序数据,扫码联系客服老师报名,领取资料、上手分析: