乐于分享
好东西不私藏

NCBI下载方式大变天:停用rsync协议,科研小朋友的儿童节噩梦,一文教你丝滑迁移!

NCBI下载方式大变天:停用rsync协议,科研小朋友的儿童节噩梦,一文教你丝滑迁移!

点击蓝字和星标⭐️ 听说发顶刊的都关注了!

科研小朋友的儿童节噩耗!美国国家生物技术信息中心(NCBI)官方宣布,将于2026年6月1日起,正式停止对FTP下载的rsync协议支持。这让生信科研er咋办呢?👇

NCBI突发儿童节噩梦公告
  • 重点敲黑板:

1.停用时间2026年6月1日

2.影响范围:之前所有使用rsync链接NCBI的自动脚本和流程

3.导致结果:要是不修改脚本,儿童节之后就直接失败报错咯~

1 用的好好的,为什么要停呢?

简单解释背后的原因

  • 安全性rsync在现代网络安全标准下显得有些老旧

  • 稳定性:为了支持全球更海量的数据并发,NCBI正在将基础设施向更现代化的HTTPS专门的API工具转移。

  • 配套更新:顺便提一下GenBank Release 271.0已经上线(53.9万亿碱基),数据量的爆发也需要更高效的工具。


2 官方小妙招,但我觉得不够妙

2.1 NCBI Insights提供了一些下载方法

NCBI官方下载小妙招
  • 如果是大型序列数据集

那么NCBI数据集命令行工具(CLI)和SRA工具包是不二选择。这两个工具针对高效访问NCBI数据进行了优化,可以轻松地将它们集成到数据处理流程中。

NCBI数据集命令行工具(CLI)

#推荐直接使用conda安装ncbi-datasets-cli##创建ncbi_datasets环境conda create -n ncbi_datasets##激活环境conda activate ncbi_datasets##安装ncbi-datasets-cliconda install -c conda-forge ncbi-datasets-cli###针对不同数据ncbi-datasets-cli使用方法有很多,参考以下官方链接https://www.ncbi.nlm.nih.gov/datasets/docs/v2/how-tos/
NCBI数据集命令行工具(CLI)使用

SRA工具包

#下载原始数据建议用SRA Toolkit##也可以直接用conda安装conda install -c bioconda sra-tools##单个下载prefetch SRR000001##批量下载prefetch --option-file sra_list.txt###sra_list.txt格式SRR000001SRR000002SRR000003
  • 如果是少量文件

那就直接使用wget和curl,这些轻量级选项非常适合用于获取特定数据文件的简单shell脚本。

找到下载链接直接下载即可

#wget方式wget -c https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR38325455/SRR38325455#curl方式curl https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR38325455/SRR38325455
SRA数据下载链接获取方式

2.2 不够妙的是没有magic下载巨慢

  • 那么更妙的下载方式来了

比如你有SRA数据号SRR36608452,那么可以到CNCB去获取国家生物信息中的下载链接!

CNCB下载链接

直接用wget命令下载即可

wget -c https://download2.cncb.ac.cn/INSDC6/SRA/36/SRR36608/SRR36608452//SRR36608452

tips:直接解决NCBI连不上问题下载速度可以达到直接访问NCBI的十倍到百倍之多!

CNCB网站 https://ngdc.cncb.ac.cn/?lang=zh


3 特别提醒:断网演练

  • 别拖到最后一天再去改脚本

很多人会拖到最后一天才改,但是:NCBI官方会在5月12日和5月27日进行“断网演练(Brownouts)”

这意味着在这两天,rsync会临时不可用。这不仅是官方的测试,也是读者的“脚本压力测试”。

你的脚本里还有rsync吗?评论区聊聊你有没有更高效的工具呢?