NCBI下载方式大变天:停用rsync协议,科研小朋友的儿童节噩梦,一文教你丝滑迁移!
点击蓝字和星标⭐️ 听说发顶刊的都关注了!
❝
科研小朋友的儿童节噩耗!美国国家生物技术信息中心(NCBI)官方宣布,将于2026年6月1日起,正式停止对FTP下载的rsync协议支持。这让生信科研er咋办呢?👇

-
重点敲黑板:
1.停用时间:2026年6月1日
2.影响范围:之前所有使用rsync链接NCBI的自动脚本和流程
3.导致结果:要是不修改脚本,儿童节之后就直接失败报错咯~
1 用的好好的,为什么要停呢?
简单解释背后的原因:
-
安全性:rsync在现代网络安全标准下显得有些老旧。
-
稳定性:为了支持全球更海量的数据并发,NCBI正在将基础设施向更现代化的HTTPS和专门的API工具转移。
-
配套更新:顺便提一下GenBank Release 271.0已经上线(53.9万亿碱基),数据量的爆发也需要更高效的工具。
2 官方小妙招,但我觉得不够妙
2.1 NCBI Insights提供了一些下载方法

-
如果是大型序列数据集
那么NCBI数据集命令行工具(CLI)和SRA工具包是不二选择。这两个工具针对高效访问NCBI数据进行了优化,可以轻松地将它们集成到数据处理流程中。
NCBI数据集命令行工具(CLI)
#推荐直接使用conda安装ncbi-datasets-cli##创建ncbi_datasets环境conda create -n ncbi_datasets##激活环境conda activate ncbi_datasets##安装ncbi-datasets-cliconda install -c conda-forge ncbi-datasets-cli###针对不同数据ncbi-datasets-cli使用方法有很多,参考以下官方链接https://www.ncbi.nlm.nih.gov/datasets/docs/v2/how-tos/

SRA工具包
#下载原始数据建议用SRA Toolkit##也可以直接用conda安装conda install -c bioconda sra-tools##单个下载prefetch SRR000001##批量下载prefetch --option-file sra_list.txt###sra_list.txt格式SRR000001SRR000002SRR000003
-
如果是少量文件
那就直接使用wget和curl,这些轻量级选项非常适合用于获取特定数据文件的简单shell脚本。
找到下载链接直接下载即可
#wget方式wget -c https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR38325455/SRR38325455#curl方式curl https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR38325455/SRR38325455


2.2 不够妙的是没有magic下载巨慢
-
那么更妙的下载方式来了
比如你有SRA数据号SRR36608452,那么可以到CNCB去获取国家生物信息中的下载链接!

直接用wget命令下载即可
wget -c https://download2.cncb.ac.cn/INSDC6/SRA/36/SRR36608/SRR36608452//SRR36608452
tips:直接解决NCBI连不上问题,下载速度可以达到直接访问NCBI的十倍到百倍之多!
❝
CNCB网站 https://ngdc.cncb.ac.cn/?lang=zh
3 特别提醒:断网演练
-
别拖到最后一天再去改脚本
很多人会拖到最后一天才改,但是:NCBI官方会在5月12日和5月27日进行“断网演练(Brownouts)”。
这意味着在这两天,rsync会临时不可用。这不仅是官方的测试,也是读者的“脚本压力测试”。
你的脚本里还有rsync吗?评论区聊聊你有没有更高效的工具呢?

夜雨聆风