乐于分享
好东西不私藏

云平台小工具——基于登录号批量下载基因组文件

云平台小工具——基于登录号批量下载基因组文件

还在为下载 NCBI 序列而反复点击网页吗?无论是写论文还是做分析,获取标准数据(如 NC_登录号对应的 Fasta/GBK 文件)都是第一步。本文将带你从最基础的“手工活”讲起,逐步升级到高效稳定的云端自动化工具,彻底解决批量下载的痛点。

一、入门级:网页单条下载(适合极少量数据)

这是大多数科研人第一次接触 NCBI 的方式,流程直观但效率极低。

操作步骤:

在 NCBI Nucleotide 数据库(https://www.ncbi.nlm.nih.gov/nucleotide?cmd=Retrieve)输入登录号(如 CP000838.1)。

进入详情页,点击 Send to,选择所需的数据格式,点击下载。

适用场景:仅需下载 1-2 条序列的临时需求。

二、进阶版:Batch Entrez 网页批量

如果我们要下载的是成百上千个基因组,使用前面的下载方式是低效的。这时候我们可以使用Entrez网站(https://www.ncbi.nlm.nih.gov/sites/batchentrez)下载,Entrez可以根据上传文件中的id下载多个基因组。首先选择对应的数据库,然后上传需要下载的序列id的文件,最后点击Retrieve,会先看到id匹配的情况,可以点击进入搜索到的结果进行下载,下载后所有序列会被保存在同一个文件夹中。

适用场景:需批量下载基因组序列,默认下载的是所有序列合并的一个大文件,若需按登录号拆分,仍需本地二次处理。

关于Batch Entrez的具体使用步骤可以参考我们之前发布的文章Batch Entrez — 批量从NCBI上下载基因序列》

三、终极方案:密码子生信云“批量下载”小工具(推荐) 

上海唯那生物已推出生信云平台服务,包含多种测序数据一键化分析流程和超百种实用小工具。可以帮助大家更方便的生物信息学分析,将操作流程简单化,无需安装软件,无需配置环境,即可快速输出需要的结果。

如果你觉得 Batch Entrez 操作繁琐,又不想折腾 Biopython 或命令行环境,密码子生信云的 “基于登录号批量下载基因组文件”小工具是完美的折中方案。它保留了“上传列表”的简单操作,但实现了全自动化的后台处理。

地址:http://cloud2.mimazi.net:9001/tool/article-65.html

使用方法与结果示例
准备输入:
和之前一样,准备一个 list.txt文件,每行一个标准登录号。
一键运行:
访问工具页面,上传文件,点击 提交计算,任务完成后,直接下载压缩包,解压即得整理好的序列文件。
输出结果:

注意事项:

1. 本工具只能下载序列的fasta文件和gbk文件,如原核生物基因组fasta文件,无法下载gbk文件中的蛋白序列和CDS序列。

2. 对于基因组较大的真核生物,如人基因组,gbk文件有多个染色体组成,不包含基因组fasta文件,这样的序列号无法下载基因组fasta文件。

3. 下载序列的gbk文件和fasta文件等同于浏览器下载的gbk文件和fasta文件。

基因组组装注释、统计绘图、数据处理、格式转换、数据下载、比较分析,百款专业小工具免费用

注册即用,一键直达:

https://cloud.mimazi.net/tool/index.html

分析细菌基因组,选专业平台,认准密码子·生信云,注册即用,不限样本量,7天免费使用!

云流程使用,一键直达:

https://cloud.mimazi.net/cloud/index.html