乐于分享
好东西不私藏

利用codespaces快速下载生物数据

利用codespaces快速下载生物数据
做生物信息,不可避免一定要下载数据,例如下载基因组参考序列,原始测序数据,各种基因注释信息。总之,你肯定要用到下载数据。下载生物数据是生物信息基本技能,但是常常因为各种原因导致无法下载,从本次内容开始,我们将系统的给大家介绍生物数据下载的各种方法。

codespaces简介

前面我们介绍了如果利用阿里云作为中转站来传输速度,但有时候只是一个小数据,没必要在开通一个云服务器。这里我们介绍一种快速免费的方法,利用codespaces来下载数据。
codespaces全称是GitHub Codespaces ,是 GitHub 提供的一项云端开发环境服务。简单来说,它为你提供了一台运行在云端的、专门用于写代码和运行项目的“虚拟电脑”。
我们可以直接将github的项目部署到一个运行环境中。目前为所有免费个人用户每个月提供了一定的免费额度(通常包含每月 120 核时的计算时间和 15GB 的存储空间)。对于日常的开源项目贡献或轻量级开发,这个免费额度通常是足够的。
由于这个云端的Linux环境使用微软的Azure云,在国外环境中,可以不限制访问数据。直接相当于一个免费的中转站。

登录codespaces

首先打开vscode,安装“Remote Development”插件。
然后选择“远程资源管理器”,选择Github Hub Codespaces,从弹出的github项目中选择一个,没有登录的需要提前登录github。
需要一段时间就可以登录到codespaces。

利用Codespaces访问外网

然后我们就可以在vscode中打开终端,然后在终端中运行各种Linux命令,例如这里我们简单的下载一个数据。
https://raw.githubusercontent.com/rstudio/cheatsheets/main/data-transformation.pdf https://zenodo.org/records/3657902/files/sample_data.tar?download=1https://raw.githubusercontent.com/qiime2/distributions/refs/heads/dev/2026.1/amplicon/released/qiime2-amplicon-ubuntu-latest-conda.yml
下载速度超级快。

然后我们就可以通过sftp或者rsync将数据同步过自己服务器。

@wangtong  /workspaces/codespaces (main) $ sftp -P 10088 bioinfo@v5.tongyuangene.combioinfo@v5.tongyuangene.com's password: Connected to v5.tongyuangene.com.sftp> mput data-transformation.pdf qiime2-amplicon-ubuntu-latest-conda.yml sample_data.tar Uploading data-transformation.pdf to /ifs1/User/bioinfo/qiime2-amplicon-ubuntu-latest-conda.ymldata-transformation.pdf                                    100% 1007KB  38.0KB/s   00:26   Uploading sample_data.tar to /ifs1/User/bioinfo/sample_data.tarsample_data.tar                                              0%  255KB   8.8KB/- stalled -