当前位置：夜雨聆风 > 技术教程 > 软件教程 > Day1——GEO及TCGA数据下载(以不变应万变)

Day1——GEO及TCGA数据下载(以不变应万变)

当前时间： 2026-05-14 01:00:17 更新时间： 2026-05-14 分类：软件教程评论(0)

Day1——GEO及TCGA数据下载(以不变应万变)

—GEO数据下载—

首先，GEO数据库的下载不止一种方法，比如 GEoquery 包中的 getGEO 函数。

但是每种方法有每种方法的优缺点，比如 getGEO 下载好的文件比较易读，但是有的时候在R里下载可能出现各种小bug（比如链接超时、下载文件是空的…..），反正我刚开始学习的时候是十分茫然的。

今天给大家带来的，就是通过GEO官网搜索GES编号直接下载，步骤可能相较其他的繁琐一些，而且下载后的文件还需要自己处理一番，但是掌握后可以适用于所有GSE数据下载，并不容易出bug或出错（相当于以不变应万变了）

我们先找一下文章中所用了哪些上传到GEO的数据（文章中都会列出，直接在文献的页面上搜索 GSE 一般都能搜到）

首先，我们进入GEO的官方页面，同时了解一下网站中的一些基本信息。

之前可以在浏览器直接搜GEO就可以找到，但现在直接搜出来的不是了，

没关系，我们搜索GSExxxxx（随便打几个数字），然后就能点进去了。

点进去后，在这里输入我们的GEO编号，然后点击GO即可

这里我们先以 `GSE15061` 为例，我们先看一下这个界面中的一些信息。

我们讲一下比较重要的4部分：

①数据类型，我们通常分析的是3类数据，

芯片—— `array`，

bulk转录组或单细胞转录组 —— `high throughput sequencing`

为什么这个重要呢？因为类型不一样其储存数据的地方也往往不同（后续会说明）。

②探针信息（数据类型是array时需要注意）

探针是什么呢？简单来讲，芯片在检测的时候每个基因对应一个编号（如1007_s_at），我们需要将这些编号转变为我们认识的基因名称我们才能认识。

而使用不同芯片/探针去检测，有可能同一个编号对应不同的基因名称，所以可不能乱用。否则即便分析过程中不会报错，但是结果就可能是完全不正确的！！！

而当是高通量测序（单细胞或者转录组时），比较新的数据都是直接使用基因名做行名的，或者也是使用ENS编号指示基因名称的，一般使用 clusterProfiler 中的 bitr 函数就可以直接转换，就不需要太注重这个探针了。

③矩阵信息及补充材料：

这里讲放到一起进行说明，

如果数据类型是`array`（芯片）的话，临床信息跟表达矩阵往往都在`Series Matrix Files`里，如下。

如果是`high throughput sequencing`（高通量测序，包括转录组+单细胞）的话，表达矩阵一般都在补充文件里。

（当是high throughput sequencing时，Martrix File 里的文件也不会是空的，可能包含一些样本的基本信息等，我们按需下载即可）

经过上述的介绍，相信下载数据已经难不倒大家了，本次文章复现中使用了GSE15061和GSE13159这两个数据集，就按照下面的步骤一步一步下载下来即可。

（1）表达矩阵的下载：

点进去

同样，我们找到GSE13159，也下载其表达矩阵与临床信息

（2）注释文件的下载：

对于array文件，我们下载后的列名一般是像1007_s_at这样的探针名称，因此我们还要下载array对应的探针注释文件将其转换为基因。

其中GPL570是最常见的array所用的探针，我们此次复现的文章中所使用的都是GPL570，因此我们下载一个即可。

下载完成之后，我们按如下方式整理好工作环境

（我还是喜欢用Rproj直接设置好工作环境，当然有的小伙伴习惯setwd也可以）

（其他的文件夹都是空文件夹，方便之后工作环境的整理）

–TCGA数据下载–

这里推荐从UCSC下载，对于初学者友好，整理比较完善

直接搜索

点进去后点Launch Xena

进到这个界面里点Data Sets

然后进入到这个页面，我们先把所有数据库的 √ 给勾掉，这样清爽一些。

然后我们点什么呢？我们既然想要的是TCGA，那我们点 TCGA Hub 不就行了？

当然是没有什么问题的，但是更推荐的是，点 GDC Hub，

我们可以点进去大致看一眼。

而且 GDC Hub 里是包含有TCGA数据的

我们这里要的是急性髓系白血病，缩写是 LAML，不知道自己需要的癌症的缩写的可以直接百度搜索就知道了

点进去

然后我们下载两个数据，一个是表达矩阵，一个是生存信息

进去后点这里下载下

生存信息同理

下载好的文件复制到我们工作环境下对应的文件夹即可。

明天的内容将讲述如何讲数据整理为分析前比较标准的格式。