新手生信实操第一步:数据下载与整理,保姆级步骤指南!

各位医学科研圈的小伙伴，大家好！

在前面的系列文章中，我们讲了生信的逻辑、看图、写作和伦理审批，但一旦谈到具体操作时，很多小白又会陷入困境：

“听说我得去GEO和TCGA找数据，搞定后还得整理，但我不知道怎么做！”

这正是今天我们要解决的问题——如何从公共数据库中下载生信数据，并进行整理和预处理。今天的指南是“保姆级”的，只需按照步骤走，就能轻松完成。

🗂️ 第一步：确定你要的数据集

👉 核心策略：清楚自己的研究需求，明确数据类型。

在进行数据下载之前，首先你需要思考以下几个问题：

🌐 第二步：访问数据源

👉 核心策略：选择合适的数据库进行数据搜索。

这两大数据库是生信领域最权威的：

GEO（Gene Expression Omnibus）

如何访问：

打开GEO的官方网站：GEO Database

点击“Datasets”，选择“Series”进行搜索

如何查找：直接在搜索框输入你关注的疾病（如“gastric cancer”），找到相关的GSE号（系列编号）。

TCGA（The Cancer Genome Atlas）

如何访问：打开TCGA的数据网站：TCGA Data Portal

如何查找：可以在“Explore”中选择你关注的癌种，下载对应的基因组、转录组数据。

📥 第三步：数据下载

👉 核心策略：选择合适的数据文件格式进行下载。

在GEO中：

搜索到你感兴趣的GSE编号后，点击进入该页，侧边栏找到“Download”选项，直接下载 “Series Matrix File(s)” （推荐）。

在TCGA中：

选定癌种后，点击“Download”，根据数据类型（例如转录组数据，通常是FPKM或TPM格式）选择并下载数据。建议你选择 Level 3 数据，因为这表示数据已经处理和标准化。

📂 第四步：数据整理

👉 核心策略：对数据进行初步清洗和转换。

将文件解压缩：

.gz格式的文件需要解压缩。你可以在终端（Terminal）使用命令gunzip filename.gz，或者用7-Zip等软件直接解压。

数据格式转换：

针对GEO的Series Matrix文件：

直接打开 .txt 或 .csv 文件。在Excel里清理无用信息，并将其导入到R语言中。

针对TCGA数据：

数据通常是以发展中表格格式（如 .txt、.csv）下载的，使用R的read.csv()或read.table()函数导入数据。

整理齐全数据：

清理掉不需要的行和列，保证你的数据只有核心基因的信息和样本的对应信息。请确保每个样本都有唯一的标识符（如 Patient-ID）。

基因注释转换：

从GEO、TCGA下载的表达矩阵文件中，可能需要进行探针（probe ID）到基因符号（gene symbol）的转换。可以参考相应平台的GPL或获取注释文件。

🔄 第五步：保存并备份数据

👉 核心策略：保持数据的良好管理和完整性。

整理结构：

创建文件夹，例如命名为GEO_Data或TCGA_Data，需在文件夹中明确标注数据类别，同时使用标准命名方式，例如：“GSE12345ExpressionMatrix.txt”。

备份数据：

考虑将数据备份到云存储（如Google Drive、OneDrive或Dropbox），确保数据安全。

完成了这些步骤，你就拥有了一批可以用于生信分析的整洁数据了！

数据下载与整理是生信分析第一步，也是根本的一步，之后的分析应用、机制预测都将基于这些整理过的数据展开。同时，建立良好的数据管理意识，能够为你后续的研究打下坚实的基础。