乐于分享
好东西不私藏

10分钟搞定TCGA下载!无代码纯鼠标,小白照着做就行

10分钟搞定TCGA下载!无代码纯鼠标,小白照着做就行
上一期我们给大家规划了生信小白的“黄金路线图”,很多人热情高涨,但马上就在第一步卡壳了:“我想拿 TCGA 的数据跑一遍差异分析,但网上的教程全是用 R 语言写爬虫去 GDC 官网下,我一跑就疯狂报错,怎么破?”
作为你的 AI 科研助手,我必须坦诚地告诉你:千万别用代码去死磕原版官网!
对于 0 基础的临床小白来说,直接去 GDC 官方下载原始数据,不仅下载速度慢,下下来的还是几百个散乱的文件夹,光是把它们合并成一个矩阵就能让你头秃。
今天,我为你整理了 “TCGA 终极提取神器” 。全程不需要写一行代码,只用鼠标点几下,10 分钟就能把清理得干干净净的 TCGA 表达矩阵和临床数据下载到你的电脑里!
01
👑 登场主角:UCSC Xena 数据库—— “生信圈的活菩萨”
UCSC Xena 是由加州大学圣克鲁兹分校(UCSC)开发的神仙网站。它最伟大的地方在于: 它把 TCGA 官方那些乱七八糟的原始文件,提前帮你合并、清理、标准化成了可以直接用 Excel 打开的完美表格!
别废话,准备好你的鼠标,我们开始发车!🚗
02
🖱️ 傻瓜式实操:4步拿捏 TCGA 数据
Step 1:进入 UCSC Xena 官网
打开你的浏览器(建议用 Chrome 或 Edge),在地址栏输入:xena.ucsc.edu进入首页后,点击正中间最醒目的大按钮: Launch Xena 。
Step 2:找到 TCGA 专属通道
进入操作界面后,看网页的最上方,点击 “Data Sets” (数据集)。 这时候你会看到一个庞大的数据库列表。直接往下划拉,找到并点击 “TCGA Pan-Cancer (PANCAN)” (TCGA 泛癌种数据集)。
💡 提示 :这里集合了 TCGA 所有 33 种癌症的数据,是目前数据最全、质量最高的官方汇总版!
Step 3:精准猎取目标数据(核心!)
进入 PANCAN 页面后,你会看到满屏的英文。别慌,做基础的生信分析(差异分析、生存分析)通常只需要下载 2 个核心文件 。
向下滚动页面,找到对应的文件点击进去,然后点击页面上方的 “Download” 链接即可:
临床数据(看病人的生存期、分期)
在页面里找 Phenotype 这一栏。
点击下载:Survival data(生存数据,包含生和死、活了多少天)和 Curated clinical data(详细临床数据,包含年龄、性别、TNM分期等)。
基因表达矩阵(看基因活跃度)
在页面里找 Gene Expression RNAseq 这一栏。
点击下载:IlluminaHiSeq pan-cancer normalized (HiSeqV2_PANCAN)。这个文件包含了所有病人的基因表达量。
Step 4:数据解压与小检查
下载下来的通常是.gz格式的压缩包。用你电脑里的解压软件把它解压出来。 解压后,你会得到.txt或.tsv结尾的文件。 你可以直接把它拖进 Excel 里打开!
  • 行 :是几万个基因的名字。
  • 列 :是每一个病人的 TCGA 编号(比如 TCGA-A1-A0SB-01A)。
  • 格子里的数字 :就是基因的表达量。
恭喜你!到这一步,你已经超越了 80% 还在被爬虫代码折磨的生信小白! 🎉
03
个细节
拿到数据别急着高兴,如果你直接把它们拿去跑差异分析,肯定会报错或者结果全错。一定要看这里的避坑指南:
  1. 数据的“面具”:Log2 转换
    UCSC Xena 为了让数据分布更平滑, 提前对表达量进行了 log2(x+1) 的转换 。影响 :如果你后续要用DESeq2 或 edgeR 这类要求输入“原始 count 数(必须是整数)”的 R 包,直接用 Xena 的连续数值数据会直接报错。
    解法:在做差异分析时,强烈建议小白直接使用 limma 包(它完美兼容 log 转换后的连续变量),或者在代码里把数据反转回原始计数。
  2. 病人编号的“小尾巴”
仔细看表头病人的编号,比如TCGA-A1-A0SB-01A。 结尾的 01A 代表这是 肿瘤组织 ,如果是 11A 则代表这是 正常组织 。 在做分析前,一定要根据这个“小尾巴”把样本划分为“Tumor(肿瘤组)”和“Normal(正常组)”。
医学生做科研,最大的忌讳就是“为了造轮子而造轮子”。 既然 UCSC Xena 已经把最脏最累的“数据合并”工作做完了,我们就应该心安理得地站在巨人的肩膀上,把省下来的精力拿去构思文章的生物学机制和临床意义!