



Curated clinical data(详细临床数据,包含年龄、性别、TNM分期等)。行 :是几万个基因的名字。
列 :是每一个病人的 TCGA 编号(比如 TCGA-A1-A0SB-01A)。
格子里的数字 :就是基因的表达量。


数据的“面具”:Log2 转换 解法:在做差异分析时,强烈建议小白直接使用
UCSC Xena 为了让数据分布更平滑, 提前对表达量进行了 log2(x+1) 的转换 。影响 :如果你后续要用DESeq2或edgeR这类要求输入“原始 count 数(必须是整数)”的 R 包,直接用 Xena 的连续数值数据会直接报错。limma包(它完美兼容 log 转换后的连续变量),或者在代码里把数据反转回原始计数。病人编号的“小尾巴”
夜雨聆风