1
2
关键词搜索: 在搜索框内输入关键词,比如“breast cancer”或“gastric carcinoma”,回车搜索。
使用高级搜索: 如果你想要更精准的结果,可以点击“Advanced Search”,根据样本类型、研究类型(比如microarray、RNAseq等)进行筛选。
3
从搜索结果中选择感兴趣的GSE编号(比如GSE12345)。
点击进入该数据集,你将看到数据集的详细信息,包括样本数量、实验设计和芯片平台等。
4
查找Matrix Files: 在数据集页面,找到“Download”选项,选择 “Series Matrix File(s)” 。这是处理过的数据,最适合初学者使用。
补充数据: 根据需要,可以同时下载其他相关的补充文件(如设计文件),以获取更多背景信息。
5
下载的文件通常是.zip格式,使用解压软件(如WinRAR或7-Zip)进行解压。
大部分数据以 .txt 或 .csv 格式保存,请使用文本编辑器(如Notepad++)或Excel、R语言等工具打开并查看数据。
6
格式转换: 某些芯片数据里的探针ID需要转换成基因名(Gene Symbols),可以参考相关的GPL文件(芯片注释文件)。
删除无用行列: 在数据清理过程中,删除那些没有表达量或缺失数据的行,确保数据的整洁性。
7
导入R工具: 如果你使用R语言分析,可以利用read.csv()或read.table()
初步描述性统计: 计算数据的基本描述性统计,比如均值、标准差、最大值和最小值。
8
夜雨聆风