本文首发于“生信补给站”公众号 https://mp.weixin.qq.com/s/e3a7q4eY8CwnZOP28z5F9Q
TCGA (The Cancer Genome Atlas)作为目前超常用的癌症基因信息的数据库,有多种肿瘤的表达谱数据,变异信息(mutation,copy number),甲基化信息以及临床信息(人口学信息,分期,随访,生存状况),在生信挖掘文章中出镜率极高。
TCGA数据下载方式有很多种,本次简单介绍自己喜欢用的方式-使用UCSC xena 网站进行下载。
1,Xena官网
浏览器中输入网址 http://xena.ucsc.edu/ ,下拉找到Explore TCGA, GDC, and other public cancer genomics resources,点击
2,选择GDC,然后进入TCGA数据队列列表
其他数据集可根据需要自行常看。
3,选择数据集
下拉选择需要的队列,此处以BRCA为例
4,查看数据
点击 GDC TCGA Breast Cancer (BRCA) ,进入BRCA数据集,查看有哪些数据
5,下载所需数据
选择对应的文件链接,点击即可。此处以点击 HTSeq - Counts 为例
注意
- 此数据为count数是log转化后的,需要的时候可以自行转为count数。
- 记得下载probeMap,探针注释文件。
- 涉及预后及生存相关分析,记得下载 survival data 。
完成以上,数据就准备好了 。
后面基于此数据会有一些简单的处理技巧以及生信挖掘中常见的分析思(TAO)路(LU)。