前序
还有1个多月就要毕业了,而在此之前需要顺利完成自己的毕设,因为对纯生物方向一点也不感兴趣,所以课题方向选的是生信—TCGA数据的利用,虽说本科专业与生物相关,但在整个大学期间基本就是在不挂科的情况下尽可能地与生物对着干,所以大学四年过后么,就有一种虽学生物、但毫不懂生物的状态。为了能够顺利拿到毕业证,经过这段时间的“刻苦钻研”也算是多少对于这方面有点了解,因此特地写个系列来巩固一下这方面知识的掌握。
对于数据的利用的第一步就是获取数据,对于数据的下载与利用,在这里我下载TCGA数据的主要方法就是通过官网的下载工具gdc-client进行下载的;
数据获取到本地
1,打开在搜索栏中搜索“TCGA”,然后找到官方网站点进去,TCGA官网如下图所示:
页面下滑找到进入数据库入口:Access TCGA Data,点进去:
2,点击上面的「Repository」(仓库),接下来就是根据自己的需要在页面的左侧的「Files」和「Cases」进行数据筛选;
下面我列了两张图,一张是TCGA数据库中的数据类型列表,一张是关于TCGA癌症简称、英文名字及中文名字:
3,数据筛选完之后网页的右边会有‘购物车’(cart)的图案,根据自己需要,将需要的文件加入到cart中,添加方式有两种选择:
第一种是:「Add all files to the Cart」(将文件全部加入);
第二种是:自己想要添加哪个图案,点击左边的“购物车”图案即可;
4,文件选择完之后,点击页面右上角处的Cart:
5,接下来就是进行数据下载,因为我是使用官网的工具进行下载的所以需要下载两个文件:
一个是「Manifest」(一个txt文本,是数据下载入口,并不是数据本身);
一个是左边的「Metadata」(这个下载之后是个json文件,是为了之后进行数据清洗作准备的);
当然也可以直接从网站上直接下载数据,但这种方式的弊端就是不稳定,数据中断时无法续传;
把文件下载到本地后,是这个样子:
6,接下在需要下载官方下载工具「gdc-client」:链接地址:gdc-client下载工具,根据自己系统进行下载即可,工具下载完之后不需要安装就可以直接使用,但是下载数据是在命令行中进行的,为了方便需要把安装工具配置到系统中的「环境变量」
下载工具的「环境变量」配置
第一步,找到工具所在的安装目录,复制安装地址:
第二步,打开电脑的控制面板,我的是win10,直接快捷键:win +R 打开运行框,输入control即可;然后点击面板右上角的「大图标」,找到「系统」
第三步,进入系统的面板时候点击左边的「高级系统配置」>「环境变量」> 「path」 > 「编辑」>「新建」;之后就输入第一步种复制的安装地址,点击确定退出即可;
第四步,就是进行验证,win+R打开运行框,输入cmd命令进入命令行,然后在命令行中输入「gdc-client」出现如下图情况,即代表环境配置成功成功;
工具下载
利用工具进行下载,打开命令行:输入以下命令:
下载过程如下图所示,后续就是等待数据下载完成,
数据下载完成之后,是TCGA中的选取每一个数据txt文本分别创造了一个相应的文件夹,每个文件夹中都有一个对应的gz格式的安装包
至此,TCGA的数据下载基本介绍完了,接下来一篇文章就是介绍数据的整合,清洗,为后续的分析做准备。