TCGA数据库的利用(一)—— 数据下载

简介: 还有1个多月就要毕业了,而在此之前需要顺利完成自己的毕设,因为对纯生物方向一点也不感兴趣,所以课题方向选的是生信—TCGA数据的利用,虽说本科专业与生物相关,但在整个大学期间基本就是在不挂科的情况下尽可能地与生物对着干,所以大学四年过后么,就有一种虽学生物、但毫不懂生物的状态。为了能够顺利拿到毕业证,经过这段时间的“刻苦钻研”也算是多少对于这方面有点了解,因此特地写个系列来巩固一下这方面知识的掌握。对于数据的利用的第一步就是获取数据,对于数据的下载与利用,在这里我下载TCGA数据的主要方法就是通过官网的下载工具gdc-client进行下载的;

前序


还有1个多月就要毕业了,而在此之前需要顺利完成自己的毕设,因为对纯生物方向一点也不感兴趣,所以课题方向选的是生信—TCGA数据的利用,虽说本科专业与生物相关,但在整个大学期间基本就是在不挂科的情况下尽可能地与生物对着干,所以大学四年过后么,就有一种虽学生物、但毫不懂生物的状态。为了能够顺利拿到毕业证,经过这段时间的“刻苦钻研”也算是多少对于这方面有点了解,因此特地写个系列来巩固一下这方面知识的掌握。


对于数据的利用的第一步就是获取数据,对于数据的下载与利用,在这里我下载TCGA数据的主要方法就是通过官网的下载工具gdc-client进行下载的;




数据获取到本地




1,打开在搜索栏中搜索“TCGA”,然后找到官方网站点进去,TCGA官网如下图所示:



页面下滑找到进入数据库入口:Access TCGA Data,点进去:





2,点击上面的「Repository」(仓库),接下来就是根据自己的需要在页面的左侧的「Files」和「Cases」进行数据筛选;



下面我列了两张图,一张是TCGA数据库中的数据类型列表,一张是关于TCGA癌症简称、英文名字及中文名字:



网络异常,图片无法展示
|






3,数据筛选完之后网页的右边会有‘购物车’(cart)的图案,根据自己需要,将需要的文件加入到cart中,添加方式有两种选择:


第一种是:「Add all files to the Cart」(将文件全部加入);


第二种是:自己想要添加哪个图案,点击左边的“购物车”图案即可;

网络异常,图片无法展示
|

4,文件选择完之后,点击页面右上角处的Cart:



5,接下来就是进行数据下载,因为我是使用官网的工具进行下载的所以需要下载两个文件:


一个是「Manifest」(一个txt文本,是数据下载入口,并不是数据本身);


一个是左边的「Metadata」(这个下载之后是个json文件,是为了之后进行数据清洗作准备的);


当然也可以直接从网站上直接下载数据,但这种方式的弊端就是不稳定,数据中断时无法续传;



把文件下载到本地后,是这个样子:





6,接下在需要下载官方下载工具「gdc-client」:链接地址:gdc-client下载工具,根据自己系统进行下载即可,工具下载完之后不需要安装就可以直接使用,但是下载数据是在命令行中进行的,为了方便需要把安装工具配置到系统中的「环境变量」




下载工具的「环境变量」配置




第一步,找到工具所在的安装目录,复制安装地址:



第二步,打开电脑的控制面板,我的是win10,直接快捷键:win +R 打开运行框,输入control即可;然后点击面板右上角的「大图标」,找到「系统」



第三步,进入系统的面板时候点击左边的「高级系统配置」>「环境变量」> 「path」 > 「编辑」>「新建」;之后就输入第一步种复制的安装地址,点击确定退出即可;











第四步,就是进行验证,win+R打开运行框,输入cmd命令进入命令行,然后在命令行中输入「gdc-client」出现如下图情况,即代表环境配置成功成功;



工具下载




利用工具进行下载,打开命令行:输入以下命令:



下载过程如下图所示,后续就是等待数据下载完成,



数据下载完成之后,是TCGA中的选取每一个数据txt文本分别创造了一个相应的文件夹,每个文件夹中都有一个对应的gz格式的安装包



至此,TCGA的数据下载基本介绍完了,接下来一篇文章就是介绍数据的整合,清洗,为后续的分析做准备。


相关文章
|
15天前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
17天前
|
SQL 关系型数据库 数据库
国产数据实战之docker部署MyWebSQL数据库管理工具
【10月更文挑战第23天】国产数据实战之docker部署MyWebSQL数据库管理工具
56 4
国产数据实战之docker部署MyWebSQL数据库管理工具
|
14天前
|
关系型数据库 分布式数据库 数据库
云栖大会|从数据到决策:AI时代数据库如何实现高效数据管理?
在2024云栖大会「海量数据的高效存储与管理」专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在OLTP方向的最新技术进展和行业最佳实践。
|
17天前
|
关系型数据库 MySQL Linux
在 CentOS 7 中通过编译源码方式安装 MySQL 数据库的详细步骤,包括准备工作、下载源码、编译安装、配置 MySQL 服务、登录设置等。
本文介绍了在 CentOS 7 中通过编译源码方式安装 MySQL 数据库的详细步骤,包括准备工作、下载源码、编译安装、配置 MySQL 服务、登录设置等。同时,文章还对比了编译源码安装与使用 RPM 包安装的优缺点,帮助读者根据需求选择最合适的方法。通过具体案例,展示了编译源码安装的灵活性和定制性。
59 2
|
22天前
|
人工智能 Cloud Native 容灾
云数据库“再进化”,OB Cloud如何打造云时代的数据底座?
云数据库“再进化”,OB Cloud如何打造云时代的数据底座?
|
30天前
|
SQL 存储 关系型数据库
数据储存数据库管理系统(DBMS)
【10月更文挑战第11天】
85 3
|
1月前
|
前端开发 Java 数据库连接
javamvc配置,增删改查,文件上传下载。
【10月更文挑战第4天】javamvc配置,增删改查,文件上传下载。
37 1
|
1月前
|
SQL 存储 关系型数据库
添加数据到数据库的SQL语句详解与实践技巧
在数据库管理中,添加数据是一个基本操作,它涉及到向表中插入新的记录
|
1月前
|
SQL 监控 数据处理
SQL数据库数据修改操作详解
数据库是现代信息系统的重要组成部分,其中SQL(StructuredQueryLanguage)是管理和处理数据库的重要工具之一。在日常的业务运营过程中,数据的准确性和及时性对企业来说至关重要,这就需要掌握如何在数据库中正确地进行数据修改操作。本文将详细介绍在SQL数据库中如何修改数据,帮助读者更好
189 4
|
1月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
阿里云瑶池在2024云栖大会上重磅发布由Data+AI驱动的多模数据管理平台DMS:OneMeta+OneOps,通过统一、开放、多模的元数据服务实现跨环境、跨引擎、跨实例的统一治理,可支持高达40+种数据源,实现自建、他云数据源的无缝对接,助力业务决策效率提升10倍。