TCGA数据库的利用(一)—— 数据下载

简介: 还有1个多月就要毕业了,而在此之前需要顺利完成自己的毕设,因为对纯生物方向一点也不感兴趣,所以课题方向选的是生信—TCGA数据的利用,虽说本科专业与生物相关,但在整个大学期间基本就是在不挂科的情况下尽可能地与生物对着干,所以大学四年过后么,就有一种虽学生物、但毫不懂生物的状态。为了能够顺利拿到毕业证,经过这段时间的“刻苦钻研”也算是多少对于这方面有点了解,因此特地写个系列来巩固一下这方面知识的掌握。对于数据的利用的第一步就是获取数据,对于数据的下载与利用,在这里我下载TCGA数据的主要方法就是通过官网的下载工具gdc-client进行下载的;

前序


还有1个多月就要毕业了,而在此之前需要顺利完成自己的毕设,因为对纯生物方向一点也不感兴趣,所以课题方向选的是生信—TCGA数据的利用,虽说本科专业与生物相关,但在整个大学期间基本就是在不挂科的情况下尽可能地与生物对着干,所以大学四年过后么,就有一种虽学生物、但毫不懂生物的状态。为了能够顺利拿到毕业证,经过这段时间的“刻苦钻研”也算是多少对于这方面有点了解,因此特地写个系列来巩固一下这方面知识的掌握。


对于数据的利用的第一步就是获取数据,对于数据的下载与利用,在这里我下载TCGA数据的主要方法就是通过官网的下载工具gdc-client进行下载的;




数据获取到本地




1,打开在搜索栏中搜索“TCGA”,然后找到官方网站点进去,TCGA官网如下图所示:



页面下滑找到进入数据库入口:Access TCGA Data,点进去:





2,点击上面的「Repository」(仓库),接下来就是根据自己的需要在页面的左侧的「Files」和「Cases」进行数据筛选;



下面我列了两张图,一张是TCGA数据库中的数据类型列表,一张是关于TCGA癌症简称、英文名字及中文名字:



网络异常,图片无法展示
|






3,数据筛选完之后网页的右边会有‘购物车’(cart)的图案,根据自己需要,将需要的文件加入到cart中,添加方式有两种选择:


第一种是:「Add all files to the Cart」(将文件全部加入);


第二种是:自己想要添加哪个图案,点击左边的“购物车”图案即可;

网络异常,图片无法展示
|

4,文件选择完之后,点击页面右上角处的Cart:



5,接下来就是进行数据下载,因为我是使用官网的工具进行下载的所以需要下载两个文件:


一个是「Manifest」(一个txt文本,是数据下载入口,并不是数据本身);


一个是左边的「Metadata」(这个下载之后是个json文件,是为了之后进行数据清洗作准备的);


当然也可以直接从网站上直接下载数据,但这种方式的弊端就是不稳定,数据中断时无法续传;



把文件下载到本地后,是这个样子:





6,接下在需要下载官方下载工具「gdc-client」:链接地址:gdc-client下载工具,根据自己系统进行下载即可,工具下载完之后不需要安装就可以直接使用,但是下载数据是在命令行中进行的,为了方便需要把安装工具配置到系统中的「环境变量」




下载工具的「环境变量」配置




第一步,找到工具所在的安装目录,复制安装地址:



第二步,打开电脑的控制面板,我的是win10,直接快捷键:win +R 打开运行框,输入control即可;然后点击面板右上角的「大图标」,找到「系统」



第三步,进入系统的面板时候点击左边的「高级系统配置」>「环境变量」> 「path」 > 「编辑」>「新建」;之后就输入第一步种复制的安装地址,点击确定退出即可;











第四步,就是进行验证,win+R打开运行框,输入cmd命令进入命令行,然后在命令行中输入「gdc-client」出现如下图情况,即代表环境配置成功成功;



工具下载




利用工具进行下载,打开命令行:输入以下命令:



下载过程如下图所示,后续就是等待数据下载完成,



数据下载完成之后,是TCGA中的选取每一个数据txt文本分别创造了一个相应的文件夹,每个文件夹中都有一个对应的gz格式的安装包



至此,TCGA的数据下载基本介绍完了,接下来一篇文章就是介绍数据的整合,清洗,为后续的分析做准备。


相关文章
|
16天前
|
存储 SQL 监控
Visual Basic与数据库交互:实现数据访问和管理
【4月更文挑战第27天】本文探讨了使用Visual Basic进行数据库编程的基础,包括数据库基础、连接、数据访问技术如ADO.NET,数据绑定,事务处理,存储过程与视图。还强调了性能优化、安全性、测试与调试,以及持续维护的重要性。通过掌握这些概念和技巧,开发者能构建高效、可靠的数据驱动应用。
|
13天前
|
DataWorks Oracle 关系型数据库
DataWorks操作报错合集之尝试从Oracle数据库同步数据到TDSQL的PG版本,并遇到了与RAW字段相关的语法错误,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
30 0
|
1天前
|
存储 机器学习/深度学习 人工智能
新一代数据库技术:融合AI的智能数据管理系统
传统数据库管理系统在数据存储和查询方面已经取得了巨大的成就,但随着数据量的不断增长和应用场景的多样化,传统数据库已经难以满足日益增长的需求。本文将介绍一种新一代数据库技术,即融合了人工智能技术的智能数据管理系统。通过结合AI的强大能力,这种系统能够实现更高效的数据管理、更智能的数据分析和更精准的数据预测,为用户带来全新的数据管理体验。
|
2天前
|
NoSQL Java 数据库
neo4j图数据库下载安装配置
neo4j图数据库下载安装配置
|
2天前
|
分布式计算 Java 关系型数据库
|
6天前
|
NoSQL 关系型数据库 数据库
数据库同步 Elasticsearch 后数据不一致,怎么办?
数据库同步 Elasticsearch 后数据不一致,怎么办?
13 0
|
12天前
|
SQL 关系型数据库 MySQL
【MySQL-1】理解关系型数据库&数据的数据模型
【MySQL-1】理解关系型数据库&数据的数据模型
|
14天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之在使用 DataWorks 数据集成同步 PostgreSQL 数据库中的 Geometry 类型数据如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
24 0
|
14天前
|
Java 关系型数据库 MySQL
【JDBC编程】基于MySql的Java应用程序中访问数据库与交互数据的技术
【JDBC编程】基于MySql的Java应用程序中访问数据库与交互数据的技术
|
15天前
|
存储 关系型数据库 MySQL
【MySQL探索之旅】MySQL数据库下载及安装教程
【MySQL探索之旅】MySQL数据库下载及安装教程