TCGA数据库的利用(一)—— 数据下载

简介: 还有1个多月就要毕业了,而在此之前需要顺利完成自己的毕设,因为对纯生物方向一点也不感兴趣,所以课题方向选的是生信—TCGA数据的利用,虽说本科专业与生物相关,但在整个大学期间基本就是在不挂科的情况下尽可能地与生物对着干,所以大学四年过后么,就有一种虽学生物、但毫不懂生物的状态。为了能够顺利拿到毕业证,经过这段时间的“刻苦钻研”也算是多少对于这方面有点了解,因此特地写个系列来巩固一下这方面知识的掌握。对于数据的利用的第一步就是获取数据,对于数据的下载与利用,在这里我下载TCGA数据的主要方法就是通过官网的下载工具gdc-client进行下载的;

前序


还有1个多月就要毕业了,而在此之前需要顺利完成自己的毕设,因为对纯生物方向一点也不感兴趣,所以课题方向选的是生信—TCGA数据的利用,虽说本科专业与生物相关,但在整个大学期间基本就是在不挂科的情况下尽可能地与生物对着干,所以大学四年过后么,就有一种虽学生物、但毫不懂生物的状态。为了能够顺利拿到毕业证,经过这段时间的“刻苦钻研”也算是多少对于这方面有点了解,因此特地写个系列来巩固一下这方面知识的掌握。


对于数据的利用的第一步就是获取数据,对于数据的下载与利用,在这里我下载TCGA数据的主要方法就是通过官网的下载工具gdc-client进行下载的;




数据获取到本地




1,打开在搜索栏中搜索“TCGA”,然后找到官方网站点进去,TCGA官网如下图所示:



页面下滑找到进入数据库入口:Access TCGA Data,点进去:





2,点击上面的「Repository」(仓库),接下来就是根据自己的需要在页面的左侧的「Files」和「Cases」进行数据筛选;



下面我列了两张图,一张是TCGA数据库中的数据类型列表,一张是关于TCGA癌症简称、英文名字及中文名字:



网络异常,图片无法展示
|






3,数据筛选完之后网页的右边会有‘购物车’(cart)的图案,根据自己需要,将需要的文件加入到cart中,添加方式有两种选择:


第一种是:「Add all files to the Cart」(将文件全部加入);


第二种是:自己想要添加哪个图案,点击左边的“购物车”图案即可;

网络异常,图片无法展示
|

4,文件选择完之后,点击页面右上角处的Cart:



5,接下来就是进行数据下载,因为我是使用官网的工具进行下载的所以需要下载两个文件:


一个是「Manifest」(一个txt文本,是数据下载入口,并不是数据本身);


一个是左边的「Metadata」(这个下载之后是个json文件,是为了之后进行数据清洗作准备的);


当然也可以直接从网站上直接下载数据,但这种方式的弊端就是不稳定,数据中断时无法续传;



把文件下载到本地后,是这个样子:





6,接下在需要下载官方下载工具「gdc-client」:链接地址:gdc-client下载工具,根据自己系统进行下载即可,工具下载完之后不需要安装就可以直接使用,但是下载数据是在命令行中进行的,为了方便需要把安装工具配置到系统中的「环境变量」




下载工具的「环境变量」配置




第一步,找到工具所在的安装目录,复制安装地址:



第二步,打开电脑的控制面板,我的是win10,直接快捷键:win +R 打开运行框,输入control即可;然后点击面板右上角的「大图标」,找到「系统」



第三步,进入系统的面板时候点击左边的「高级系统配置」>「环境变量」> 「path」 > 「编辑」>「新建」;之后就输入第一步种复制的安装地址,点击确定退出即可;











第四步,就是进行验证,win+R打开运行框,输入cmd命令进入命令行,然后在命令行中输入「gdc-client」出现如下图情况,即代表环境配置成功成功;



工具下载




利用工具进行下载,打开命令行:输入以下命令:



下载过程如下图所示,后续就是等待数据下载完成,



数据下载完成之后,是TCGA中的选取每一个数据txt文本分别创造了一个相应的文件夹,每个文件夹中都有一个对应的gz格式的安装包



至此,TCGA的数据下载基本介绍完了,接下来一篇文章就是介绍数据的整合,清洗,为后续的分析做准备。


相关文章
|
2月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
2月前
|
存储 监控 数据处理
flink 向doris 数据库写入数据时出现背压如何排查?
本文介绍了如何确定和解决Flink任务向Doris数据库写入数据时遇到的背压问题。首先通过Flink Web UI和性能指标监控识别背压,然后从Doris数据库性能、网络连接稳定性、Flink任务数据处理逻辑及资源配置等方面排查原因,并通过分析相关日志进一步定位问题。
191 61
|
4天前
|
SQL 存储 运维
从建模到运维:联犀如何完美融入时序数据库 TDengine 实现物联网数据流畅管理
本篇文章是“2024,我想和 TDengine 谈谈”征文活动的三等奖作品。文章从一个具体的业务场景出发,分析了企业在面对海量时序数据时的挑战,并提出了利用 TDengine 高效处理和存储数据的方法,帮助企业解决在数据采集、存储、分析等方面的痛点。通过这篇文章,作者不仅展示了自己对数据处理技术的理解,还进一步阐释了时序数据库在行业中的潜力与应用价值,为读者提供了很多实际的操作思路和技术选型的参考。
16 1
|
8天前
|
存储 Java easyexcel
招行面试:100万级别数据的Excel,如何秒级导入到数据库?
本文由40岁老架构师尼恩撰写,分享了应对招商银行Java后端面试绝命12题的经验。文章详细介绍了如何通过系统化准备,在面试中展示强大的技术实力。针对百万级数据的Excel导入难题,尼恩推荐使用阿里巴巴开源的EasyExcel框架,并结合高性能分片读取、Disruptor队列缓冲和高并发批量写入的架构方案,实现高效的数据处理。此外,文章还提供了完整的代码示例和配置说明,帮助读者快速掌握相关技能。建议读者参考《尼恩Java面试宝典PDF》进行系统化刷题,提升面试竞争力。关注公众号【技术自由圈】可获取更多技术资源和指导。
|
11天前
|
前端开发 JavaScript 数据库
获取数据库中字段的数据作为下拉框选项
获取数据库中字段的数据作为下拉框选项
41 5
|
30天前
|
关系型数据库 MySQL Linux
MySQL数据库下载安装教程(Windows&Linux)
本文档详细介绍了MySQL的安装步骤,包括安装前的准备工作、下载安装包、Windows和Linux系统下的具体安装流程,以及如何配置MySQL服务、设置环境变量、启动服务和连接数据库等关键操作。
|
2月前
|
SQL 关系型数据库 数据库
国产数据实战之docker部署MyWebSQL数据库管理工具
【10月更文挑战第23天】国产数据实战之docker部署MyWebSQL数据库管理工具
166 4
国产数据实战之docker部署MyWebSQL数据库管理工具
|
2月前
|
关系型数据库 MySQL 数据库
GBase 数据库如何像MYSQL一样存放多行数据
GBase 数据库如何像MYSQL一样存放多行数据
|
2月前
|
关系型数据库 分布式数据库 数据库
云栖大会|从数据到决策:AI时代数据库如何实现高效数据管理?
在2024云栖大会「海量数据的高效存储与管理」专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在OLTP方向的最新技术进展和行业最佳实践。
|
2月前
|
关系型数据库 MySQL Linux
在 CentOS 7 中通过编译源码方式安装 MySQL 数据库的详细步骤,包括准备工作、下载源码、编译安装、配置 MySQL 服务、登录设置等。
本文介绍了在 CentOS 7 中通过编译源码方式安装 MySQL 数据库的详细步骤,包括准备工作、下载源码、编译安装、配置 MySQL 服务、登录设置等。同时,文章还对比了编译源码安装与使用 RPM 包安装的优缺点,帮助读者根据需求选择最合适的方法。通过具体案例,展示了编译源码安装的灵活性和定制性。
186 2