存储、传输、计算巧实现,基因数据上云不再难

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
对象存储 OSS,20GB 3个月
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
简介: 在2016杭州云栖大会第二日,WeGene创始人陈钢在基因计算专场分享了《服务:数据驱动的基因组分析与解读》,他主要从个人基因组为用户做什么、在阿里云生态中的实践、未来的基因组数据平台三个方面进行了分享,详细介绍了基因组的作用、使用阿里云进行数据存储、传输和计算的方法以及未来基因数据分析的前景。

在2016杭州云栖大会第二日,WeGene创始人陈钢在基因计算专场分享了《服务:数据驱动的基因组分析与解读》,他主要从个人基因组为用户做什么、在阿里云生态中的实践、未来的基因组数据平台三个方面进行了分享,详细介绍了基因组的作用、使用阿里云进行数据存储、传输和计算的方法以及未来基因数据分析的前景。

以下内容根据演讲PPT及现场分享整理。


个人基因组为用户做什么?

f81a9e1d88fb0ddd9bc78ac0cb2d89c4ff4dc331

除了细胞核有基因组之外,线粒体上也会存在基因组,线粒体是为细胞提供能量的,每个人的线粒体都来自母系,Y染色体会全部来自父系。这些基因数据全部测试的数据量大约为100G。但是我们通常会认为人与人之间的基因组差异会很小,如果只把人与人之间具有差异的部分挑选出来进行检测,我们的计算成本就会变得小很多。

11e00fa4cc7da95e0614dee85eb97818867d52fd

通过基因组数据,我们可以做很多有趣的事情。比如,在东非把所有人的基因组进行计算,加上化石和遗迹的考察,我们可以知道我们的祖先大约在16-20万年前(即现代智人出现的时间)出现在东非。他们大概在6-7万年前开始从非洲大陆迁徙出来,迁徙路径往往是向着有水源或者食物的地方。这是根据Y染色体推算出来的,在Y单倍群的基础上就有了上图中字母的定义,从图中的C路径就可以得知北美的印第安人和我们很像的原因。有了这么多的数据,如果我们对每个人进行检测,我们就会知道自己的祖先是如何一步一步走到这片土地上的。

d7f9c4b748b1e43c5d499e5a4c41514091c42c63

除了上述祖源的检测,我们还可以根据每个用户的基因组并且基于现在的文献和成果做更多的解读。然而基因组检测还存在一定的局限性,比如很多的研究实际上是基于欧洲人的而不是中国人,所以推动中国人基因组数据研究刻不容缓。当把所有的这些工作都从线下推到了互联网上时,人们可以不需要到医院进行基因检测,在互联网上诞生了一些更多的可能。通过很多的检测,我们发现很多与基因组有关的疾病并不单单是基因组可以决定的,基因组能决定的事情很少,但是几乎所有的所谓疾病的风险除了遗传病以外,基因都只是其中的一个影响因素。

微解读

2e705e7ace5e1f735a007f9f8b70b0160d49eceb

用户可以在网站上点击创造一个解读项目,填入参考文献等各种信息。用户创建的解读项目是多样的,包括娱乐的、跟饮食有关的等等。这样的解读项目已经有了六十多项,大概有一万多人次用了这样的项目。无论是华大还是产业链的很多巨头,都曾经梦想过在基因组行业中会有一个APP Store。根据每个人的基因组,我们是不是可以开发很多应用?是不是可以构建出一个基因组的APP Store?微解读或许是在这方面初步的一个尝试。

b31deca1cce48877cd116c60e410971282bbadc9

基因组数据不仅仅能够为个人提供好处,很多基因组研究在中国人身上做的不够好,最主要的原因是数据不够。所以,希望通过互联网的技术和手段来推动这方面的研究,比如尼古丁的研究、基因组和睡眠关系的研究。尼古丁重度成瘾性的研究通过在互联网上填写调查问卷,使得研究的速度得到极大的进展,其中每一项都需要用户签署置信同意。随着科技的发展,越来越多的人也愿意参与到这样的科学研究中。

在阿里云生态中的实践

2c82284923897f0587f088937754b1c1d6b893ba

上图中是WeGene主要用到的组件,包括:ECS、OSS、RDS、API应用网关、批量计算等等。WeGene与阿里云平台上的做生物信息PAAS服务的GeneDock的公司的很多组件进行合作。

bc68c25f61c616340494420cf266ed29dd795949

具体来讲,利用本地服务器通过GeneDock和阿里云自己的组件去提供PC、移动、API的服务,实验室的数据直接进入OSS,大型的数据会直接进入本地的服务器,最终在阿里云上呈现给全球的用户。

数据存储

  • RDS:主要用于存储预处理后的基因组数据、表型数据、网站数据,没有经过预处理的数据规模是庞大的,不可能进入RDS这种SQL数据库;
  • OSS:用于存储基因组原始数据和大型的计算结果(比如,全基因组数据:FASTQ,BAM,约每用户200GB,约50用户;芯片数据:CEL,约每用户200MB,约7000用户);
  •  GeneDock:存储正在处理的全基因组数据和芯片数据;
  •  本地存储:所有数据的备份。

数据传输

生命科学所有的数据都是在测序中心、实验室中产生的,怎么把这些数据传输到云上是一个很麻烦的事情。以下是三种数据传输的方式:

  • 芯片数据:数据量比较小,实验室用OSS客户端上传OSS;
  • 全基因组数据:数据量比较大,需通过GeneDock的专线上传GeneDock系统,也有一些专门的压缩和传输算法,尽可能利用数据的带宽,同时实时压缩和解压;
  • 23andme等数据:海外的数据通过API直接存储RDS。

计算

本地服务器:

  • 主要用于研发,或者是处于alpha测试阶段的产品,Celery调度;
  •  基于Spark的芯片数据质控。

ECS

  • 实时的小规模计算,例如简单的遗传风险评估;
  •  常规Web服务。

GeneDock

  • 全基因组数据分析。

未来的基因组数据平台

基因组数据的二次分析

c639018955c9680b99e73763bc6edb75093abd4c

当我们为每一个人提供基因组数据分析的时候,我们只是根据已有的科研结果去一个一个的分析基因组数据。无论是华大还是其他厂商,当积累了足够多的数据之后,希望能够从数据中发现新的东西,什么样的系统能够支持这样的数据分析?而且,随时随地都会有用户通过调查问卷、智能硬件来更新表型信息,整个基因组的数据分析结果是否能够实时反应出这些数据所带来的影响?这些挑战都是比较大的。

全基因组数据存储、分析和可视化

483a5386bec5de8b612986fb7f22f2073e55a3aa

数据分析需要有一个高效的存储系统。Genomics API可以统一支持基于基因组的上层应用,数据量变大时仍然面临很大的挑战。

亚洲人群的Genome Graph

a2532d300a5c77e566e7406f41ada86584c11855

参考基因组有一套参考标准,可以认为是白人的基因组。而每个民族的基因组都是不一样的,每个人的基因组都是不一样的,所以和参考基因组进行比对是不太合理的。Genome Graph的思想是:如果将每个人基因组和一个参考基因组进行比对不合适的话,是不是将其和多个参考基因组进行比对更为合适?这样就带来了是处理速度的挑战。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5月前
|
SQL 分布式计算 DataWorks
MaxCompute产品使用问题之dts是否支持传输数据到mc主键表2.0
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
SQL 数据采集 分布式计算
大数据数据采集的数据迁移(同步/传输)的Sqoop之基本命令和使用的导入/导出数据
在大数据领域,数据迁移(同步/传输)也是非常重要的一环。Sqoop作为一个开源的数据迁移工具,可以帮助我们轻松地实现关系型数据库与Hadoop之间的数据迁移。本文将会对Sqoop的基本命令和使用进行详细介绍。
385 1
|
SQL 分布式计算 Oracle
大数据数据采集的数据迁移(同步/传输)的Sqoop之概念
在大数据领域,数据迁移(同步/传输)也是非常重要的一环。Sqoop作为一个开源的数据迁移工具,可以帮助我们轻松地实现关系型数据库与Hadoop之间的数据迁移。本文将会对Sqoop进行详细介绍。
543 1
|
数据采集 关系型数据库 MySQL
大数据数据采集的数据迁移(同步/传输)的Sqoop之DataX
在大数据领域中,数据迁移是一个非常重要的任务。而Sqoop是一款流行且实用的数据迁移工具,但是它对于某些特定场景的数据迁移并不太方便。为了解决这个问题,阿里巴巴集团开发了一款开源的数据集成工具DataX,提供了更多的数据迁移方式和功能。本文将介绍DataX的基本原理和使用方法,希望能够为大家提供一些参考和帮助。
476 0
|
存储 数据采集 分布式计算
大数据数据采集的数据迁移(同步/传输)的Sqoop之数据传输实战
在大数据领域,数据迁移(同步/传输)也是非常重要的一环。Sqoop作为一个开源的数据迁移工具,可以帮助我们轻松地实现关系型数据库与Hadoop之间的数据迁移。本文将介绍如何使用Sqoop进行数据传输实战。
622 0
|
存储 数据采集 SQL
大数据数据采集的数据迁移(同步/传输)的Sqoop之基本命令和使用的job作业
在大数据领域中,Sqoop是一款非常流行的数据迁移工具。它可以将关系型数据库中的数据快速地移动到Hadoop生态系统中,方便我们进行更深入的分析和处理。本文将介绍Sqoop的基本命令及如何使用Sqoop来创建和运行job作业,希望能够为大家提供一些参考和帮助。
170 0
|
SQL 数据采集 分布式计算
大数据数据采集的数据迁移(同步/传输)的Sqoop之基本命令和使用的help
在大数据领域,数据迁移(同步/传输)也是非常重要的一环。Sqoop作为一个开源的数据迁移工具,可以帮助我们轻松地实现关系型数据库与Hadoop之间的数据迁移。本文将会对Sqoop的基本命令和使用进行详细介绍。
284 0
|
数据采集 分布式计算 关系型数据库
大数据数据采集的数据迁移(同步/传输)的Sqoop之下载和配置安装
在大数据领域中,Sqoop是一款非常流行的数据迁移工具。它可以将关系型数据库中的数据快速移动到Hadoop生态系统中,方便我们进行更深入的分析和处理。本文将介绍如何下载和配置安装Sqoop,希望能够为大家提供一些帮助。
222 0
|
数据采集 SQL 分布式计算
大数据数据采集的数据迁移(同步/传输)的Sqoop之基本命令和使用的查询库/表
在大数据领域中,Sqoop是一款非常流行的数据迁移工具。它可以将关系型数据库中的数据快速地移动到Hadoop生态系统中,方便我们进行更深入的分析和处理。本文将介绍Sqoop的基本命令及如何使用Sqoop来查询库表,希望能够为大家提供一些参考和帮助。
181 0