【Spark Summit East 2017】加速云上Spark基因测序的数据驱动方法以及案例研究

简介: 本讲义出自Lucy Lu与Eric Kaczmarek在Spark Summit East 2017上的演讲,主要介绍了正在研发中的基于Spark的编程平台GATK4(Genome Analysis Toolkit version 4 ),并用案例讲解了如何在云上配置Spark集群加速对于基因序列的测序工作。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Lucy Lu与Eric Kaczmarek在Spark Summit East 2017上的演讲,主要介绍了正在研发中的基于Spark的编程平台GATK4(Genome Analysis Toolkit version 4 ),并用案例讲解了如何在云上配置Spark集群加速对于基因序列的测序工作。除此之外还介绍了名为PAT的内部数据分析框架,并介绍了如何使用PAT快速建立Spark与虚拟机合适的配置组合来优化对于云的硬件资源以及Spark计算并行性的使用。


c44824e20d94eba4a3df01cc685f38105c166cd2

ffe40d3f59fd82e639305cd617bcf0bc7bad45de

652bba4f7ef8b42fea35f3c772e786d154b86db9

154d458064c562e9cf20198aef68b16c9830b5bd

b8828d86ba750e82174e88c0edeab9fa90adf4b6

a78d9e726d784e8d743d4a20d4b65467281cce7c

fe50c6a45fab7f31f6057d43d484921090f5be14

9fd8d1bdd6898817ef0813fed949a7ee75a4e991

9076574ea83eb8e28e8c1aea105748e7f3c76eba

ad5fd82ad78d2aaa4aaf64efc1bc84b4beca369c

170f1982853c8594942c492240c7b7c2fcb4895e

80d64d67238177639d755dddac5e5d3f7f8f534f

7f243e003aa26e0b1b7250d1a579274852a84b02

449bc82ce697caa5b804dd336d5486cb4cd3a1ca

2dcd68d57af23a3b247159394b3b582a6358dbcf

e9d7c58b66379d4a483261960118d791136c10ba

810a0c2994a3b8092e152e31773608504b072a34

0f139ca7f19c2a913cd40fca57dec151654f2ae9

cd4dfd670ca4965f5a6f28369edd164fe920f2b4

9ba81e51f3dd459e1aa31dcdfcf4a9cbec17d334

267c63fb53a93aeae2844fc16d49114f0dfb55f1

相关文章
|
5月前
|
canal 分布式计算 关系型数据库
大数据Spark Streaming实时处理Canal同步binlog数据
大数据Spark Streaming实时处理Canal同步binlog数据
98 0
|
23天前
|
SQL 分布式计算 API
Spark学习------SparkSQL(概述、编程、数据的加载和保存)
Spark学习------SparkSQL(概述、编程、数据的加载和保存)
35 2
|
6月前
|
SQL 存储 JSON
Spark学习---5、SparkSQL(概述、编程、数据的加载和保存)(二)
Spark学习---5、SparkSQL(概述、编程、数据的加载和保存)(二)
|
6月前
|
SQL 缓存 分布式计算
Spark学习---5、SparkSQL(概述、编程、数据的加载和保存)(一)
Spark学习---5、SparkSQL(概述、编程、数据的加载和保存)(一)
|
6月前
|
分布式计算 算法 Spark
Spark学习--4、键值对RDD数据分区、累加器、广播变量、SparkCore实战(Top10热门品类)
Spark学习--4、键值对RDD数据分区、累加器、广播变量、SparkCore实战(Top10热门品类)
|
9月前
|
SQL 数据采集 分布式计算
基于Spark SQL的数据探索
基于Spark SQL的数据探索
|
9月前
|
机器学习/深度学习 SQL 分布式计算
「大数据分析」寻找数据优势:Spark和Flink终极对决
「大数据分析」寻找数据优势:Spark和Flink终极对决
|
9月前
|
SQL JSON 分布式计算
提高数据的安全性和可控性,数栈基于 Ranger 实现的 Spark SQL 权限控制实践之路
在企业级应用中,数据的安全性和隐私保护是极其重要的,为了实现Spark SQL 对数据的精细化管理及提高数据的安全性和可控性,数栈基于 Apache Ranger 实现了 Spark SQL 对数据处理的权限控制,本文将重点描述数栈如何基于 Ranger 赋予了 Spark SQL 在权限管控方面,更强的管控力度、更丰富的能力。
144 0
|
SQL 存储 分布式计算
HADOOP MapReduce 处理 Spark 抽取的 Hive 数据【解决方案一】
开端: 今天咱先说问题,经过几天测试题的练习,我们有从某题库中找到了新题型,并且成功把我们干趴下,昨天今天就干了一件事,站起来。 沙问题? java mapeduce 清洗 hive 中的数据 ,清晰之后将driver代码 进行截图提交。
281 0
HADOOP MapReduce 处理 Spark 抽取的 Hive 数据【解决方案一】
|
分布式计算 Java Scala
一天学完spark的Scala基础语法教程四、方法与函数(idea版本)
一天学完spark的Scala基础语法教程四、方法与函数(idea版本)
66 0
一天学完spark的Scala基础语法教程四、方法与函数(idea版本)