【Spark Summit East 2017】加速云上Spark基因测序的数据驱动方法以及案例研究

简介: 本讲义出自Lucy Lu与Eric Kaczmarek在Spark Summit East 2017上的演讲,主要介绍了正在研发中的基于Spark的编程平台GATK4(Genome Analysis Toolkit version 4 ),并用案例讲解了如何在云上配置Spark集群加速对于基因序列的测序工作。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Lucy Lu与Eric Kaczmarek在Spark Summit East 2017上的演讲,主要介绍了正在研发中的基于Spark的编程平台GATK4(Genome Analysis Toolkit version 4 ),并用案例讲解了如何在云上配置Spark集群加速对于基因序列的测序工作。除此之外还介绍了名为PAT的内部数据分析框架,并介绍了如何使用PAT快速建立Spark与虚拟机合适的配置组合来优化对于云的硬件资源以及Spark计算并行性的使用。


c44824e20d94eba4a3df01cc685f38105c166cd2

ffe40d3f59fd82e639305cd617bcf0bc7bad45de

652bba4f7ef8b42fea35f3c772e786d154b86db9

154d458064c562e9cf20198aef68b16c9830b5bd

b8828d86ba750e82174e88c0edeab9fa90adf4b6

a78d9e726d784e8d743d4a20d4b65467281cce7c

fe50c6a45fab7f31f6057d43d484921090f5be14

9fd8d1bdd6898817ef0813fed949a7ee75a4e991

9076574ea83eb8e28e8c1aea105748e7f3c76eba

ad5fd82ad78d2aaa4aaf64efc1bc84b4beca369c

170f1982853c8594942c492240c7b7c2fcb4895e

80d64d67238177639d755dddac5e5d3f7f8f534f

7f243e003aa26e0b1b7250d1a579274852a84b02

449bc82ce697caa5b804dd336d5486cb4cd3a1ca

2dcd68d57af23a3b247159394b3b582a6358dbcf

e9d7c58b66379d4a483261960118d791136c10ba

810a0c2994a3b8092e152e31773608504b072a34

0f139ca7f19c2a913cd40fca57dec151654f2ae9

cd4dfd670ca4965f5a6f28369edd164fe920f2b4

9ba81e51f3dd459e1aa31dcdfcf4a9cbec17d334

267c63fb53a93aeae2844fc16d49114f0dfb55f1

相关文章
|
分布式计算 算法 Spark
Spark中的性能优化有哪些方法?请举例说明
Spark中的性能优化有哪些方法?请举例说明
233 1
|
分布式计算 Java Scala
一天学完spark的Scala基础语法教程四、方法与函数(idea版本)
一天学完spark的Scala基础语法教程四、方法与函数(idea版本)
192 0
一天学完spark的Scala基础语法教程四、方法与函数(idea版本)
|
分布式计算 Spark
教材P164操作题。编写Spark Steaming程序,使用leftOuterJoin操作及filter方法过滤掉黑名单的数据
教材P164操作题。编写Spark Steaming程序,使用leftOuterJoin操作及filter方法过滤掉黑名单的数据
144 0
|
SQL JSON 分布式计算
Spark SQL DataFrame查询和输出函数一文详解运用与方法
Spark SQL DataFrame查询和输出函数一文详解运用与方法
977 0
Spark SQL DataFrame查询和输出函数一文详解运用与方法
|
SQL 分布式计算 Hadoop
Spark SQL DataFrame查看函数一文详解运用与方法
Spark SQL DataFrame查看函数一文详解运用与方法
654 0
Spark SQL DataFrame查看函数一文详解运用与方法
|
SQL JSON 分布式计算
Spark SQL DataFrame创建一文详解运用与方法
Spark SQL DataFrame创建一文详解运用与方法
617 0
Spark SQL DataFrame创建一文详解运用与方法
|
SQL 分布式计算 关系型数据库
Spark SQL CLI部署CentOS分布式集群Hadoop上方法
Spark SQL CLI部署CentOS分布式集群Hadoop上方法
353 0
Spark SQL CLI部署CentOS分布式集群Hadoop上方法
|
存储 SQL 分布式计算
Spark RDD数据操作函数以及转换函数一文详解运用与方法
Spark RDD数据操作函数以及转换函数一文详解运用与方法
774 0
|
人工智能 分布式计算 Spark
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料