【Spark Summit East 2017】使用ADAM处理Terabyte级基因数据集

简介: 本讲义出自Frank Austin Nothaft在Spark Summit East 2017上的演讲,主要介绍了构建于Spark分布式计算框架之上的符合Apache 2许可的库ADAM,ADAM允许基因分析在Spark上集群上无缝地进行分布,并为编写基因组分析算法提供了清晰的API,演讲还讨论了ADAM与Hbase对于大型变体数据集进行交互式探索。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Frank Austin Nothaft在Spark Summit East 2017上的演讲,主要介绍了构建于Spark分布式计算框架之上的符合Apache 2许可的库ADAM,ADAM允许基因分析在Spark上集群上无缝地进行分布,并为编写基因组分析算法提供了清晰的API,演讲还讨论了ADAM与Hbase对于大型变体数据集进行交互式探索。


65855fed3ce088715b98342c80b170a187b77378

2b41327bff344cdb23f2fbd7a4c5d0dbb87f94d8

77a662d0ae9cc9192171410420c3b4c7297b9235

7333ad733eb7c738db821e6591f4eae7f48d9c2b

2a18f7bf522de30447a836b42f5d39d0270a6b60

bc3ec56dd951b0aa4f467777bff2774619cbd8eb

a6e9b4a16f84cd7eb27efa0ecaec336959ec06b0


14232512be9dcaf2546052cb43ff3a2581608d90

f46ddcb0355340cee202c935c385264321ac93d6

0600d89ce7ea7cebc2a581ff3095655a02a7275b

f2a10d0df3ad40318c32e2fd13ee63b56961fcfb

25b0086f16ebf9fff6a614f4f0b1afec5b11bb0f

8cfd2e611e7976de561a9ba95a07e892d5cd4d84

468fbef0efb90bd32df87fe10b3077ae4578b330

67db0e79c1d92b27a9ad482fe3a43bdfe1f95293

aa67286466842295ee14c32361a025d502e483a5

1a125ef38da2533e0a24e8210ec43959c25d4b93

f9cfbebb2e617ae7a7bace67da0408ac0d4068ba


c143afe2d788a563cc9c5cc2073c93088816123c

adb299943b058fd586c467b217f14986d0898018

2ae356f0b372821e0d9a6965e8f4f69c21abdac9

796a02be062e67cfa35009902ac0e201ba47b1c5

相关文章
|
2月前
|
存储 缓存 分布式计算
Spark【基础知识 02】【弹性式数据集RDDs】(部分图片来源于网络)
【2月更文挑战第13天】Spark【基础知识 02】【弹性式数据集RDDs】(部分图片来源于网络)
37 1
|
4月前
|
分布式计算 大数据 数据处理
Spark RDD(弹性分布式数据集)
Spark RDD(弹性分布式数据集)
|
5月前
|
机器学习/深度学习 分布式计算 搜索推荐
【大数据技术】Spark MLlib机器学习协同过滤电影推荐实战(附源码和数据集)
【大数据技术】Spark MLlib机器学习协同过滤电影推荐实战(附源码和数据集)
101 0
|
5月前
|
机器学习/深度学习 分布式计算 前端开发
【大数据技术】Spark MLlib机器学习线性回归、逻辑回归预测胃癌是否转移实战(附源码和数据集)
【大数据技术】Spark MLlib机器学习线性回归、逻辑回归预测胃癌是否转移实战(附源码和数据集)
36 0
|
5月前
|
机器学习/深度学习 分布式计算 大数据
【大数据技术】Spark MLlib机器学习特征抽取 TF-IDF统计词频实战(附源码和数据集)
【大数据技术】Spark MLlib机器学习特征抽取 TF-IDF统计词频实战(附源码和数据集)
31 0
|
5月前
|
存储 分布式计算 搜索推荐
【大数据技术Hadoop+Spark】MapReduce之单词计数和倒排索引实战(附源码和数据集 超详细)
【大数据技术Hadoop+Spark】MapReduce之单词计数和倒排索引实战(附源码和数据集 超详细)
57 0
|
5月前
|
机器学习/深度学习 分布式计算 大数据
【云计算与大数据技术】Spark实战项目之判别西瓜好坏(附源码和数据集)
【云计算与大数据技术】Spark实战项目之判别西瓜好坏(附源码和数据集)
50 0
|
存储 分布式计算 资源调度
Spark框架深度理解三:运行架构、核心数据集RDD
Spark框架深度理解三:运行架构、核心数据集RDD
321 0
Spark框架深度理解三:运行架构、核心数据集RDD