【Spark Summit East 2017】使用Spark进行可伸缩的元基因组分析

简介: 本讲义出自Zhong Wang在Spark Summit East 2017上的演讲,主要介绍了元基因组分析的相关概念以及目前面临的计算上的挑战,实验表明,使用Spark进行元基因组数据分析的速度、可扩展性、健壮性都非常不错,并且最重要的一点十分容易编程实现,对于元基因组分析来说,Spark是一个具成本效益比较高的解决方案并且能够快速开发和部署的方案。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Zhong Wang在Spark Summit East 2017上的演讲,主要介绍了元基因组分析的相关概念以及目前面临的计算上的挑战,实验表明,使用Spark进行元基因组数据分析的速度、可扩展性、健壮性都非常不错,并且最重要的一点十分容易编程实现,对于元基因组分析来说,Spark是一个具成本效益比较高的解决方案并且能够快速开发和部署的方案。


e834c6be56187d2c51116e92b45b98dc87996696

c054a6255c2846d816e14bc1cfb963c5b86cdb80

cf8f63d4ef0eac706d4c579e47d667296f89701b

87c16dd27ed80c0b7be61660854134b72f42cb7e

ad4644f95252eac0980ad52c1a0a04baf568f8f7

16edda4d15920995f0f59e845bf7f332e2799305

d6dfdc6347577683780311b8999affb34d366c99

6819cdc7785a5b83143c471ade599be31560f361

4bdf672adbac7f27c808342c8695f207b6e7c125

37c8500b08376dc70f20db316532e6f8d07b689a

f5bef682922ba38e120516dfdfca67aec7c10047

695dcd31c168b577d32b844334ec34c72679ce6e

33e1c15d249ab662fc5004a8abf281caab39a6b4

75a9255819fc0a0a0bbf3ad7329df3bedb8a1501

90d2a6a743159b424a3bcbe8ba9364a4970f9348

10837a1ce85bfaa4f6f9ec59b5bf315b768e6fa5

2ea1dca882bc9f03e446b6fb50b7f603ccd2053b

0b1b64d46bd4809442b4697be41ad172b51af520

f3d260e14e7512a0bc568548ee830638231ee6e9

20c05f5fd2fdafac0456b233487d548f15d1addf

fcf88e0111b24933213fb134b8d68335ce9ec30a

d52d7dfd5ff43ac35dac2f19d55981a0e1f7b3c1

9cbc390c67641d35ecd3c34d5274c982ff6ec5c9

0eba10f09525abbf839dc379b57f3cd38e8e33ad


28d75118f6a3687846e8889cfde450a00222310a

b708479fa0d489f917ef562232bd87b830f5c4e0

8ddab17b04c606acd4359996148f732092aead7b

eb2885fee2c49416256c5b35a5fb052754f402c9


相关文章
|
存储 弹性计算 分布式计算
Hadoop集群伸缩难?DLA Spark助力集群快速加弹性
由于历史原因,很多用户的业务运行在用户自建的Hadoop集群上,随着业务的发展会遇到扩容难,缩容慢,弹不出等问题。DLA团队将Serverless、云原生、Spark技术优势深度整合到一起,提供Serverless Spark产品,可以无缝连接用户Hadoop集群,快捷稳定地为传统Hadoop集群增加弹性算力
|
人工智能 分布式计算 Spark
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
|
机器学习/深度学习 人工智能 分布式计算
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
|
分布式计算 Prometheus Kubernetes
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题
|
SQL 人工智能 缓存
Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顾,Photon 引擎首次曝光
在Spark + AI Summit 2020上, Matei 先生的keynote对 Spark 10 年做了非常精彩的演讲和深情的回顾。SparkSQL 重回巅峰,在性能上大幅超越 Presto。在过去几年,我们见过了太多的 benchmark,大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心,可谓及时雨。
Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顾,Photon 引擎首次曝光
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
661 0
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
1232 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
761 79
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
444 0