开发者社区大数据文章正文

【Spark Summit East 2017】使用Spark进行可伸缩的元基因组分析

2017-02-18 1866

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Zhong Wang在Spark Summit East 2017上的演讲，主要介绍了元基因组分析的相关概念以及目前面临的计算上的挑战，实验表明，使用Spark进行元基因组数据分析的速度、可扩展性、健壮性都非常不错，并且最重要的一点十分容易编程实现，对于元基因组分析来说，Spark是一个具成本效益比较高的解决方案并且能够快速开发和部署的方案。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Zhong Wang在Spark Summit East 2017上的演讲，主要介绍了元基因组分析的相关概念以及目前面临的计算上的挑战，实验表明，使用Spark进行元基因组数据分析的速度、可扩展性、健壮性都非常不错，并且最重要的一点十分容易编程实现，对于元基因组分析来说，Spark是一个具成本效益比较高的解决方案并且能够快速开发和部署的方案。

e834c6be56187d2c51116e92b45b98dc87996696

c054a6255c2846d816e14bc1cfb963c5b86cdb80

cf8f63d4ef0eac706d4c579e47d667296f89701b

87c16dd27ed80c0b7be61660854134b72f42cb7e

ad4644f95252eac0980ad52c1a0a04baf568f8f7

16edda4d15920995f0f59e845bf7f332e2799305

d6dfdc6347577683780311b8999affb34d366c99

6819cdc7785a5b83143c471ade599be31560f361

4bdf672adbac7f27c808342c8695f207b6e7c125

37c8500b08376dc70f20db316532e6f8d07b689a

f5bef682922ba38e120516dfdfca67aec7c10047

695dcd31c168b577d32b844334ec34c72679ce6e

33e1c15d249ab662fc5004a8abf281caab39a6b4

75a9255819fc0a0a0bbf3ad7329df3bedb8a1501

90d2a6a743159b424a3bcbe8ba9364a4970f9348

10837a1ce85bfaa4f6f9ec59b5bf315b768e6fa5

2ea1dca882bc9f03e446b6fb50b7f603ccd2053b

0b1b64d46bd4809442b4697be41ad172b51af520

f3d260e14e7512a0bc568548ee830638231ee6e9

20c05f5fd2fdafac0456b233487d548f15d1addf

fcf88e0111b24933213fb134b8d68335ce9ec30a

d52d7dfd5ff43ac35dac2f19d55981a0e1f7b3c1

9cbc390c67641d35ecd3c34d5274c982ff6ec5c9

0eba10f09525abbf839dc379b57f3cd38e8e33ad

28d75118f6a3687846e8889cfde450a00222310a

b708479fa0d489f917ef562232bd87b830f5c4e0

8ddab17b04c606acd4359996148f732092aead7b

eb2885fee2c49416256c5b35a5fb052754f402c9

文章标签：

大数据

分布式计算

Spark

数据挖掘

MaxCompute

关键词：

apache spark分析

apache spark east

apache spark summit

apache spark summit east

apache spark summit east分析

小猫吃鱼569

云原生数据湖分析DLA

存储弹性计算分布式计算

Hadoop集群伸缩难？DLA Spark助力集群快速加弹性

由于历史原因，很多用户的业务运行在用户自建的Hadoop集群上，随着业务的发展会遇到扩容难，缩容慢，弹不出等问题。DLA团队将Serverless、云原生、Spark技术优势深度整合到一起，提供Serverless Spark产品，可以无缝连接用户Hadoop集群，快捷稳定地为传统Hadoop集群增加弹性算力

云原生数据湖分析DLA

3910 0 0

阿里云E-MapReduce团队

SQL 人工智能分布式计算

回顾 | SPARK + AI SUMMIT 2020 中文精华版线上峰会圆满结束（附PPT下载）

超乎你想象的干货合集打包带走！

阿里云E-MapReduce团队

23170 0 0

回顾 | SPARK + AI SUMMIT 2020 中文精华版线上峰会圆满结束（附PPT下载）

阿里云E-MapReduce团队

人工智能分布式计算 Spark

SPARK + AI SUMMIT 2020 中文精华版线上峰会材料

阿里云E-MapReduce团队

1105 0 0

阿里云E-MapReduce团队

机器学习/深度学习人工智能分布式计算

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍

阿里云E-MapReduce团队

1953 0 0

阿里云E-MapReduce团队

分布式计算 Prometheus Kubernetes

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布

阿里云E-MapReduce团队

2687 0 0

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

阿里云E-MapReduce团队

SQL 人工智能缓存

Spark 10年，作者 Matei 在 Spark + AI Summit 2020 上深情回顾，Photon 引擎首次曝光

在Spark + AI Summit 2020上， Matei 先生的keynote对 Spark 10 年做了非常精彩的演讲和深情的回顾。SparkSQL 重回巅峰，在性能上大幅超越 Presto。在过去几年，我们见过了太多的 benchmark，大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心，可谓及时雨。

阿里云E-MapReduce团队

2981 0 0

Spark 10年，作者 Matei 在 Spark + AI Summit 2020 上深情回顾，Photon 引擎首次曝光

大熊计算机

人工智能分布式计算大数据

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

本文探讨了大数据场景下降维的核心问题与解决方案，重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例，揭示高维空间中样本稀疏性问题，并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用，包括数据准备、核心实现与效果评估，同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外，还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应，为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则，展望未来发展方向。

大熊计算机

661 0 0

郑小健

分布式计算大数据 Apache

ClickHouse与大数据生态集成：Spark & Flink 实战

【10月更文挑战第26天】在当今这个数据爆炸的时代，能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统，ClickHouse 在大数据分析领域展现出了卓越的能力。然而，为了充分利用ClickHouse的优势，将其与现有的大数据处理框架（如Apache Spark和Apache Flink）进行集成变得尤为重要。本文将从我个人的角度出发，探讨如何通过这些技术的结合，实现对大规模数据的实时处理和分析。

郑小健

1232 2 3

Echo_Wish

存储分布式计算 Hadoop

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Echo_Wish

761 79 80

武子康

存储分布式计算算法

大数据-106 Spark Graph X 计算学习案例：1图的基本计算、2连通图算法、3寻找相同的用户

武子康

444 0 0

【Spark Summit East 2017】使用Spark进行可伸缩的元基因组分析

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【Spark Summit East 2017】使用Spark进行可伸缩的元基因组分析

热门文章

最新文章

相关课程

相关电子书