【Spark Summit East 2017】教会Spark集群弹性管理Worker

简介: 本讲义出自Erik Erlandson与Trevor McKay 在Spark Summit East 2017上的演讲,主要介绍了将Openshift Origin作为实验室,实现了Spark能够创建自己的集群并且动态管理API的平台,还分享了如何充分利用Kubernetes生态系统中的API启用应用程序进行弹性部署。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Erik Erlandson与Trevor McKay 在Spark Summit East 2017上的演讲,主要介绍了将Openshift Origin作为实验室,实现了Spark能够创建自己的集群并且动态管理API的平台,还分享了如何充分利用Kubernetes生态系统中的API启用应用程序进行弹性部署。


3e547eba0020c8efbffbbb54c4387d7d89e1b9a4

60357c1efa5fa8a00272b5ee668499f47d86219e

d4895c29aefac23b33e6be60f157892578d56a26

14f6b360a21ac39cfbc46c167c072392e0dded44

6bf9be418ce798e021a8902a11838ba149eac45e

5c30046ac94a25bb42a2c70d27aa5380a2117cca


36c458cc90b361b4c4ba5f0e6aea7143ec69cb10

d6a07f7e4dc750c1abd2f2b2ac4f309183e29d53

75f9996d0a74610842b3a73be97de8a78d89816f

ac9255af6d3ffdf774fdf781a7dd732946328753

79e4c4d4ba09a126ba85f96b50c79cbf63d78c34

d0ae70d753453ea03ca37a553d562f7651ff55fd

a94a0969e206d045c4df28a31c8c8f2a0fbf1dfa

77c080c0334239fdde50e9ed3e589a8a53b239b9

9c08db811b013eac4dc274da1ccec13049247f2f

f4b77635e3b20dc6648d062b10574cc71b03a1f4

be613859ec04a2d9c73e9513694e45e2ab4e3680

8855ce9f6972783b9342c483e65061d535d77743

6baad3ff579e1ab3913765df80c99b6f4dc1db91

f872034dcecfd8b511bf436b86dcd28b31f2ef2a

c61cc08366fede73949d5bc4134da22b2b3d1803

273b63d55e9dab2fd41494b85794285336b30321

3679f54ccbc9c49be97ffc65053f41d83e1aea9b

834fd5c070ed7afec1769f3e152c8e8d6b080908

45524d8e9a518196359e621a1cad48582c542391

18483ee2b502777682bd2e2797c47c60615700e1

b439307c071a22bbb72a41583ed1ae82b04407c9

39a4d0a318136fafe498f84dfbcc254db3fd502e

2dde9bf7917d06e98694596210330b3a7c75215b

a7412d425b74911badecdbe0b6608dafe1bd494a

69f0323ec1033b4a77d900c52a6e009c82bc8281

8e7bf8e9e76004f420efb6f7a69565eb4f569689

93a4ee381fb5b615bad548f13e42cf0683cf2db5


相关文章
|
人工智能 分布式计算 调度
打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度
ACK One多集群Spark作业调度,可以帮助您在不影响集群中正在运行的在线业务的前提下,打破资源边界,根据各集群实际剩余资源来进行调度,最大化您多集群中闲置资源的利用率。
|
存储 分布式计算 调度
Spark Master HA 主从切换过程不会影响到集群已有作业的运行, 为什么?
Spark Master 的高可用性(HA)机制确保主节点故障时,备用主节点能无缝接管集群管理,保障稳定运行。关键在于: 1. **Driver 和 Executor 独立**:任务执行不依赖 Master。 2. **应用状态保持**:备用 Master 通过 ZooKeeper 恢复集群状态。 3. **ZooKeeper 协调**:快速选举新 Master 并同步状态。 4. **容错机制**:任务可在其他 Executor 上重新调度。 这些特性保证了集群在 Master 故障时仍能正常运行。
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
198 0
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
187 0
|
消息中间件 分布式计算 Kafka
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
288 0
|
消息中间件 分布式计算 Kafka
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
391 0
|
SQL 分布式计算 大数据
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
572 0
|
11月前
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
589 0
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
1185 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
691 79