【Spark Summit East 2017】用Yarn监控Scala和Python Spark工作的动态资源使用情况

简介: 本讲义出自Ed Barnes与Ruslan Vaulin在Spark Summit East 2017上的演讲,我们都害怕“失去的任务”和“容器由于超出内存限制被Yarn关闭”的消息在Spark Yarn的应用程序出现的比例增多。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Ed Barnes与Ruslan Vaulin在Spark Summit East 2017上的演讲,我们都害怕“失去的任务”和“容器由于超出内存限制被Yarn关闭”的消息在Spark Yarn的应用程序出现的比例增多。甚至在分布式Yarn环境中,回答“应用程序使用了多少内存?”这个问题都是非常棘手的。为观察Spark的重要统计工作,包括executor-by-executor内存和CPU使用,JDK以及pySpark Yarn容器中的python的部分,Sqrrl已经开发了一个测试框架。


15c0f75faf05a23cc65dd869c44a7808748afad5

72ae48ad020a2af4663c3f969e3c1ede70dbeeb9

c99224b1fb98aaf20be31dafe5bcafa77ebf1342

c69ba5cfcbf826bfbd4a0557946d963ddc79b867

ba898094111ccfab3b55d1e29de04e824484baf1

d3288c608cda601e5034dabecb0d54d9a9573b0e

df32b7d6edc03ea9212844913d43e0c8aad47fd2

bc106c481d752bd9051f4e5279ee2e63d35df39f

e6b84bf0710b3be284540f65d1d6469e00f0566c

62ca30fed7ab6e998d6fc8e7fffebb691e1a347f

8ff5dfb6c279ba260f4dbe4f8063f3900af49f2c

8253a68f53003a25f1acd571b2349b3e0452d8f5

9e704c5a8f8ab514bdc98480d1ed789e03304a40

c91f2b473702f27ed223b38d1e6ac48d5febd3bc

b7904434d00163a24272dd3ff666c213420b29ec

a8e3dd6a7ad1aabb4b80b532202f1440e2961651

b4fdd04c1e568a23ce208e310eb691cee2d20f1e

c7142b9f810a222c3f64d1f9f54194310d781f61

1c7196711eaafee63211b31bfde037ab5832933e

b43ab7e87abe824614e4ed62f3387b7a5488c7c8

656c211ebc927d6609c3f0f6ceaaffd8fa4ad15d

ee22dd5b66a00529dedff2c95fed0f936d0469c6

86e621832502dfee51e30743cf21588ddff5ad13

5752984f6f41509c3bcaca7764b3bf71f9b79976

009671c137c68af6feeaccbc3669b188c4e52f61

目录
打赏
0
0
0
0
41
分享
相关文章
打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度
ACK One多集群Spark作业调度,可以帮助您在不影响集群中正在运行的在线业务的前提下,打破资源边界,根据各集群实际剩余资源来进行调度,最大化您多集群中闲置资源的利用率。
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
113 5
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
84 3
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
90 0
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
140 0
Spark Standalone与YARN的区别?
本文详细解析了 Apache Spark 的两种常见部署模式:Standalone 和 YARN。Standalone 模式自带轻量级集群管理服务,适合小规模集群;YARN 模式与 Hadoop 生态系统集成,适合大规模生产环境。文章通过示例代码展示了如何在两种模式下运行 Spark 应用程序,并总结了两者的优缺点,帮助读者根据需求选择合适的部署模式。
234 3
Spark Standalone与YARN的区别?
【10月更文挑战第5天】随着大数据处理需求的增长,Apache Spark 成为了广泛采用的大数据处理框架。本文详细解析了 Spark Standalone 与 YARN 两种常见部署模式的区别,并通过示例代码展示了如何在不同模式下运行 Spark 应用程序。Standalone 模式自带轻量级集群管理,适合小规模集群或独立部署;YARN 则作为外部资源管理器,能够与 Hadoop 生态系统中的其他应用共享资源,更适合大规模生产环境。文章对比了两者的资源管理、部署灵活性、扩展性和集成能力,帮助读者根据需求选择合适的部署模式。
88 1
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
149 0
大数据-90 Spark 集群 RDD 编程-高阶 RDD容错机制、RDD的分区、自定义分区器(Scala编写)、RDD创建方式(一)
大数据-90 Spark 集群 RDD 编程-高阶 RDD容错机制、RDD的分区、自定义分区器(Scala编写)、RDD创建方式(一)
120 0

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等