【Spark Summit East 2017】用Yarn监控Scala和Python Spark工作的动态资源使用情况

简介: 本讲义出自Ed Barnes与Ruslan Vaulin在Spark Summit East 2017上的演讲,我们都害怕“失去的任务”和“容器由于超出内存限制被Yarn关闭”的消息在Spark Yarn的应用程序出现的比例增多。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Ed Barnes与Ruslan Vaulin在Spark Summit East 2017上的演讲,我们都害怕“失去的任务”和“容器由于超出内存限制被Yarn关闭”的消息在Spark Yarn的应用程序出现的比例增多。甚至在分布式Yarn环境中,回答“应用程序使用了多少内存?”这个问题都是非常棘手的。为观察Spark的重要统计工作,包括executor-by-executor内存和CPU使用,JDK以及pySpark Yarn容器中的python的部分,Sqrrl已经开发了一个测试框架。


15c0f75faf05a23cc65dd869c44a7808748afad5

72ae48ad020a2af4663c3f969e3c1ede70dbeeb9

c99224b1fb98aaf20be31dafe5bcafa77ebf1342

c69ba5cfcbf826bfbd4a0557946d963ddc79b867

ba898094111ccfab3b55d1e29de04e824484baf1

d3288c608cda601e5034dabecb0d54d9a9573b0e

df32b7d6edc03ea9212844913d43e0c8aad47fd2

bc106c481d752bd9051f4e5279ee2e63d35df39f

e6b84bf0710b3be284540f65d1d6469e00f0566c

62ca30fed7ab6e998d6fc8e7fffebb691e1a347f

8ff5dfb6c279ba260f4dbe4f8063f3900af49f2c

8253a68f53003a25f1acd571b2349b3e0452d8f5

9e704c5a8f8ab514bdc98480d1ed789e03304a40

c91f2b473702f27ed223b38d1e6ac48d5febd3bc

b7904434d00163a24272dd3ff666c213420b29ec

a8e3dd6a7ad1aabb4b80b532202f1440e2961651

b4fdd04c1e568a23ce208e310eb691cee2d20f1e

c7142b9f810a222c3f64d1f9f54194310d781f61

1c7196711eaafee63211b31bfde037ab5832933e

b43ab7e87abe824614e4ed62f3387b7a5488c7c8

656c211ebc927d6609c3f0f6ceaaffd8fa4ad15d

ee22dd5b66a00529dedff2c95fed0f936d0469c6

86e621832502dfee51e30743cf21588ddff5ad13

5752984f6f41509c3bcaca7764b3bf71f9b79976

009671c137c68af6feeaccbc3669b188c4e52f61

相关文章
|
2月前
|
消息中间件 资源调度 Java
实时计算 Flink版产品使用合集之部署yarn模式,怎么实现峰谷动态并行度扩容缩容
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
24天前
|
分布式计算 资源调度 Java
Scala+Spark+Hadoop+IDEA实现WordCount单词计数,上传并执行任务(简单实例-下)
Scala+Spark+Hadoop+IDEA实现WordCount单词计数,上传并执行任务(简单实例-下)
25 0
|
24天前
|
分布式计算 Hadoop Scala
Scala +Spark+Hadoop+Zookeeper+IDEA实现WordCount单词计数(简单实例-上)
Scala +Spark+Hadoop+Zookeeper+IDEA实现WordCount单词计数(简单实例-上)
19 0
|
2月前
|
消息中间件 资源调度 Oracle
实时计算 Flink版产品使用合集之使用yarn-session的模式来提交任务,空间的资源是否释放给yarn
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
2月前
|
消息中间件 资源调度 分布式计算
实时计算 Flink版产品使用合集之1.13版本上部署一个flink1.17为什么任务启动一直accepted状态yarn的,有什么排查方向吗资源什么的都是充足的
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
2月前
|
SQL 存储 分布式计算
在scala中使用spark
在scala中使用spark
44 0
|
2月前
|
分布式计算 Java Scala
spark 与 scala 的对应版本查看、在idea中maven版本不要选择17,弄了好久,换成11就可以啦
spark 与 scala 的对应版本查看、.在idea中maven版本不要选择17,弄了好久,换成11就可以啦
191 2
|
2月前
|
分布式计算 数据处理 Scala
Spark 集群和 Scala 编程语言的关系
Spark 集群和 Scala 编程语言的关系
|
2月前
|
资源调度 分布式计算 Hadoop
Hadoop Yarn 核心调优参数
这是一个关于测试集群环境的配置说明,包括3台服务器(master, slave1, slave2)运行CentOS 7.5,每台有4核CPU和4GB内存。集群使用Hadoop 3.1.3,JDK1.8。Yarn核心配置涉及调度器选择、ResourceManager线程数、节点检测、逻辑处理器使用、核心转换乘数、NodeManager内存和CPU设置,以及容器的内存和CPU限制。配置完成后,需要重启Hadoop并检查yarn配置。
|
2月前
|
SQL 分布式计算 资源调度
Hadoop Yarn 配置多队列的容量调度器
配置Hadoop多队列容量调度器,编辑`capacity-scheduler.xml`,新增`hive`队列,`default`队列占总内存40%,最大60%;`hive`队列占60%,最大80%。配置包括队列容量、用户权限和应用生存时间等,配置后使用`yarn rmadmin -refreshQueues`刷新队列,无需重启集群。多队列配置可在Yarn WEB界面查看。

相关实验场景

更多