【Spark Summit East 2017】用Yarn监控Scala和Python Spark工作的动态资源使用情况

简介: 本讲义出自Ed Barnes与Ruslan Vaulin在Spark Summit East 2017上的演讲,我们都害怕“失去的任务”和“容器由于超出内存限制被Yarn关闭”的消息在Spark Yarn的应用程序出现的比例增多。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Ed Barnes与Ruslan Vaulin在Spark Summit East 2017上的演讲,我们都害怕“失去的任务”和“容器由于超出内存限制被Yarn关闭”的消息在Spark Yarn的应用程序出现的比例增多。甚至在分布式Yarn环境中,回答“应用程序使用了多少内存?”这个问题都是非常棘手的。为观察Spark的重要统计工作,包括executor-by-executor内存和CPU使用,JDK以及pySpark Yarn容器中的python的部分,Sqrrl已经开发了一个测试框架。


15c0f75faf05a23cc65dd869c44a7808748afad5

72ae48ad020a2af4663c3f969e3c1ede70dbeeb9

c99224b1fb98aaf20be31dafe5bcafa77ebf1342

c69ba5cfcbf826bfbd4a0557946d963ddc79b867

ba898094111ccfab3b55d1e29de04e824484baf1

d3288c608cda601e5034dabecb0d54d9a9573b0e

df32b7d6edc03ea9212844913d43e0c8aad47fd2

bc106c481d752bd9051f4e5279ee2e63d35df39f

e6b84bf0710b3be284540f65d1d6469e00f0566c

62ca30fed7ab6e998d6fc8e7fffebb691e1a347f

8ff5dfb6c279ba260f4dbe4f8063f3900af49f2c

8253a68f53003a25f1acd571b2349b3e0452d8f5

9e704c5a8f8ab514bdc98480d1ed789e03304a40

c91f2b473702f27ed223b38d1e6ac48d5febd3bc

b7904434d00163a24272dd3ff666c213420b29ec

a8e3dd6a7ad1aabb4b80b532202f1440e2961651

b4fdd04c1e568a23ce208e310eb691cee2d20f1e

c7142b9f810a222c3f64d1f9f54194310d781f61

1c7196711eaafee63211b31bfde037ab5832933e

b43ab7e87abe824614e4ed62f3387b7a5488c7c8

656c211ebc927d6609c3f0f6ceaaffd8fa4ad15d

ee22dd5b66a00529dedff2c95fed0f936d0469c6

86e621832502dfee51e30743cf21588ddff5ad13

5752984f6f41509c3bcaca7764b3bf71f9b79976

009671c137c68af6feeaccbc3669b188c4e52f61

相关文章
|
3月前
|
SQL 人工智能 自然语言处理
Python 潮流周刊#52:Python 处理 Excel 的资源
探索Python精彩:文章涵盖正则、代码恢复、PEP新规范、轻量级打包、在线开发、动态生成GitHub README、自定义linting、代码转图片等。项目资源包括Excel处理、虚拟环境管理、Tensor谜题、依赖注入框架、Web应用转换、AI自动化测试、语法高亮、BI模型查询及Python监控库。在当前环境下,持续学习提升竞争力,Python Weekly提供丰富的学习资源,助力技术精进和职业发展。
|
12天前
|
机器学习/深度学习 数据可视化 算法
【Python】python矿产资源聚类特征分析(源码+数据集+报告)【独一无二】
【Python】python矿产资源聚类特征分析(源码+数据集+报告)【独一无二】
|
1月前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之PyODPS Python类的开发如何用MC的资源
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
1月前
|
SQL 缓存 资源调度
实时计算 Flink版产品使用问题之在Flink on Yarn模式下,如何对job作业进行指标监控
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
2月前
|
测试技术 iOS开发 MacOS
用Python处理Excel的资源
用Python处理Excel的资源
用Python处理Excel的资源
|
1月前
|
分布式计算 Apache Spark
|
1月前
|
存储 SQL Python
`urllib.parse`模块是Python标准库`urllib`中的一个子模块,它提供了处理URL(统一资源定位符)的实用功能。这些功能包括解析URL、组合URL、转义URL中的特殊字符等。
`urllib.parse`模块是Python标准库`urllib`中的一个子模块,它提供了处理URL(统一资源定位符)的实用功能。这些功能包括解析URL、组合URL、转义URL中的特殊字符等。
|
2月前
|
机器学习/深度学习 算法 TensorFlow
算法金 | 只需十四步:从零开始掌握Python机器学习(附资源)
```markdown ## 摘要 全网同名「算法金」的作者分享了一篇针对Python机器学习入门的教程。教程旨在帮助零基础学习者掌握Python和机器学习,利用免费资源成为实践者。内容分为基础篇和进阶篇,覆盖Python基础、机器学习概念、数据预处理、科学计算库(如NumPy、Pandas和Matplotlib)以及深度学习(TensorFlow、Keras)。此外,还包括进阶算法如SVM、随机森林和神经网络。教程还强调了实践和理解最新趋势的重要性。
49 0
算法金 | 只需十四步:从零开始掌握Python机器学习(附资源)
|
2月前
|
分布式计算 Shell 调度
看看airflow怎样调度python写的spark任务吧
看看airflow怎样调度python写的spark任务吧
26 0
|
3月前
|
机器学习/深度学习 分布式计算 数据处理
在Python中应用Spark框架
在Python中应用Spark框架
33 1