开发者社区> 云hbase+spark> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

X-Pack Spark 监控指标详解

简介: 概述 本文主要介绍X-Pack Spark集群监控指标的查看方法。Spark集群对接了Ganglia和云监控。下面分别介绍两者的使用方法。 Ganglia Ganglia是一个分布式监控系统。 Ganglia 入口 打开Spark集群依次进入:数据库连接>UI访问>详细监控UI>Ganglia。
+关注继续查看

概述

本文主要介绍X-Pack Spark集群监控指标的查看方法。Spark集群对接了Ganglia和云监控。下面分别介绍两者的使用方法。

Ganglia

Ganglia是一个分布式监控系统。

Ganglia 入口

打开Spark集群依次进入:数据库连接>UI访问>详细监控UI>Ganglia。如下图:
Snip20190904_8
注意:打开之前请先阅读UI访问说明

Ganglia 界面介绍

本只做常用的介绍。如下图:
Snip20190904_9

  1. 导航栏
    选择不同的功能查看,本文主要介绍常用的“Main”
  2. 时间选择
    选择查看不同的时间段的资源使用情况。
  3. 统计信息
    统计信息主要列出集群的资源总体使用情况。每个字段解释如下表:
名称 解释
CPUs Total 集群的CPU总数
Hosts up 集群的总节点数:正在运行的节点
Hosts down 集群的总节点数:停止运行的节点
Current Load Avg (15, 5, 1m) 15分钟、5分钟和1分钟内各自的Load 平均值

注意:这里有两个统计信息:MyGrid Grid 和 spark_cluster。spark_cluster 是MyGrid的子集,由于只有一个spark集群所以这里MyGrid Grid和spark_cluster是一样的,只需要看MyGrid Grid即可。

  1. 图展示区
    图展示区有4个图分别为:
名称 解释
MyGrid Grid Load last hour 最近一小时Load的趋势图
MyGrid Grid Memory last hour 最近一小时Memory的趋势图
MyGrid Grid CPU last hour 最近一小时CPU的趋势图
MyGrid Grid Network last hour 最近一小时网络的趋势图

分别点击每个图,可以看到更详细的信息。例如点击“MyGrid Grid Memory last hour”,如下图:
image

云监控

云监控入口

打开Spark集群依次进入:监控与报警>跳转至云监控。如下图:
Snip20190904_11

云监控界面介绍

进入云监控后看到如下界面:
Snip20190904_13

  1. 时间选择
    选择查看不同的时间段的资源使用情况。
  2. 指标分组

    1. 系统指标:用于展示Spark集群的负载、CPU、网络、磁盘空间的使用率趋势图。
    2. HBase指标:用于统计HBase集群的指标,Spark集群不用查看。
    3. 分析集群指标:用于展示Spark Yarn任务的失败次数、完成次数、Pending次数、kill次数的趋势图;以及可用内存和可用Vcore的趋势图。
  3. 图标图例
    每个图例代表Spark集群节点的机器名称,本实例的Spark集群有4个节点,名称分别为:spark-master1-1、spark-master2-1、spark-master3-1和spark-core-1。

小结

本文介绍了X-Pack Spark监控的入门使用。关于Ganglia的详细介绍可以参考Ganglia的官网。X-Pack Spark的使用请参考:X-Pack Spark

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
【Spark Summit East 2017】从容器化Spark负载中获取的经验
本讲义出自Tom Phelan在Spark Summit East 2017上的演讲,Tom Phelan探讨了如何实现高可用性的分布式大数据应用和数据中心主机,并分享了学到的经验教训,并对于如何在一个可靠的、可伸缩的、高性能的环境将大数据应用程序容器化给出了一些提示。
1587 0
【Spark Summit East 2017】使用Spark MLlib和Apache Solr构建实时实体类型识别系统
本讲义出自Khalifeh Aljadda在Spark Summit East 2017上的演讲,由于实体查询系统中的查询一般比较短,所以由于缺少上下文信息,所以不适合使用传统的bag-of-words模型来确定实体类型,本讲义介绍了一个新颖的实体类型识别系统,该系统使用Spark MLlib和Apache Solr构建,能够结合不同来源的线索来分析出需要查询实体。
2145 0
【Spark Summit East 2017】可扩展性机器学习的特征哈希
本讲义出自Nick Pentreath在Spark Summit East 2017上的演讲,主要介绍了特征哈希是用于处理高维特性的一个功能强大的机器学习技术,特征哈希快速、简单、并且节约内存,而且适合在线学习场景,演讲中分享了特征哈希的基本功能,以及如何使用特征哈希在机器学习中的所有功能类型,并介绍了一个在Spark ML管道中使用的更加灵活和强大的转化器。
1994 0
【Spark Summit East 2017】构建于高维文档数据集上的基于时间戳的实时分析查询处理与预测模型
本讲义出自Debasish Das在Spark Summit East 2017上的演讲,主要介绍了对于LuceneDAO进行的扩展,允许其从文档术语的观点来使用时间戳进行搜索和时间过滤,演讲中展示了对于一整套查询生成的API,核心观点是通过理解如何使得 Lucene能够意识到在Spark中时间意识是非常重要的,进而构建交互式分析查询处理和时间序列预测算法。
1874 0
【Spark Summit East 2017】基于Spark构建的Netflix推荐ML Pipeline
本讲义出自Tsai在Spark Summit East 2017上的演讲,主要介绍了Netflix如何使用Apache Spark作为分布式计算框架以及机器学习技术来构建自己的算法来为8000万以上的用户进行个性化推荐,并介绍了在面对Netflix量级的用户带来的挑战中使用的技术和遇到的陷阱。
1548 0
【Spark Summit East 2017】大数据赋能机器学习
本讲义出自Jiao Wang与Yiheng Wang在Spark Summit East 2017上的演讲,在演讲中Jiao Wang与Yiheng Wang分享了Intel以及用户使用开源的Apache Spark分布式深度学习库BigDL构建的大数据机器学习应用。
1692 0
【Spark Summit East 2017】实时业务数据分析
本讲义出自Manish Gupta在Spark Summit East 2017上的演讲,当Redis作为分布式共享内存数据存储来进行类似时间序列数据范围查询分析的时候可以帮助Spark加速45倍。使用Redis的机器学习模型redis-ml将可以允许多应用程序同时使用相同的模型,并对于这些模型的分类和执行进行加速。
1478 0
【Spark Summit East 2017】现代化你的数据仓库的全新“Sparkitecture”
本讲义出自Myles Collins在Spark Summit East 2017上的演讲,主要介绍了面对数据管道增速,聚合和可视化成为一个简化的,自助的方式的挑战,很多组织开始越来越多地转向求助于Spark, Hadoop, Kafka的结合,并且证明了分析型数据库Vertica等关键实现技术是优化企业级数据仓库体系结构的关键。
1275 0
【Spark Summit East 2017】Spark中的容错:从生产实践中获取的经验
本讲义出自Jose Soltren在Spark Summit East 2017上的演讲,主要介绍了Spark容错中的螺母和螺栓,他首先简述了Spark中的各种容错机制,然后讨论了YARN上的Spark、调度与资源分配,在演讲中还对于一些用户案例进行了探讨研究并给出了一些需要的工具,最后分享了未来Spark中容错未来的发展方向比如调度器和检查点的变化。
1810 0
文章
问答
文章排行榜
最热
最新
相关电子书
更多
Spark App自动化故障分析与诊断
立即下载
基于Spark的流式处理引擎在Pandora大数据产品中的应用
立即下载
阿里云分析引擎Spark On 多数据源介绍
立即下载