X-Pack Spark 监控指标详解-阿里云开发者社区

开发者社区> 大数据> 正文

X-Pack Spark 监控指标详解

简介: 概述 本文主要介绍X-Pack Spark集群监控指标的查看方法。Spark集群对接了Ganglia和云监控。下面分别介绍两者的使用方法。 Ganglia Ganglia是一个分布式监控系统。 Ganglia 入口 打开Spark集群依次进入:数据库连接>UI访问>详细监控UI>Ganglia。

概述

本文主要介绍X-Pack Spark集群监控指标的查看方法。Spark集群对接了Ganglia和云监控。下面分别介绍两者的使用方法。

Ganglia

Ganglia是一个分布式监控系统。

Ganglia 入口

打开Spark集群依次进入:数据库连接>UI访问>详细监控UI>Ganglia。如下图:
Snip20190904_8
注意:打开之前请先阅读UI访问说明

Ganglia 界面介绍

本只做常用的介绍。如下图:
Snip20190904_9

  1. 导航栏
    选择不同的功能查看,本文主要介绍常用的“Main”
  2. 时间选择
    选择查看不同的时间段的资源使用情况。
  3. 统计信息
    统计信息主要列出集群的资源总体使用情况。每个字段解释如下表:
名称 解释
CPUs Total 集群的CPU总数
Hosts up 集群的总节点数:正在运行的节点
Hosts down 集群的总节点数:停止运行的节点
Current Load Avg (15, 5, 1m) 15分钟、5分钟和1分钟内各自的Load 平均值

注意:这里有两个统计信息:MyGrid Grid 和 spark_cluster。spark_cluster 是MyGrid的子集,由于只有一个spark集群所以这里MyGrid Grid和spark_cluster是一样的,只需要看MyGrid Grid即可。

  1. 图展示区
    图展示区有4个图分别为:
名称 解释
MyGrid Grid Load last hour 最近一小时Load的趋势图
MyGrid Grid Memory last hour 最近一小时Memory的趋势图
MyGrid Grid CPU last hour 最近一小时CPU的趋势图
MyGrid Grid Network last hour 最近一小时网络的趋势图

分别点击每个图,可以看到更详细的信息。例如点击“MyGrid Grid Memory last hour”,如下图:
image

云监控

云监控入口

打开Spark集群依次进入:监控与报警>跳转至云监控。如下图:
Snip20190904_11

云监控界面介绍

进入云监控后看到如下界面:
Snip20190904_13

  1. 时间选择
    选择查看不同的时间段的资源使用情况。
  2. 指标分组

    1. 系统指标:用于展示Spark集群的负载、CPU、网络、磁盘空间的使用率趋势图。
    2. HBase指标:用于统计HBase集群的指标,Spark集群不用查看。
    3. 分析集群指标:用于展示Spark Yarn任务的失败次数、完成次数、Pending次数、kill次数的趋势图;以及可用内存和可用Vcore的趋势图。
  3. 图标图例
    每个图例代表Spark集群节点的机器名称,本实例的Spark集群有4个节点,名称分别为:spark-master1-1、spark-master2-1、spark-master3-1和spark-core-1。

小结

本文介绍了X-Pack Spark监控的入门使用。关于Ganglia的详细介绍可以参考Ganglia的官网。X-Pack Spark的使用请参考:X-Pack Spark

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
大数据
使用钉钉扫一扫加入圈子
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

其他文章