概述
本文主要介绍X-Pack Spark集群监控指标的查看方法。Spark集群对接了Ganglia和云监控。下面分别介绍两者的使用方法。
Ganglia
Ganglia是一个分布式监控系统。
Ganglia 入口
打开Spark集群依次进入:数据库连接>UI访问>详细监控UI>Ganglia。如下图:
注意:打开之前请先阅读UI访问说明。
Ganglia 界面介绍
本只做常用的介绍。如下图:
- 导航栏
选择不同的功能查看,本文主要介绍常用的“Main” - 时间选择
选择查看不同的时间段的资源使用情况。 - 统计信息
统计信息主要列出集群的资源总体使用情况。每个字段解释如下表:
名称 | 解释 |
CPUs Total | 集群的CPU总数 |
Hosts up | 集群的总节点数:正在运行的节点 |
Hosts down | 集群的总节点数:停止运行的节点 |
Current Load Avg (15, 5, 1m) | 15分钟、5分钟和1分钟内各自的Load 平均值 |
注意:这里有两个统计信息:MyGrid Grid 和 spark_cluster。spark_cluster 是MyGrid的子集,由于只有一个spark集群所以这里MyGrid Grid和spark_cluster是一样的,只需要看MyGrid Grid即可。
- 图展示区
图展示区有4个图分别为:
名称 | 解释 |
MyGrid Grid Load last hour | 最近一小时Load的趋势图 |
MyGrid Grid Memory last hour | 最近一小时Memory的趋势图 |
MyGrid Grid CPU last hour | 最近一小时CPU的趋势图 |
MyGrid Grid Network last hour | 最近一小时网络的趋势图 |
分别点击每个图,可以看到更详细的信息。例如点击“MyGrid Grid Memory last hour”,如下图:
云监控
云监控入口
打开Spark集群依次进入:监控与报警>跳转至云监控。如下图:
云监控界面介绍
进入云监控后看到如下界面:
- 时间选择
选择查看不同的时间段的资源使用情况。 -
指标分组
- 系统指标:用于展示Spark集群的负载、CPU、网络、磁盘空间的使用率趋势图。
- HBase指标:用于统计HBase集群的指标,Spark集群不用查看。
- 分析集群指标:用于展示Spark Yarn任务的失败次数、完成次数、Pending次数、kill次数的趋势图;以及可用内存和可用Vcore的趋势图。
- 图标图例
每个图例代表Spark集群节点的机器名称,本实例的Spark集群有4个节点,名称分别为:spark-master1-1、spark-master2-1、spark-master3-1和spark-core-1。
小结
本文介绍了X-Pack Spark监控的入门使用。关于Ganglia的详细介绍可以参考Ganglia的官网。X-Pack Spark的使用请参考:X-Pack Spark。