在上一篇的文章中已经明确说过DKM作为大快发行版DKhadoop的管理平台,它的四大功能分别是:管理功能,监控功能,诊断功能和集成功能。管理功能已经给大家列举了一些做了说明,今天就DKM平台的监控功能再给大家做细致的分享分析。
DKM 提供了许多监控功能,用于检测集群健康,组件性能以及集群中运行的作业的性能和资源需求。具体包括以下监控功能:
1、服务监控:
查看服务和角色实例级别健康检查的结果,并通过图表显示,有助于诊断问题。如果健康检查发现某个组件的状态需要特别关注甚至已经出现问题,系统会对管理员应该采取的行动提出建议。同时,系统管理员还可以查看服务上的或角色上操作的执行历史,也可以查看配置更改的审计日志。
2、主机监控
监控群集内所有主机的有关信息,包括:哪些主机上线或下线,主机上目前消耗的内存,主机上运行的角色实例分配,不同机架上的主机分配等等。汇总视图中显示了群集所有主机,并且可以进一步查看单个主机丰富的细节,包括显示主机关键指标的直观图表。
3、行为监控:
DKM提供了列表以及图表的方式来查看集群上进行的活动,可以显示当前正在执行的任务行为,还可以查看历史活动。同时提供了各个作业所使用资源的许多统计,系统管理员可以通过比较相似任务的不同性能数据以及比较查看同一任务中不同执行的性能数据来诊断性能问题或行为问题。
4、报警:
通过配置DKM可以对指定的事件产生警报。
5、日志:
介绍如何访问日志中的各种考虑到你正在查看当前上下文的方式。例如,监控服务时,你可以轻松地点击一个链接,查看相关的特定服务的日志条目,通过相同的用户界面。当查看关于用户的活动信息,您可以方便地查看作业运行时所用的作业的主机上发生的相关日志条目。
6、集群及服务实时监控:
DKM 会实时的对集群的各项服务进行监控,一旦服务出现异常,将会产生告警。同时,对集群的各项性能数据进行监控,例如CPU,内存,网络等,一方面能够监控集群的性能状态,一方面能够帮助性能调优。
7、HDFS 服务监控:
以HDFS服务为例,HDFS 服务页面中显示了服务状态的汇总信息,包括HDFS综述,HDFS 文件系统块总数,总大小,文件总数等 。
8、节点级别监控
DKM 能够查看单个节点的各个服务状态