作者:尹正杰
版权声明:原创作品,谢绝转载!否则将追究法律责任。
一.监控Linux服务器
大多数Hadoop安装在Linux系统上,因此必须了解Linux监控的事情,并且要熟悉Linux系统监控工具。缓慢的系统可能会导致处理器(CPU),内存,磁盘或带宽等方面的瓶颈。
系统工具可帮助我们清楚地识别导致性能下降的瓶颈。监控Linux设计跟踪关键系统资源,如存储子系统,CPU,内存和网络。
博主推荐阅读:
https://developer.aliyun.com/article/1604493
二.监控Hadoop指标
Hadoop指标是关于各种Hadoop守护程序的信息集合。例如,ResourceManager守护程序生成关于作业队列的指标。Hadoop Metrics(正式说法为Metric 2)在分析hadoop服务的性能时至关重要。
Hadoop提供了非常有用的指标,可以通过这些指标监视,调整和调试MapReduce和其他作业。每个hadoop守护程序都会提供指标。
博主推荐阅读:
https://developer.aliyun.com/article/1604501
三.使用Ganglia监控Hadoop集群实战篇
开源软件Ganglia是企业广泛使用的一种很好的工具,用于指标收集和跟踪,以及指标的汇聚。开源设置Ganglia在集群节点上运行,从而Hadoop可以将数据发送到Ganglia接收器。然后,可以设置Nagios使用这些指标作为发送关键警报的基础。Ganglia可以监测非常大的集群。
Ganglia收集CPU和可用磁盘空间等指标,还可以帮助监测故障点。Ganglia可以提供有关集群及其节点状态的图形信息。Ganglia收集器运行监测守护程序并收集指标。收集器通过Web用户界面以及与运行进程有关的指标,实时显示内存,磁盘和网络使用情况。
博主推荐阅读:
https://www.cnblogs.com/yinzhengjie2020/p/13829436.html
四.Hadoop日志记录
五.使用Hadoop的Web UI进行监控
六.监控其他Hadoop组件