硬件的监控其实还是蛮重要的,这个部分在嘉年华中也着重强调过,不过做起来确实还是有一些难度,我们也尝试了一些方法,最终准备两条腿走路,一边使用中控的方式来统一监控管理,同事考虑把硬件监控揉入zabbix的监控体系之中。今天来说使用统一监控的方式。
在强调硬件监控的重要性时,最好的说明方式就是用数据说话。
下面的是我在Oracle嘉年华分享中提到的一个部分,对于监控硬件监控还是很容易忽略的一个环节,但是又是最无奈的一个环节。
在各类故障之中,硬件故障占用了绝大部分的故障比例。当然这个数字也有一些针对性,不具有普遍性。不过总体来看硬件故障中的主板故障等等都是重中之中。
那么这些故障的影响情况怎么样呢,我们再来看看一个图形,下面说明的是累计几年的故障影响时长。
硬件故障的影响时长几乎就是满配了,一台服务器故障影响时长1分钟,那么几千台服务器几年下来就是几千分钟,这个数字是这么解读的。
好了,强调了硬件故障,这些监控也要开始做了。对我们来说一个比较直接而且相对来说容易实现的方式就是硬盘的监控了,其中的磁盘坏块就是一个典型例子了。
硬件坏块的监控做好了,其它的监控其实也就是触类旁通,缝缝补补即可。
总体的思路如下:
是通过一台中控机器来访问所有的服务器,然后发送响应的命令,然后在各个服务器本地执行,回调返回到中控机器。所有每台服务器都要统一部署一个类似客户端的软件,目前我先采用MegaCli来统一部署。
那么监控的实现方式方式和实现细节呢,我们来用下面的图形来说明这个流程。
首先在中控的机器中采用远程调用的方式来调用各个服务器端的megacli,得到坏块的情况
然后大批量的服务器就会生成一个报告来,得到了报告就可以做进一步的改进,把它格式化一番,我们可以通过邮件的方式来显示html的表格效果。
短信中可以得到一个概要的信息,可以直接统计出一个概要的坏块数作为参考,如果坏块数小于10个,暂时可以不需要进一步处理。
上面的也是一个实现思路,目前框架已经完成,html邮件已经实现,后面给大家共享一个第三方脚本,可以做美化的效果。
在强调硬件监控的重要性时,最好的说明方式就是用数据说话。
下面的是我在Oracle嘉年华分享中提到的一个部分,对于监控硬件监控还是很容易忽略的一个环节,但是又是最无奈的一个环节。
在各类故障之中,硬件故障占用了绝大部分的故障比例。当然这个数字也有一些针对性,不具有普遍性。不过总体来看硬件故障中的主板故障等等都是重中之中。
那么这些故障的影响情况怎么样呢,我们再来看看一个图形,下面说明的是累计几年的故障影响时长。
硬件故障的影响时长几乎就是满配了,一台服务器故障影响时长1分钟,那么几千台服务器几年下来就是几千分钟,这个数字是这么解读的。
好了,强调了硬件故障,这些监控也要开始做了。对我们来说一个比较直接而且相对来说容易实现的方式就是硬盘的监控了,其中的磁盘坏块就是一个典型例子了。
硬件坏块的监控做好了,其它的监控其实也就是触类旁通,缝缝补补即可。
总体的思路如下:
是通过一台中控机器来访问所有的服务器,然后发送响应的命令,然后在各个服务器本地执行,回调返回到中控机器。所有每台服务器都要统一部署一个类似客户端的软件,目前我先采用MegaCli来统一部署。
那么监控的实现方式方式和实现细节呢,我们来用下面的图形来说明这个流程。
首先在中控的机器中采用远程调用的方式来调用各个服务器端的megacli,得到坏块的情况
然后大批量的服务器就会生成一个报告来,得到了报告就可以做进一步的改进,把它格式化一番,我们可以通过邮件的方式来显示html的表格效果。
短信中可以得到一个概要的信息,可以直接统计出一个概要的坏块数作为参考,如果坏块数小于10个,暂时可以不需要进一步处理。
上面的也是一个实现思路,目前框架已经完成,html邮件已经实现,后面给大家共享一个第三方脚本,可以做美化的效果。