本节书摘来自华章出版社《构建高可用Linux服务器 第3版》一 书中的第1章,第1.6节,作者:余洪春 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1.6 用开源工具Nagios监控Linux服务器
1.6.1 CentOS 5.8下的监控工具
在开源系统CentOS 5.8下有许多监控工具,比如实时监控系统状态的Nagios,还有监控网络流量的Cacti和MRTG,以及我个人比较喜欢的NTOP和Iptraf;另外,在CentOS 5.8下也有许多强大的命令行可用于监控系统状态,大家可以在Google上搜索以了解其具体用法。
1.6.2 Nagios应该监控的服务器基础选项
经过工作实践,我们认为Nagios应该监控服务器的参数有如下几个方面:
主机存活的状态:Nagios采用通过ping来实现对主机是否存活的检测机制。
系统load值:系统load值的最关键含义是CPU运行中等待的数量,从侧面反映了CPU的繁忙程序,只不过load值并不直接等于等待队列中的进程数量。
CPU使用率:CPU使用率和系统load值一样,从另一个角度反映了CPU的总体繁忙情况,只不过它所提供的信息更为详细,如当前空闲的CPU比率、系统占用的CPU比率、用户进程占用的CPU比率、处于I/O等待的CPU比率等。
磁盘I/O量:磁盘I/O直接反映了系统硬盘繁忙情况,特别对于数据库这种以I/O操作为主的系统来说,I/O的负载将直接影响到系统的整体响应速度(尤其是作为数据库服务器而言,监控的意义重大)。
swap进出量:swap的使用主要表现了系统在物理内存不够的情况下使用虚拟内存的情况。有的人在观察内存情况时总是走入误区,在“free-m”中应该关注swap,而非free。
网络流量:特别作为数据库系统,网络流量也是一个不容忽视的监控点。毕竟数据库系统的数据进出量比普通服务器要大很多;当然,如果是非数据库服务器,网络流量成为瓶颈的可能性还是比较小的。
僵死进程的监控:这项指标的监控意义我就不多说了,而且这在Nagios中已经作为系统默认内容存在了。
在LVS+Keeepalived或Nginx+Keepalived中,由Keepalived产生的VIP应该重点监控,毕竟许多系统和网站都是将此内网地址由防火墙映射成为公网地址的,相当于整个网站或系统的进口,其重要性不言而喻;另外,如果网站架构里有DRBD+Heartbeat,也强烈建议监控Heartbeat产生的VIP地址。
数据库MySQL的主从复制状态,MySQL的replication是一个异步同步的过程,在很大程度上会受到网络、硬件停电、主键冲突等方面的影响,所以监控的意义不言而喻。
1.6.3 工作中的Nagios使用心得
下面总结一下在工作中使用Nagios的心得。
网站运维每天的工作重点之一就是监控网站的实时状态,所以需要时时监控。这里跟大家介绍一个监控系统主机及服务Nagios系统实时提醒的Firefox插件,很实用。如果上班时需要实时关注监控服务器主机及服务的Nagios系统,就得一直开着一个网页,然后让页面自动刷新,感觉有点麻烦,而且浪费资源。虽说朋友分享了一个Nagios辅助小软件比较方便,可以将其最小化到任务栏,有异常时会出现浮动提示窗口,但是我一向喜欢尽量将所有东西都嵌入浏览器中进行操作,所以更希望能找到一款Firefox插件来实现类似于此辅助软件的功能,后来终于找到了,这个插件即Nagios Check插件。它的安装方法非常简单,这里就不多费篇幅了,效果图如图1-4(大家注意Firefox最右下角的小图标)所示。
业务网站最好置于自己的机房内,因为Nagios对于网络的依赖很大。它依靠ping来检测服务器是否存活,如果网络情况不好或因别的原因造成Nagios检测不到监控服务器,会造成一个啼笑皆非的问题,它会狂发报警短信和邮件,说服务器已宕机,属于Critical情况。但事实上此服务器情况良好,仅仅是跟Nagios机器的网络不通而已,如果遇到这种情况希望大家注意甄别。
由于Nagios是部署在内网中的,所以它只能对内网的所有机器进行监控。由于我们的网站都是将内网机器的IP映射到防火墙的公网地址,对此Nagios就无能为力了,这个时候我们可以购买类似于AlertBot的实时扫描服务器来扫描我们的商务网站,并配合Nagios对网站进行实时监控。如果你的邮箱同时收到AlertBot和Nagios的报警,一定要慎重对待,这种情况百分百就是内网机器出现故障或者系统负载超过了Naiogs设定的阈值。
如是公网的一些重要业务或机器也有监控需求,我们可以将Naiogs部署在稳定的双线机房或BGP机房中监控。
如果认为在Nagios下部署短信猫或飞信麻烦,可以尝试中国移动提供的免费139邮件短信业务。使用免费的邮件短信业务其实还有一个好处,即并不是每家公司都愿意在硬件监控方面投入资金,很多公司在IT成本预算方面控制得很严格。
DELL系列的服务器在RAID充电时有报警现象,请大家正确甄别这种现象与服务器真正故障时的Nagios报警情况。
本节重点强调了Nagios这个监控工具,同时也分享了一些个人使用经验和心得。由于线上环境对高可用要求近乎苛刻,所以我们必须随时掌握服务器的性能,及时根据Nagios的警报邮件或短信来处理服务器的故障。