《构建高可用Linux服务器 第3版》—— 1.6 用开源工具Nagios监控Linux服务器

简介:

本节书摘来自华章出版社《构建高可用Linux服务器 第3版》一 书中的第1章,第1.6节,作者:余洪春 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.6 用开源工具Nagios监控Linux服务器

1.6.1 CentOS 5.8下的监控工具

在开源系统CentOS 5.8下有许多监控工具,比如实时监控系统状态的Nagios,还有监控网络流量的Cacti和MRTG,以及我个人比较喜欢的NTOP和Iptraf;另外,在CentOS 5.8下也有许多强大的命令行可用于监控系统状态,大家可以在Google上搜索以了解其具体用法。

1.6.2 Nagios应该监控的服务器基础选项

经过工作实践,我们认为Nagios应该监控服务器的参数有如下几个方面:

主机存活的状态:Nagios采用通过ping来实现对主机是否存活的检测机制。

系统load值:系统load值的最关键含义是CPU运行中等待的数量,从侧面反映了CPU的繁忙程序,只不过load值并不直接等于等待队列中的进程数量。

CPU使用率:CPU使用率和系统load值一样,从另一个角度反映了CPU的总体繁忙情况,只不过它所提供的信息更为详细,如当前空闲的CPU比率、系统占用的CPU比率、用户进程占用的CPU比率、处于I/O等待的CPU比率等。

磁盘I/O量:磁盘I/O直接反映了系统硬盘繁忙情况,特别对于数据库这种以I/O操作为主的系统来说,I/O的负载将直接影响到系统的整体响应速度(尤其是作为数据库服务器而言,监控的意义重大)。

swap进出量:swap的使用主要表现了系统在物理内存不够的情况下使用虚拟内存的情况。有的人在观察内存情况时总是走入误区,在“free-m”中应该关注swap,而非free。

网络流量:特别作为数据库系统,网络流量也是一个不容忽视的监控点。毕竟数据库系统的数据进出量比普通服务器要大很多;当然,如果是非数据库服务器,网络流量成为瓶颈的可能性还是比较小的。

僵死进程的监控:这项指标的监控意义我就不多说了,而且这在Nagios中已经作为系统默认内容存在了。

在LVS+Keeepalived或Nginx+Keepalived中,由Keepalived产生的VIP应该重点监控,毕竟许多系统和网站都是将此内网地址由防火墙映射成为公网地址的,相当于整个网站或系统的进口,其重要性不言而喻;另外,如果网站架构里有DRBD+Heartbeat,也强烈建议监控Heartbeat产生的VIP地址。

数据库MySQL的主从复制状态,MySQL的replication是一个异步同步的过程,在很大程度上会受到网络、硬件停电、主键冲突等方面的影响,所以监控的意义不言而喻。

1.6.3 工作中的Nagios使用心得

下面总结一下在工作中使用Nagios的心得。

网站运维每天的工作重点之一就是监控网站的实时状态,所以需要时时监控。这里跟大家介绍一个监控系统主机及服务Nagios系统实时提醒的Firefox插件,很实用。如果上班时需要实时关注监控服务器主机及服务的Nagios系统,就得一直开着一个网页,然后让页面自动刷新,感觉有点麻烦,而且浪费资源。虽说朋友分享了一个Nagios辅助小软件比较方便,可以将其最小化到任务栏,有异常时会出现浮动提示窗口,但是我一向喜欢尽量将所有东西都嵌入浏览器中进行操作,所以更希望能找到一款Firefox插件来实现类似于此辅助软件的功能,后来终于找到了,这个插件即Nagios Check插件。它的安装方法非常简单,这里就不多费篇幅了,效果图如图1-4(大家注意Firefox最右下角的小图标)所示。

screenshot

业务网站最好置于自己的机房内,因为Nagios对于网络的依赖很大。它依靠ping来检测服务器是否存活,如果网络情况不好或因别的原因造成Nagios检测不到监控服务器,会造成一个啼笑皆非的问题,它会狂发报警短信和邮件,说服务器已宕机,属于Critical情况。但事实上此服务器情况良好,仅仅是跟Nagios机器的网络不通而已,如果遇到这种情况希望大家注意甄别。
由于Nagios是部署在内网中的,所以它只能对内网的所有机器进行监控。由于我们的网站都是将内网机器的IP映射到防火墙的公网地址,对此Nagios就无能为力了,这个时候我们可以购买类似于AlertBot的实时扫描服务器来扫描我们的商务网站,并配合Nagios对网站进行实时监控。如果你的邮箱同时收到AlertBot和Nagios的报警,一定要慎重对待,这种情况百分百就是内网机器出现故障或者系统负载超过了Naiogs设定的阈值。
如是公网的一些重要业务或机器也有监控需求,我们可以将Naiogs部署在稳定的双线机房或BGP机房中监控。
如果认为在Nagios下部署短信猫或飞信麻烦,可以尝试中国移动提供的免费139邮件短信业务。使用免费的邮件短信业务其实还有一个好处,即并不是每家公司都愿意在硬件监控方面投入资金,很多公司在IT成本预算方面控制得很严格。
DELL系列的服务器在RAID充电时有报警现象,请大家正确甄别这种现象与服务器真正故障时的Nagios报警情况。
本节重点强调了Nagios这个监控工具,同时也分享了一些个人使用经验和心得。由于线上环境对高可用要求近乎苛刻,所以我们必须随时掌握服务器的性能,及时根据Nagios的警报邮件或短信来处理服务器的故障。

目录
打赏
0
0
0
0
1408
分享
相关文章
DBeaver Ultimate Edtion 25.0 Multilingual (macOS, Linux, Windows) - 通用数据库工具
DBeaver Ultimate Edtion 25.0 Multilingual (macOS, Linux, Windows) - 通用数据库工具
56 12
DBeaver Ultimate Edtion 25.0 Multilingual (macOS, Linux, Windows) - 通用数据库工具
深度体验阿里云系统控制台:SysOM 让 Linux 服务器监控变得如此简单
作为一名经历过无数个凌晨三点被服务器报警电话惊醒的运维工程师,我对监控工具有着近乎苛刻的要求。记得去年那次大型活动,我们的主站流量暴增,服务器内存莫名其妙地飙升到90%以上,却找不到原因。如果当时有一款像阿里云 SysOM 这样直观的监控工具,也许我就不用熬通宵排查问题了。今天,我想分享一下我使用 SysOM 的亲身体验,特别是它那令人印象深刻的内存诊断功能。
GitHub 热门开源运维工具 Websoft9:如何实现服务器管理效率翻倍?
Websoft9 提供 200+ 开源应用一键部署,支持容器化隔离、GitOps 自动化和企业级安全防护,助力服务器管理效率提升 80%。
53 1
Linux下如何安装配置Fail2ban防护工具
通过以上步骤,可以在Linux系统中成功安装和配置Fail2ban,从而有效保护服务器免受暴力破解等攻击。Fail2ban通过实时监控日志文件,自动更新防火墙规则,为系统安全提供了一层重要的保护。
172 36
Linux服务器部署docker windows
在当今软件开发中,Docker成为流行的虚拟化技术,支持在Linux服务器上运行Windows容器。流程包括:1) 安装Docker;2) 配置支持Windows容器;3) 获取Windows镜像;4) 运行Windows容器;5) 验证容器状态。通过这些步骤,你可以在Linux环境中顺利部署和管理Windows应用,提高开发和运维效率。
77 1
|
1月前
|
Linux下载工具wget与curl
`wget` 是一个用于从网络下载文件的命令行工具,支持HTTP、HTTPS和FTP协议。它能自动处理下载中断,并支持递归下载网站内容。基本用法:`wget URL`,可指定文件名(`-O`)、保存目录(`-P`),还支持断点续传(`-c`)、限速(`--limit-rate`)和递归下载(`-r`)。相比之下,`curl` 更侧重于发送各种HTTP请求(如GET、POST),并支持文件上传、自定义请求头和cookie等功能。
66 10
Linux软件包管理工具概览
在Linux系统中,dpkg、apt、rpm、yum和dnf是几种常见的包管理工具,它们分别属于不同的Linux发行版或家族,并有着各自的诞生顺序和特点。下面将按照这些工具的诞生顺序,并结合Debian、Red Hat、CentOS、Ubuntu和Kali等系统,进行详细的介绍。
43 4
Linux(openwrt)下iptables+tc工具实现网络流量限速控制(QoS)
通过以上步骤,您可以在Linux(OpenWrt)系统中使用iptables和tc工具实现网络流量限速控制(QoS)。这种方法灵活且功能强大,可以帮助管理员有效管理网络带宽,确保关键业务的网络性能。希望本文能够为您提供有价值的参考。
207 28
深入解析:Linux网络配置工具ifconfig与ip命令的全面对比
虽然 `ifconfig`作为一个经典的网络配置工具,简单易用,但其功能已经不能满足现代网络配置的需求。相比之下,`ip`命令不仅功能全面,而且提供了一致且简洁的语法,适用于各种网络配置场景。因此,在实际使用中,推荐逐步过渡到 `ip`命令,以更好地适应现代网络管理需求。
72 11
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等