《构建高可用Linux服务器 第3版》—— 1.6 用开源工具Nagios监控Linux服务器

简介:

本节书摘来自华章出版社《构建高可用Linux服务器 第3版》一 书中的第1章,第1.6节,作者:余洪春 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.6 用开源工具Nagios监控Linux服务器

1.6.1 CentOS 5.8下的监控工具

在开源系统CentOS 5.8下有许多监控工具,比如实时监控系统状态的Nagios,还有监控网络流量的Cacti和MRTG,以及我个人比较喜欢的NTOP和Iptraf;另外,在CentOS 5.8下也有许多强大的命令行可用于监控系统状态,大家可以在Google上搜索以了解其具体用法。

1.6.2 Nagios应该监控的服务器基础选项

经过工作实践,我们认为Nagios应该监控服务器的参数有如下几个方面:

主机存活的状态:Nagios采用通过ping来实现对主机是否存活的检测机制。

系统load值:系统load值的最关键含义是CPU运行中等待的数量,从侧面反映了CPU的繁忙程序,只不过load值并不直接等于等待队列中的进程数量。

CPU使用率:CPU使用率和系统load值一样,从另一个角度反映了CPU的总体繁忙情况,只不过它所提供的信息更为详细,如当前空闲的CPU比率、系统占用的CPU比率、用户进程占用的CPU比率、处于I/O等待的CPU比率等。

磁盘I/O量:磁盘I/O直接反映了系统硬盘繁忙情况,特别对于数据库这种以I/O操作为主的系统来说,I/O的负载将直接影响到系统的整体响应速度(尤其是作为数据库服务器而言,监控的意义重大)。

swap进出量:swap的使用主要表现了系统在物理内存不够的情况下使用虚拟内存的情况。有的人在观察内存情况时总是走入误区,在“free-m”中应该关注swap,而非free。

网络流量:特别作为数据库系统,网络流量也是一个不容忽视的监控点。毕竟数据库系统的数据进出量比普通服务器要大很多;当然,如果是非数据库服务器,网络流量成为瓶颈的可能性还是比较小的。

僵死进程的监控:这项指标的监控意义我就不多说了,而且这在Nagios中已经作为系统默认内容存在了。

在LVS+Keeepalived或Nginx+Keepalived中,由Keepalived产生的VIP应该重点监控,毕竟许多系统和网站都是将此内网地址由防火墙映射成为公网地址的,相当于整个网站或系统的进口,其重要性不言而喻;另外,如果网站架构里有DRBD+Heartbeat,也强烈建议监控Heartbeat产生的VIP地址。

数据库MySQL的主从复制状态,MySQL的replication是一个异步同步的过程,在很大程度上会受到网络、硬件停电、主键冲突等方面的影响,所以监控的意义不言而喻。

1.6.3 工作中的Nagios使用心得

下面总结一下在工作中使用Nagios的心得。

网站运维每天的工作重点之一就是监控网站的实时状态,所以需要时时监控。这里跟大家介绍一个监控系统主机及服务Nagios系统实时提醒的Firefox插件,很实用。如果上班时需要实时关注监控服务器主机及服务的Nagios系统,就得一直开着一个网页,然后让页面自动刷新,感觉有点麻烦,而且浪费资源。虽说朋友分享了一个Nagios辅助小软件比较方便,可以将其最小化到任务栏,有异常时会出现浮动提示窗口,但是我一向喜欢尽量将所有东西都嵌入浏览器中进行操作,所以更希望能找到一款Firefox插件来实现类似于此辅助软件的功能,后来终于找到了,这个插件即Nagios Check插件。它的安装方法非常简单,这里就不多费篇幅了,效果图如图1-4(大家注意Firefox最右下角的小图标)所示。

screenshot

业务网站最好置于自己的机房内,因为Nagios对于网络的依赖很大。它依靠ping来检测服务器是否存活,如果网络情况不好或因别的原因造成Nagios检测不到监控服务器,会造成一个啼笑皆非的问题,它会狂发报警短信和邮件,说服务器已宕机,属于Critical情况。但事实上此服务器情况良好,仅仅是跟Nagios机器的网络不通而已,如果遇到这种情况希望大家注意甄别。
由于Nagios是部署在内网中的,所以它只能对内网的所有机器进行监控。由于我们的网站都是将内网机器的IP映射到防火墙的公网地址,对此Nagios就无能为力了,这个时候我们可以购买类似于AlertBot的实时扫描服务器来扫描我们的商务网站,并配合Nagios对网站进行实时监控。如果你的邮箱同时收到AlertBot和Nagios的报警,一定要慎重对待,这种情况百分百就是内网机器出现故障或者系统负载超过了Naiogs设定的阈值。
如是公网的一些重要业务或机器也有监控需求,我们可以将Naiogs部署在稳定的双线机房或BGP机房中监控。
如果认为在Nagios下部署短信猫或飞信麻烦,可以尝试中国移动提供的免费139邮件短信业务。使用免费的邮件短信业务其实还有一个好处,即并不是每家公司都愿意在硬件监控方面投入资金,很多公司在IT成本预算方面控制得很严格。
DELL系列的服务器在RAID充电时有报警现象,请大家正确甄别这种现象与服务器真正故障时的Nagios报警情况。
本节重点强调了Nagios这个监控工具,同时也分享了一些个人使用经验和心得。由于线上环境对高可用要求近乎苛刻,所以我们必须随时掌握服务器的性能,及时根据Nagios的警报邮件或短信来处理服务器的故障。

相关文章
|
20天前
|
编解码 Linux iOS开发
Shotcut 25.03 (Linux, macOS, Windows) - 免费开源视频编辑器
Shotcut 25.03 (Linux, macOS, Windows) - 免费开源视频编辑器
64 11
|
17天前
|
人工智能 搜索推荐 程序员
用 Go 语言轻松构建 MCP 客户端与服务器
本文介绍了如何使用 mcp-go 构建一个完整的 MCP 应用,包括服务端和客户端两部分。 - 服务端支持注册工具(Tool)、资源(Resource)和提示词(Prompt),并可通过 stdio 或 sse 模式对外提供服务; - 客户端通过 stdio 连接服务器,支持初始化、列出服务内容、调用远程工具等操作。
202 3
|
17天前
|
Linux 网络安全 iOS开发
Metasploit Framework 6.4.55 (macOS, Linux, Windows) - 开源渗透测试框架
Metasploit Framework 6.4.55 (macOS, Linux, Windows) - 开源渗透测试框架
42 0
Metasploit Framework 6.4.55 (macOS, Linux, Windows) - 开源渗透测试框架
|
5月前
|
Java
java小工具util系列5:java文件相关操作工具,包括读取服务器路径下文件,删除文件及子文件,删除文件夹等方法
java小工具util系列5:java文件相关操作工具,包括读取服务器路径下文件,删除文件及子文件,删除文件夹等方法
150 9
|
1月前
|
自然语言处理 安全 开发工具
分享一个纯净无广、原版操作系统、开发人员工具、服务器等资源免费下载的网站
分享一个纯净无广、原版操作系统、开发人员工具、服务器等资源免费下载的网站
108 4
|
1月前
|
运维 安全 开发工具
GitHub 热门开源运维工具 Websoft9:如何实现服务器管理效率翻倍?
Websoft9 提供 200+ 开源应用一键部署,支持容器化隔离、GitOps 自动化和企业级安全防护,助力服务器管理效率提升 80%。
73 1
|
2月前
|
Linux 网络安全 iOS开发
Metasploit Framework 6.4.49 (macOS, Linux, Windows) - 开源渗透测试框架
Metasploit Framework 6.4.49 (macOS, Linux, Windows) - 开源渗透测试框架
54 0
Metasploit Framework 6.4.49 (macOS, Linux, Windows) - 开源渗透测试框架
|
4月前
|
运维 监控 Linux
推荐几个不错的 Linux 服务器管理工具
推荐几个不错的 Linux 服务器管理工具
362 6
|
5月前
|
运维 监控 Linux
服务器管理面板大盘点: 8款开源面板助你轻松管理Linux服务器
在数字化时代,服务器作为数据存储和计算的核心设备,其管理效率与安全性直接关系到业务的稳定性和可持续发展。随着技术的不断进步,开源社区涌现出众多服务器管理面板,这些工具以其强大的功能、灵活的配置和友好的用户界面,极大地简化了Linux服务器的管理工作。本文将详细介绍8款开源的服务器管理面板,包括Websoft9、宝塔、cPanel、1Panel等,旨在帮助运维人员更好地选择和使用这些工具,提升服务器管理效率。
|
5月前
|
边缘计算 人工智能 运维
Linux操作系统:开源力量的崛起与影响###
一场技术革命的回顾 回溯至1991年,当Linus Torvalds宣布Linux操作系统的诞生时,世界或许并未意识到这一举措将如何深刻地改变技术领域的面貌。本文旨在探讨Linux操作系统的发展历程、核心特性、以及它如何引领了一场开源运动,重塑了软件行业的生态。从最初的个人爱好项目成长为全球最广泛采用的服务器操作系统之一,Linux的故事是技术创新与社区精神共同推动下的辉煌篇章。 ###
下一篇
oss创建bucket