监控服务器Nagios之三 监控案例

简介:

前边的两篇仅是Nagios服务端的安装与配置文件的解读,现在终于来到了第三篇,本篇将介绍下Nagios是如下实现监控的。

安装完Nagios之后,登录Web界面访问,在hosts一项中仅有localhost(hosts代表所监控的主机),如下图:

wKioL1U7vhiAONDIAADKe_DfD1w379.jpg

Service中默认已经监控Nagios服务器本身的以下选项,如下图所示

wKiom1U7vLfxw2n6AALk2hEbJw8552.jpg

上图中http处于WARNING状态,提示HTTP WARNING:HTTP/1.1 403 Forbidden - 5237 bytes in 0.003 second response time

这个是因为才Apache默认发布目录/var/www/html下没有index.html,创建一个即可。 

一、监控Nagios服务器本身

默认HTTPSSH虽然被监控,但是是没有报警通知的,我们首先开启HTTPSSH的通知!

1
#vim/usr/local/nagios/etc/objects/localhost.cfg

找到HTTPSSHdefine,把notifications_enabled   0这行注释掉或者0改为1,然后重启Nagios服务即可

wKiom1U7vLjxTi6xAAKoV1GVuJ4709.jpg

下面我们再添加一些其它监控项

添加监控本地服务器磁盘项,/dev/sda2为例。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
root@Nagios_Server ~] # df -h /dev/sda2
Filesystem      Size Used Avail Use% Mounted on
/dev/sda2         30G 4.3G   25G  15% /
现在有85%的空闲空间。
[root@Nagios_Server ~] # cd/usr/local/nagios/etc/objects/
[root@Nagios_Server objects] # vimcommands.cfg
添加以下内容
define  command {
        command_name    check_disk
        command_line   $USER1$ /check_disk   -w $ARG1$ -c$ARG2$ $ARG3$        #这里的变量$USER1$在resource.cfg文件中进行定义,即$USER1$=/usr/local/nagios/libexec;
        }                                                                   #-w 第一个参数 -c 第二个参数 然后第三个参数
[root@Nagios_Server objects] # vimlocalhost.cfg
添加以下内容
define service{
        use                             local -service        
        host_name                      localhost
        service_description                     Disk_monitor
        check_command                 check_disk!30%!20%! /dev/sda2          #每个参数用”!”隔开
        notifications_enabled                   1        #是否监控该服务    #对于/dev/sda2当可用率小于30%的时候就Warning(警告),小于20%的时候就Critical(严重)
        }                                                                   #命令等同于/usr/local/nagios/libexec/check_disk-w 30% -c 20% /dev/sda2
[root@Nagios_Server objects] #/usr/local/nagios/libexec/check_disk -w 30% -c 20% /dev/sda2
DISK OK -  free  space: / 24639 MB (85%inode=92%);| /=4323MB;6102;7628;0;30512
[root@Nagios_Server ~] # /usr/local/nagios/bin/nagios-v /usr/local/nagios/etc/nagios.cfg
检查配置文件,确保没有警告与错误,然后重启Nagios和httpd

wKioL1U7vhrxy4f6AAC3PBqGA1Q031.jpg

1
2
[root@Nagios_Server ~] # service nagiosrestart
[root@Nagios_Server ~] # service httpdrestart

wKiom1U7vLnD9T2vAANF8McCN0A149.jpg

二、监控Linux客户端

1linux客户端配置环境

1
#rpm -q gcc glibc glibc-common gd gd-develxinetd openssl-devel

根据实际环境,安装所缺少的包

2、首先创建nagios用户,并安装nagios-pluginsNRPE

1
2
3
4
5
6
7
8
9
10
[root@linux_client ~] # useradd nagios
[root@linux_client ~] # ls
nagios-plugins-1.4.14. tar .gz  nrpe-2.14. tar .gz
[root@linux_client ~] # tar -zxfnagios-plugins-1.4.14.tar.gz
[root@linux_client ~] # cdnagios-plugins-1.4.14
[root@linux_client nagios-plugins-1.4.14] # ./configure--prefix=/usr/local/nagios && make  && make install
[root@linux_client ~] # tar -zxfnrpe-2.14.tar.gz
[root@linux_client ~] # cd nrpe-2.14
[root@linux_client nrpe-2.14] #./configure--enable-ssl --with-ssl-lib && make all && make install-plugin && make install-daemon && make install-daemon-config
[root@linux_client nrpe-2.14] #chown -R nagios:nagios/usr/local/nagios

启动nrpe客户端:

1
2
3
4
[root@linux_client ~] #/usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d
[root@linux_client ~] # netstat -anlp | grepnrpe
tcp       0      0 0.0.0.0:5666                0.0.0.0:*                   LISTEN      25392 /nrpe         
unix 2      [ ]         DGRAM                    52454  25392 /nrpe

3Nrpe客户端配置

1
[root@linux_client ~] # vim/usr/local/nagios/etc/nrpe.cfg

下边是默认配置

wKioL1U7vh2CEdmFAASOqynh9e0441.jpg

其中“1”是已经配置好的命令,”2”是模板文件,可在服务端command.cfg调用!

根据需要修改,加入两行如下:

wKiom1U7vLyg2-VcAAS_wJ9OQv8419.jpg

1
2
3
4
5
6
7
8
9
10
11
12
13
14
[root@linux_client ~] # vim/usr/local/nagios/etc/nrpe.cfg
#添加允许监控的服务器端IP
把allowed_hosts=127.0.0.1改为allowed_hosts=127.0.0.1,192.168.1.2
重启NRPE客户端
[root@linux_client etc] # netstat -anlp |grep nrpe
tcp       0      0 0.0.0.0:5666                0.0.0.0:*                   LISTEN      25392 /nrpe         
unix 2      [ ]         DGRAM                    52454  25392 /nrpe         
[root@linux_client etc] # pkill nrpe
[root@linux_client etc] # netstat -anlp |grep nrpe
[root@linux_client etc] #/usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d
[root@linux_client etc] # netstat -anlp |grep nrpe
tcp       0      0 0.0.0.0:5666                0.0.0.0:*                   LISTEN      25472 /nrpe         
unix 2      [ ]         DGRAM                    56410  25472 /nrpe         
[root@linux_client etc] #

4、Nrpe服务端配置

1
2
3
4
5
6
7
8
[root@Nagios_Server objects] # pwd
/usr/local/nagios/etc/objects
[root@Nagios_Server objects] # vimcommands.cfg
#在末端添加以下内容(调用NRPE)
define  command {
     command_name check_nrpe
      command_line $USER1$ /check_nrpe  -H $HOSTADDRESS$ -c $ARG1$
   }

5Nagios监控端客户机配置

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
[root@Nagios_Server ~] # cd/usr/local/nagios/etc/
[root@Nagios_Server etc] # ls
cgi.cfg htpasswd. users   nagios.cfg  objects resource.cfg
[root@Nagios_Server etc] # vim nagios.cfg
#36行后添加以下内容
cfg_file= /usr/local/nagios/etc/objects/192 .168.1.4.cfg
[root@Nagios_Server objects] # pwd
/usr/local/nagios/etc/objects
[root@Nagios_Server objects] #touch192.168.1.4.cfg
[root@Nagios_Server objects] # chownnagios:nagios 192.168.1.4.cfg
[root@Nagios_Server objects] #vim192.168.1.4.cfg
#添加以下内容
define host{
        use                    linux-server
        host_name              192.168.1.4
        alias                   192.168.1.4
        address                192.168.1.4
        }
define hostgroup{
        hostgroup_name  192.168.1.4
        alias            Linux Servers
        members         192.168.1.4
        }
define service{
        use                             local -service
        host_name                      192.168.1.4
        service_description            Monitor_sda1
         check_command                   check_sda1
        notifications_enabled           1
        }
  
define service{
        use                             local -service
        host_name                      192.168.1.4
        service_description            Monitor_sda2
        check_command                  check_sda2
        notifications_enabled           1
        }

6、验证是否添加成功

服务端测试是否可以与客户端nrpe通信(显示NRPE版本即代表成功)

1
2
[root@Nagios_Server objects] #/usr/local/nagios/libexec/check_nrpe -H 192.168.1.4
NRPE v2.14

如报错

CHECK_NRPE: Error - Could not complete SSLhandshake.

killnrpe 重启nrpe即可

1
2
3
4
5
6
7
8
[root@Nagios_Server ~] #/usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg #测试配置文件是否存在错误
[root@Nagios_Server ~] # service nagiosrestart
Running configuration check... done .
Stopping nagios:  done .
Starting nagios:  done .
[root@Nagios_Server ~] # service httpdrestart
停止 httpd:                                              [确定]
正在启动 httpd:                                          [确定]

wKioL1U7viCRlj4LAAOk4OGcmVY396.jpg

7、Other

其实在Nagios服务端如果添加NRPE客户端的时候,可以复制localhost模板,因为里边已经定义过很多服务,只需要修改一些即可。

cp  localhost.cfg  192.168.1.4.cfg

把默认配置文件里面的locahost127.0.0.1check_locallinux-servers更新一下

1
[root@Nagios_Server ~] #sed -i's#localhost#192.168.1.4#g;s#127.0.0.1#192.168.1.4#g;s#check_local#check#g;s#linux-servers#192.168.1.4#g'  192.168.1.4.cfg

因为客户端是基于NRPE的,所以要把所监控的服务check_command 前加check_nrpe! 这里不再叙述!

三、监控Windows客户端

Nagioslibexec下有check_nt这个插件,它就是用来检查windows机器的服务的。其功能类似于check_nrpe。不过还需要搭配另外一个软件NSClient++,它则类似于NRPE

NSClient++的原理如下图

wKioL1U7viCyC4hzAACJ0zqers8208.jpg

可以看到NSClientnrpe最大的区别就是:

被监控机上安装有nrpe,并且还有插件,最终的监控是由这些插件来进行的。当监控主机将监控请求发给nrpe后,nrpe调用插件来完成监控。

NSClient++则不同,被监控机上只安装NSClient,没有任何的插件。当监控主机将监控请求发给NSClient++后,NSClient直接完成监控,所有的监控是由NSClient完成的。

这也说明了NSClient++的一个很大的问题:不灵活、没有可扩展性。它只能完成自己本身包含的监控操作,不能由一些插件来扩展。好在NSClient++已经做的不错了,基本上可以完全满足我们的监控需求。

1、            安装NSClient++

http://www.nsclient.org/nscp/downloads 下载NSClient++-0.2.7.zip

解压到C盘根目录。

打开cmd 切换到c:\NSClient++-0.2.7

执行nsclient++ /install 进行安装

wKiom1U7vL7gxGiEAAB0Olj6pwg376.jpg

执行nsclient++ SysTray (注意大小写),这一步是安装系统托盘,时间稍微有点长。

wKiom1U7vL7Bs5EKAAAxqkithwI413.jpg

在运行里面输入services.msc 打开“服务”,看到下图就说明NSClient服务已经安装上了

wKioL1U7viDzAuH_AACglU5LLcw082.jpg

双击打开,点“登录”标签,在“允许服务与桌面交互”前打勾

wKiom1U7vMCjssvwAAEtmXnMazc615.jpg

2、编辑配置文件

编辑c:\NSClient++-0.2.7下的NSC.ini文件。

 [modules]部分的所有模块前面的注释都去掉,除了CheckWMI.dll  RemoteConfiguration.dll 这两个。

wKioL1U7viLRwqGPAAI4IW0PkHo142.jpg

[Settings]部分设置'password'选项来设置密码,作用是在nagios连接过来时要求提供密码。这一步是可选的,我这里设置为'hi'

[Settings]部分'allowed_hosts'选项的注释去掉,并且加上运行nagios的监控主机的IP。各IP之间以逗号相隔。这个地方是支持子网的,如果写成192.168.1.0/24则表示该子网内的所有机器都可以访问。如果这个地方是空白则表示所有的主机都可以连接上来。

注意是[Settings]部分的,因为[NSClient]部分也有这个选项。

wKioL1U7viPQHs7NAANNT8hUJvo200.jpg

必须保证[NSClient]'port'选项并没有被注释,并且它的值是'12489',这是NSClient的默认监听端口。

wKiom1U7vMGizP9BAAERSwiSFuI568.jpg

cmd 中执行nsclient++ /start启动服务,注意所在目录是c:\NSClient++-0.2.7

wKiom1U7vMGRaPj-AABEbxtWd8M044.jpg

服务已经启动

wKioL1U7viOhT_-AAACBc4gWH6A325.jpg

cmd 里面执行netstat an 可以看到已经开始监听tcp12489端口了。

wKiom1U7vMPAi6bzAAHLcUrk-GU369.jpg

防火墙也要打开tcp12489端口,否则nagios 检查此服务的时候会报错。

3、            Nagios服务端配置

a、确保check_nt命令在/etc/nagios/objects/commands.cfg都被定义了。还有一点改变,应用默认配置不使用密码了,所以在命令行末尾,加-s hi,以便让check_nt命令使用默认的密码”hi”

1
2
3
[root@Nagios_Server objects] # pwd
/usr/local/nagios/etc/objects
[root@Nagios_Server objects] # vimcommands.cfg

wKioL1U7viXgnSMYAACz8LWiKxo183.jpg

bWindows主机定义模板——不是真的主机,只是模板!

/etc/nagios/objects/templates.cfg,你需要模板来定义Windows主机应该怎样配置

wKiom1U7vMSTlLJwAAOW4l0heUk887.jpg

c、核实模板存在之后,需要通知Nagios还得监视Windows。通过取消注解cfg_file行,让Nagioswindows.cfg文件。

1
2
3
[root@Nagios_Server etc] # pwd
/usr/local/nagios/etc
[root@Nagios_Server etc] # vim nagios.cfg

wKioL1U7vibz163sAABpE6duQMc545.jpg

d、定义Windows主机被监视。这一步在每个要被监视的windows主机都要做。你需要一个在windows.cfg文件中的定义主机项

1
2
3
[root@Nagios_Server objects] # pwd
/usr/local/nagios/etc/objects
[root@Nagios_Server objects] # vimwindows.cfg

wKiom1U7vMTjp0AXAAENnlqw1mc713.jpg

4、  验证配置

提醒:一定要确保windows的防火墙是关闭的或者开发”12489”

wKioL1U7vieA9kSYAAE0Pu9yJ9U664.jpg

wKiom1U7vMewGCAcAAYn6bouvKI634.jpg

出现了一个错误

NSClient - ERROR:PDH Collection thread not running.

Windows客户端配置

打开C:\NSClient++-0.2.7\counters.defs文件,复制文件里面"English US"那部分内容,粘贴到counters.defs文件的最后,修改Description = "Chinese"

增加以下内容(notepad++打开会有更友好的试图),重启Nsclient服务即可

[0x0804]

Description ="Chinese"

NT4_SystemTotalProcessorTime= "\System\% Total Processor Time"

NT4_SystemSystemUpTime= "\System\System Up Time"

NT4_MemoryCommitLimit= "\Memory\Commit Limit"

NT4_MemoryCommitByte= "\Memory\Committed Bytes"

 

W2K_SystemTotalProcessorTime= "\Processor(_total)\% Processor Time"

W2K_SystemSystemUpTime= "\System\System Up Time"

W2K_MemoryCommitLimit= "\Memory\Commit Limit"

W2K_MemoryCommitByte= "\Memory\Committed Bytes"

wKioL1U7virwxtVvAAWIpiy2zv8510.jpg

但是最后还有个Warning,是关于W3SVC的,原因是Windows客户端没有安装IIS

开始---控制面板---程序---打开或关闭Windows功能,添加IIS,重启NSClient服务即可

如下图:

wKiom1U7vMqiTeTAAAYMC0pNFj4788.jpg

有两个服务是出于flapping状态

1
[root@Nagios_Server ~] # vim /usr/local/nagios/etc/nagios.cfg

虽然文档里说默认是0,但实际为1.改为0之后就解决了flapping state

enable_flap_detection=0

wKiom1U7ydHRTSPiAAHmWdEl3PM730.jpg

重启Nagios服务即可。

wKioL1U7yzLA8YA6AAXZWj3M_Ic267.jpg

Perfect ?

分组?邮件、短信报警?监控HTTP关键字?监控Mysql主从?



本文转自Jacken_yang 51CTO博客,原文链接:http://blog.51cto.com/linuxnote/1638423,如需转载请自行联系原作者

相关文章
|
2月前
|
存储 运维 数据挖掘
服务器数据恢复—EqualLogic存储硬盘出现坏道的数据恢复案例
某品牌EqualLogic PS6100存储阵列上有一组由16块硬盘组建的raid5磁盘阵列。磁盘阵列上层划分多个大小不同的卷,存放虚拟机文件。 硬盘出现故障导致存储阵列不可用,需要恢复存储阵列中的数据。
|
2月前
|
存储 运维 Oracle
服务器数据恢复—存储硬盘指示灯亮黄灯,RAID5阵列崩溃的数据恢复案例
服务器存储数据恢复环境: 某单位一台某品牌DS5300存储,1个机头+4个扩展柜,50块的硬盘组建了两组RAID5阵列。一组raid5阵列有27块硬盘,存放Oracle数据库文件。存储系统上层一共划分了11个卷。 服务器存储故障: 存储设备上两个硬盘指示灯亮黄色。其中一组RAID5阵列崩溃,存储不可用,设备已经过保。
|
5月前
|
存储 Oracle 关系型数据库
服务器数据恢复—光纤存储上oracle数据库数据恢复案例
一台光纤服务器存储上有16块FC硬盘,上层部署了Oracle数据库。服务器存储前面板2个硬盘指示灯显示异常,存储映射到linux操作系统上的卷挂载不上,业务中断。 通过storage manager查看存储状态,发现逻辑卷状态失败。再查看物理磁盘状态,发现其中一块盘报告“警告”,硬盘指示灯显示异常的2块盘报告“失败”。 将当前存储的完整日志状态备份下来,解析备份出来的存储日志并获得了关于逻辑卷结构的部分信息。
|
7月前
|
存储 数据挖掘
服务器数据恢复—EMC存储raid5阵列数据恢复案例
服务器存储数据恢复环境: EMC某型号存储中有一组由8块硬盘组建的raid5磁盘阵列。 服务器存储故障: raid5阵列中有2块硬盘离线,存储不可用,上层应用崩了。
|
6月前
|
数据挖掘
服务器数据恢复——服务器异常断电造成raid5阵列故障的数据恢复案例
某服务器上有一组由12块硬盘组建的raid5磁盘阵列。 机房供电不稳定导致机房中该服务器非正常断电,重启服务器后管理员发现服务器无法正常使用。 意外断电可能会导致服务器上的raid模块损坏。
|
7月前
|
数据挖掘 Linux
服务器数据恢复—服务器重装系统导致分区改变的数据恢复案例
服务器上有一组由raid卡组建的raid5磁盘阵列。上层安装linux才做系统,采用XFS文件系统,划分了3个分区。 管理员将服务器的操作系统重装后,发现服务器上的分区发生了改变:一个分区消失,其他分区不可访问。
|
3月前
|
Unix 应用服务中间件 索引
服务器数据恢复—LUN映射出错导致文件系统共享冲突的数据恢复案例
SUN光纤存储系统中有一组由6个硬盘组建的RAID6,划分为若干LUN,MAP到跑不同业务的服务器上,这些服务器上运行的是SOLARIS操作系统。 服务器不存在物理故障。由于公司业务变化,需要增加一台服务器跑新的应用。服务器管理员在原服务器在线的状态下,将其中一个lun映射到一台新服务器上。实际上,这个刚映射过去的卷已经map到了solaris生产系统上的某个lun上了。映射到新服务器后,服务器对这个卷进行初始化的操作,原solaris系统上的磁盘报错,重启服务器后这个卷已经无法挂载。 服务器管理员寻求sun原厂工程师的帮助。sun工程师检测后执行了fsck操作。执行完成后文件系统挂载成功。查
|
3月前
|
存储 数据挖掘 Linux
服务器数据恢复—重装系统导致OceanStor存储上的分区无法访问的数据恢复案例
服务器存储数据恢复环境: 华为OceanStor某型号存储+扩展盘柜,存储中的硬盘组建了raid5磁盘阵列,上层分配了1个lun。 linux操作系统,划分了两个分区,分区一通过lvm扩容,分区二为xfs文件系统。 服务器存储故障: 工作人员重装系统操作失误导致磁盘分区变化,分区二无法访问,数据丢失。
|
3月前
|
存储 数据挖掘 Windows
服务器数据恢复—RAIDZ上层ZFS文件系统数据恢复案例
一台服务器有32块硬盘,采用Windows操作系统。 服务器在正常运行的时候突然变得不可用。没有异常断电、进水、异常操作、机房不稳定等外部因素。服务器管理员重启服务器,但是服务器无法进入系统。管理员联系北亚企安数据恢复工程师要求恢复服务器数据。
|
4月前
|
存储 算法 数据挖掘
服务器数据恢复—昆腾存储StorNext文件系统数据恢复案例
一台昆腾存储设备中有一组raid5磁盘阵列。阵列上有两块硬盘先后离线,raid5磁盘阵列不可用。

热门文章

最新文章