前边的两篇仅是Nagios服务端的安装与配置文件的解读,现在终于来到了第三篇,本篇将介绍下Nagios是如下实现监控的。
安装完Nagios之后,登录Web界面访问,在hosts一项中仅有localhost(hosts代表所监控的主机),如下图:
在Service中默认已经监控Nagios服务器本身的以下选项,如下图所示
上图中http处于WARNING状态,提示HTTP WARNING:HTTP/1.1 403 Forbidden - 5237 bytes in 0.003 second response time
这个是因为才Apache默认发布目录/var/www/html下没有index.html,创建一个即可。
一、监控Nagios服务器本身
默认HTTP与SSH虽然被监控,但是是没有报警通知的,我们首先开启HTTP和SSH的通知!
1
|
#vim/usr/local/nagios/etc/objects/localhost.cfg
|
找到HTTP与SSH的define,把notifications_enabled 0这行注释掉或者0改为1,然后重启Nagios服务即可
下面我们再添加一些其它监控项
添加监控本地服务器磁盘项,以/dev/sda2为例。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
|
root@Nagios_Server ~]
# df -h /dev/sda2
Filesystem Size Used Avail Use% Mounted on
/dev/sda2
30G 4.3G 25G 15% /
现在有85%的空闲空间。
[root@Nagios_Server ~]
# cd/usr/local/nagios/etc/objects/
[root@Nagios_Server objects]
# vimcommands.cfg
添加以下内容
define
command
{
command_name check_disk
command_line $USER1$
/check_disk
-w $ARG1$ -c$ARG2$ $ARG3$
#这里的变量$USER1$在resource.cfg文件中进行定义,即$USER1$=/usr/local/nagios/libexec;
}
#-w 第一个参数 -c 第二个参数 然后第三个参数
[root@Nagios_Server objects]
# vimlocalhost.cfg
添加以下内容
define service{
use
local
-service
host_name localhost
service_description Disk_monitor
check_command check_disk!30%!20%!
/dev/sda2
#每个参数用”!”隔开
notifications_enabled 1
#是否监控该服务 #对于/dev/sda2当可用率小于30%的时候就Warning(警告),小于20%的时候就Critical(严重)
}
#命令等同于/usr/local/nagios/libexec/check_disk-w 30% -c 20% /dev/sda2
[root@Nagios_Server objects]
#/usr/local/nagios/libexec/check_disk -w 30% -c 20% /dev/sda2
DISK OK -
free
space: / 24639 MB (85%inode=92%);| /=4323MB;6102;7628;0;30512
[root@Nagios_Server ~]
# /usr/local/nagios/bin/nagios-v /usr/local/nagios/etc/nagios.cfg
检查配置文件,确保没有警告与错误,然后重启Nagios和httpd
|
1
2
|
[root@Nagios_Server ~]
# service nagiosrestart
[root@Nagios_Server ~]
# service httpdrestart
|
二、监控Linux客户端
1、linux客户端配置环境
1
|
#rpm -q gcc glibc glibc-common gd gd-develxinetd openssl-devel
|
根据实际环境,安装所缺少的包
2、首先创建nagios用户,并安装nagios-plugins和NRPE
1
2
3
4
5
6
7
8
9
10
|
[root@linux_client ~]
# useradd nagios
[root@linux_client ~]
# ls
nagios-plugins-1.4.14.
tar
.gz nrpe-2.14.
tar
.gz
[root@linux_client ~]
# tar -zxfnagios-plugins-1.4.14.tar.gz
[root@linux_client ~]
# cdnagios-plugins-1.4.14
[root@linux_client nagios-plugins-1.4.14]
# ./configure--prefix=/usr/local/nagios && make && make install
[root@linux_client ~]
# tar -zxfnrpe-2.14.tar.gz
[root@linux_client ~]
# cd nrpe-2.14
[root@linux_client nrpe-2.14]
#./configure--enable-ssl --with-ssl-lib && make all && make install-plugin && make install-daemon && make install-daemon-config
[root@linux_client nrpe-2.14]
#chown -R nagios:nagios/usr/local/nagios
|
启动nrpe客户端:
1
2
3
4
|
[root@linux_client ~]
#/usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d
[root@linux_client ~]
# netstat -anlp | grepnrpe
tcp 0 0 0.0.0.0:5666 0.0.0.0:* LISTEN 25392
/nrpe
unix 2 [ ] DGRAM 52454 25392
/nrpe
|
3、Nrpe客户端配置
1
|
[root@linux_client ~]
# vim/usr/local/nagios/etc/nrpe.cfg
|
下边是默认配置
其中“1”是已经配置好的命令,”2”是模板文件,可在服务端command.cfg调用!
根据需要修改,加入两行如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
[root@linux_client ~]
# vim/usr/local/nagios/etc/nrpe.cfg
#添加允许监控的服务器端IP
把allowed_hosts=127.0.0.1改为allowed_hosts=127.0.0.1,192.168.1.2
重启NRPE客户端
[root@linux_client etc]
# netstat -anlp |grep nrpe
tcp 0 0 0.0.0.0:5666 0.0.0.0:* LISTEN 25392
/nrpe
unix 2 [ ] DGRAM 52454 25392
/nrpe
[root@linux_client etc]
# pkill nrpe
[root@linux_client etc]
# netstat -anlp |grep nrpe
[root@linux_client etc]
#/usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d
[root@linux_client etc]
# netstat -anlp |grep nrpe
tcp 0 0 0.0.0.0:5666 0.0.0.0:* LISTEN 25472
/nrpe
unix 2 [ ] DGRAM 56410 25472
/nrpe
[root@linux_client etc]
#
|
4、Nrpe服务端配置
1
2
3
4
5
6
7
8
|
[root@Nagios_Server objects]
# pwd
/usr/local/nagios/etc/objects
[root@Nagios_Server objects]
# vimcommands.cfg
#在末端添加以下内容(调用NRPE)
define
command
{
command_name check_nrpe
command_line $USER1$
/check_nrpe
-H $HOSTADDRESS$ -c $ARG1$
}
|
5、Nagios监控端客户机配置
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
|
[root@Nagios_Server ~]
# cd/usr/local/nagios/etc/
[root@Nagios_Server etc]
# ls
cgi.cfg htpasswd.
users
nagios.cfg objects resource.cfg
[root@Nagios_Server etc]
# vim nagios.cfg
#36行后添加以下内容
cfg_file=
/usr/local/nagios/etc/objects/192
.168.1.4.cfg
[root@Nagios_Server objects]
# pwd
/usr/local/nagios/etc/objects
[root@Nagios_Server objects]
#touch192.168.1.4.cfg
[root@Nagios_Server objects]
# chownnagios:nagios 192.168.1.4.cfg
[root@Nagios_Server objects]
#vim192.168.1.4.cfg
#添加以下内容
define host{
use linux-server
host_name 192.168.1.4
alias
192.168.1.4
address 192.168.1.4
}
define hostgroup{
hostgroup_name 192.168.1.4
alias
Linux Servers
members 192.168.1.4
}
define service{
use
local
-service
host_name 192.168.1.4
service_description Monitor_sda1
check_command check_sda1
notifications_enabled 1
}
define service{
use
local
-service
host_name 192.168.1.4
service_description Monitor_sda2
check_command check_sda2
notifications_enabled 1
}
|
6、验证是否添加成功
服务端测试是否可以与客户端nrpe通信(显示NRPE版本即代表成功)
1
2
|
[root@Nagios_Server objects]
#/usr/local/nagios/libexec/check_nrpe -H 192.168.1.4
NRPE v2.14
|
如报错
CHECK_NRPE: Error - Could not complete SSLhandshake.
kill掉nrpe 重启nrpe即可
1
2
3
4
5
6
7
8
|
[root@Nagios_Server ~]
#/usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg #测试配置文件是否存在错误
[root@Nagios_Server ~]
# service nagiosrestart
Running configuration check...
done
.
Stopping nagios:
done
.
Starting nagios:
done
.
[root@Nagios_Server ~]
# service httpdrestart
停止 httpd: [确定]
正在启动 httpd: [确定]
|
7、Other
其实在Nagios服务端如果添加NRPE客户端的时候,可以复制localhost模板,因为里边已经定义过很多服务,只需要修改一些即可。
cp localhost.cfg 192.168.1.4.cfg
把默认配置文件里面的locahost、127.0.0.1、check_local、linux-servers更新一下
1
|
[root@Nagios_Server ~]
#sed -i's#localhost#192.168.1.4#g;s#127.0.0.1#192.168.1.4#g;s#check_local#check#g;s#linux-servers#192.168.1.4#g' 192.168.1.4.cfg
|
因为客户端是基于NRPE的,所以要把所监控的服务check_command 前加check_nrpe! 这里不再叙述!
三、监控Windows客户端
在Nagios的libexec下有check_nt这个插件,它就是用来检查windows机器的服务的。其功能类似于check_nrpe。不过还需要搭配另外一个软件NSClient++,它则类似于NRPE。
NSClient++的原理如下图
可以看到NSClient与nrpe最大的区别就是:
被监控机上安装有nrpe,并且还有插件,最终的监控是由这些插件来进行的。当监控主机将监控请求发给nrpe后,nrpe调用插件来完成监控。
NSClient++则不同,被监控机上只安装NSClient,没有任何的插件。当监控主机将监控请求发给NSClient++后,NSClient直接完成监控,所有的监控是由NSClient完成的。
这也说明了NSClient++的一个很大的问题:不灵活、没有可扩展性。它只能完成自己本身包含的监控操作,不能由一些插件来扩展。好在NSClient++已经做的不错了,基本上可以完全满足我们的监控需求。
1、 安装NSClient++
从http://www.nsclient.org/nscp/downloads 下载NSClient++-0.2.7.zip
解压到C盘根目录。
打开cmd 切换到c:\NSClient++-0.2.7
执行nsclient++ /install 进行安装
执行nsclient++ SysTray (注意大小写),这一步是安装系统托盘,时间稍微有点长。
在运行里面输入services.msc 打开“服务”,看到下图就说明NSClient服务已经安装上了
双击打开,点“登录”标签,在“允许服务与桌面交互”前打勾
2、编辑配置文件
编辑c:\NSClient++-0.2.7下的NSC.ini文件。
将 [modules]部分的所有模块前面的注释都去掉,除了CheckWMI.dll 和 RemoteConfiguration.dll 这两个。
在[Settings]部分设置'password'选项来设置密码,作用是在nagios连接过来时要求提供密码。这一步是可选的,我这里设置为'hi'。
将[Settings]部分'allowed_hosts'选项的注释去掉,并且加上运行nagios的监控主机的IP。各IP之间以逗号相隔。这个地方是支持子网的,如果写成192.168.1.0/24则表示该子网内的所有机器都可以访问。如果这个地方是空白则表示所有的主机都可以连接上来。
注意是[Settings]部分的,因为[NSClient]部分也有这个选项。
必须保证[NSClient]的'port'选项并没有被注释,并且它的值是'12489',这是NSClient的默认监听端口。
在cmd 中执行nsclient++ /start启动服务,注意所在目录是c:\NSClient++-0.2.7
服务已经启动
在cmd 里面执行netstat –an 可以看到已经开始监听tcp的12489端口了。
防火墙也要打开tcp的12489端口,否则nagios 检查此服务的时候会报错。
3、 Nagios服务端配置
a、确保check_nt命令在/etc/nagios/objects/commands.cfg都被定义了。还有一点改变,应用默认配置不使用密码了,所以在命令行末尾,加-s hi,以便让check_nt命令使用默认的密码”hi”
1
2
3
|
[root@Nagios_Server objects]
# pwd
/usr/local/nagios/etc/objects
[root@Nagios_Server objects]
# vimcommands.cfg
|
b、Windows主机定义模板——不是真的主机,只是模板!
在/etc/nagios/objects/templates.cfg,你需要模板来定义Windows主机应该怎样配置
c、核实模板存在之后,需要通知Nagios还得监视Windows。通过取消注解cfg_file行,让Nagios看windows.cfg文件。
1
2
3
|
[root@Nagios_Server etc]
# pwd
/usr/local/nagios/etc
[root@Nagios_Server etc]
# vim nagios.cfg
|
d、定义Windows主机被监视。这一步在每个要被监视的windows主机都要做。你需要一个在windows.cfg文件中的定义主机项
1
2
3
|
[root@Nagios_Server objects]
# pwd
/usr/local/nagios/etc/objects
[root@Nagios_Server objects]
# vimwindows.cfg
|
4、 验证配置
提醒:一定要确保windows的防火墙是关闭的或者开发”12489”
出现了一个错误
NSClient - ERROR:PDH Collection thread not running.
Windows客户端配置
打开C:\NSClient++-0.2.7\counters.defs文件,复制文件里面"English US"那部分内容,粘贴到counters.defs文件的最后,修改Description = "Chinese"。
增加以下内容(用notepad++打开会有更友好的试图),重启Nsclient服务即可
[0x0804]
Description ="Chinese"
NT4_SystemTotalProcessorTime= "\System\% Total Processor Time"
NT4_SystemSystemUpTime= "\System\System Up Time"
NT4_MemoryCommitLimit= "\Memory\Commit Limit"
NT4_MemoryCommitByte= "\Memory\Committed Bytes"
W2K_SystemTotalProcessorTime= "\Processor(_total)\% Processor Time"
W2K_SystemSystemUpTime= "\System\System Up Time"
W2K_MemoryCommitLimit= "\Memory\Commit Limit"
W2K_MemoryCommitByte= "\Memory\Committed Bytes"
但是最后还有个Warning,是关于W3SVC的,原因是Windows客户端没有安装IIS
开始---控制面板---程序---打开或关闭Windows功能,添加IIS,重启NSClient服务即可
如下图:
有两个服务是出于flapping状态
1
|
[root@Nagios_Server ~]
# vim /usr/local/nagios/etc/nagios.cfg
|
虽然文档里说默认是0,但实际为1.改为0之后就解决了flapping state
enable_flap_detection=0
重启Nagios服务即可。
Perfect ?
分组?邮件、短信报警?监控HTTP关键字?监控Mysql主从?
本文转自Jacken_yang 51CTO博客,原文链接:http://blog.51cto.com/linuxnote/1638423,如需转载请自行联系原作者