报错:UNKNOWN: iostat not found or is not executable by the nagios user
客户端缺少:iostat命令
下载:wget ftp://195.220.108.108/linux/centos/6.5/os/x86_64/Packages/sysstat-9.0.4-22.el6.x86_64.rpm
安装:rpm -ivh sysstat-9.0.4-22.el6.x86_64.rpm
问题解决!!!
2014-12-29
由于我们公司线上服务器都是采取DHCP自动获取的ip地址,近期要对部分服务器进行配置升级,虽然云服务承诺服务器重启之后是不会变更ip地址的,但是为了防止必要的麻烦,于是我就手动将ip地址与mac地址进行绑定写到文件中去。
网卡配置文件格式:
DEVICE=eth0
BOOTPROTO=static
GATEWAY=10.124.156.1
HWADDR=28:6E:D4:89:C2:36
IPADDR=10.124.156.250
NETMASK=255.255.255.0
ONBOOT=yes
TYPE=Ethernet
USERCTL=no
IPV6INIT=no
PEERDNS=yes
加粗部分是必须要有的,然后根据自己的实际情况对GATEWAY、HWADDR、IPADDR、NETMASK进行修改。
所有修改完成之后,重启网卡,出现一个问题,那就是nagios报警某台服务器宕机 (10.124.156.249),这台机器ping其他服务器报错:
connect: network is unreachable
于是排错,之前未修改配置文件之前是正常的,问题肯定出在配置文件上。但是查询多次都不能排除错误。最后经过对比
发现这台主机缺少一条默认路由。正常情况下网卡重启会自动将默认路由设置上的,但是这台服务器可能是由于网卡没有正常重启造成的。于是手动添加:
route add -net 0.0.0.0 gw 10.124.156.1 2015-1-12 nagios插件nrpe日志隔离,可以使nrpe日志写到指定文件里,避免messages里大量的nrpe日志信息影响排错信息。 vim /etc/xinetd.d/nrpe service nrpe { flags = REUSE socket_type = stream port = 5666 wait = no user = nagios group = nagios server =/usr/local/nagios//bin/nrpe server_args = -c/usr/local/nagios//etc/nrpe.cfg --inetd log_on_failure += USERID #将nrpe日志重定向到指定文件 disable = no only_from = 10.124.151.248 } 重启一下xinetd服务即可。 另外:如果不想要这么nrpe信息,因为没有啥实际需要,可以加黑信息修改如下: log_type = file /dev/null #重定向到空
备注:5分钟之后见效果 ^_^
2015-1-14
nagios监控某个主机(10.124.156.239)报下面的错误:
在网上检查,基本上都是说权限问题、脚本问题。但是我分析了一下我的实际情况,服务器的脚本是默认的,有几个自己添加的监控脚本能够正常工作,但是为什么自带的就不行呢?可以肯定不是权限的问题,当然也不是脚本的问题。所以我就仔细检查nrpe.cfg文件,发现出现下面的这个问题:
经过对比,默认的命令被系统给篡改。所以将上述红框里面的变量引用定义一下或者改成绝对路径就可以。Ok,问题解决了。
2015-1-26
多日以来,一直发现服务器再备份的时候出现系统报警的问题,还好一直没有出现什么故障。今天与同事交流问题,忽然发现,tar和gzip在备份的时候应该是一个进程才对,但为什么在执行计划任务的时候是多个进程呢?对于这个问题,我一直认为是单个进程派生多个进程所致,今天才知道,这是个错误。因为gzip和tar以及rsync都是单进程程序,是不会派生多进程。幸亏旁边的另一个同事提醒我,这个脚本是执行一次吗?如果只执行一次是不会出现多进程的问题的。于是我仔细检查了一下,问题出在计划任务。
我的计划任务是每天的六点定时执行一次,但是我却做成了 * 6 * * * sh XX.sh
这个脚本的意思不就是在每天六点的每分钟里都会执行一次吗?哎,真是粗心大意。仅于此坐下笔记以示警示!