zabbix value map导致报警失效问题一例

简介:
今天一台线上的datanode挂了,但是没有zabbix agent unreachable的报警,不过幸好有host update percent的报警。看了下item和trigger的设置,item是zabbix内置的agent.ping,trigger设置是nodata(5m)=1,即5分钟获取不到agent.ping的值就会报警。。
 由于zabbix server log翻转的比较快,同时日志大小设置的为1g,所以出问题时候的日志没办法看了。。只能从数据库开始入手了。查看triggers表,可以看到value确实是1,functions表中的functin+parameter也是nodata+1m,证明是可以正确触发报警的。
1
2
3
4
5
6
7
8
9
10
11
12
select  triggerid,expression,description,value,from_unixtime(lastchange , '%Y%m%d %H:%i:%S' from  triggers  where  triggerid= '6347' ;
+ -----------+------------+----------------------------------------------------------+-------+----------------------------------------------+
| triggerid | expression | description                                              | value | from_unixtime(lastchange , '%Y%m%d %H:%i:%S' ) |
+ -----------+------------+----------------------------------------------------------+-------+----------------------------------------------+
|      6347 | {10832}=1  | Zabbix agent  on  {HOST. NAME is  unreachable for1  minutes |     1 | 20140312 11:47:31                            |
+ -----------+------------+----------------------------------------------------------+-------+----------------------------------------------+
select  from  functions  where   itemid= '27731' ;                
+ ------------+--------+-----------+----------+-----------+
| functionid | itemid | triggerid |  function  | parameter |
+ ------------+--------+-----------+----------+-----------+
|      10832 |  27731 |      6347 | nodata   | 1m        |
+ ------------+--------+-----------+----------+-----------+

查看alerts表中相关时间段的记录,可以看到确实有相关的记录,由于是用了zabbix 执行command的方式来实现报警,可以看到在message字段中存储的是当时报警是执行脚本的信息:

1
2
3
select  alertid,actionid,eventid,from_unixtime(clock, '%Y%m%d %H:%i:%S' ),message  from  alerts  where  message  like  'hostname%' ;
|  468566 |        5 | 3256580 | 20140312 09:04:02 | hostname:/apps/svr/zabbix_server/scripts/zabbix_exec_command.py ip  23500  "Agent ping"   hostname  agent.ping  Up (1)  PROBLEM                                            |
|  468567 |        5 | 3256580 | 20140312 09:06:03 | hostname:/apps/svr/zabbix_server/scripts/zabbix_exec_command.py ip  23500  "Agent ping"   hostname  agent.ping  Up (1)  PROBLEM
手动执行脚本,报错:
1
2
/ apps / svr / zabbix_server / scripts / zabbix_exec_command.py ip   27731  "Agent ping"   hostname agent.ping  Up ( 1 )  PROBLEM
   - bash: syntax error near unexpected token `('
脚本输入参数的顺序:ip,itemid,itemname,hostname,itemkey,itemvalue,triggerstatus,出问题的时itemvalue字段,因为没有用引号,导致脚本运行出错,fix下脚本就可以了。。。
不过,rc还没有找到,这个 Up (1) 是怎么来的呢?一般情况下数字型的item产生的itemvalue不会有这种值啊?
为了验证这个问题,手动stop掉一台机器zabbix_agentd进程,并查看zabbix server端的log:
发现在存储agent.ping类的item的值时,有如下操作,把1变成了UP(1)。
1
2
3
4
5009 : 20140312 : 113302.211  In zbx_format_value()
5009 : 20140312 : 113302.211  In replace_value_by_map() value: '1'  valuemapid: 10
5009 : 20140312 : 113302.211  query [txnlev: 1 ] [select newvalue  from  mappings where valuemapid = 10  and  value = '1' ]
5009 : 20140312 : 113302.211  End of replace_value_by_map() value: 'Up (1)'
说明还是和item的设置有关,再来看agent.ping的设置,在show value设置中,可以看到并不是as is,而是设置的zabbix agent ping status,这里面就是1->up的map:
wKiom1MgbG2x14iMAACcBJE2ZHg477.jpg

再来看zabbix的doc中关于map value的描述,其实是为了返回更易理解的值:
For a more “human” representation of received values, you can use value maps that contain the mapping between numeric values and string representations.
rc找到了,把show value改成as is就ok了。
小结:
1.日志+数据库是解决zabbix问题的利器。
2.有时候需要设置多种报警方式,比如在这个例子中,由于有zabbix host update percent的报警,发现了这个问题。


本文转自菜菜光 51CTO博客,原文链接:http://blog.51cto.com/caiguangguang/1374374,如需转载请自行联系原作者
相关文章
|
8月前
|
监控
zabbix设置邮件报警
zabbix设置邮件报警
|
22天前
|
监控 前端开发
Zabbix使用外部邮箱服务器发送邮件报警
Zabbix使用外部邮箱服务器发送邮件报警
|
22天前
|
监控 关系型数据库 应用服务中间件
zabbix自定义监控、钉钉、邮箱报警
zabbix自定义监控、钉钉、邮箱报警,实验准备,安装,添加监控对象,添加自定义监控项,监控mariadb,监控NGINX,钉钉报警设置,邮件报警
160 0
|
10月前
|
运维 监控 小程序
【运维知识进阶篇】zabbix5.0稳定版详解2(自定义监控+报警+图形+模板)(三)
【运维知识进阶篇】zabbix5.0稳定版详解2(自定义监控+报警+图形+模板)(三)
56 0
|
10月前
|
运维 监控 测试技术
【运维知识进阶篇】zabbix5.0稳定版详解2(自定义监控+报警+图形+模板)(二)
【运维知识进阶篇】zabbix5.0稳定版详解2(自定义监控+报警+图形+模板)(二)
88 0
|
10月前
|
运维 监控 网络协议
【运维知识进阶篇】zabbix5.0稳定版详解2(自定义监控+报警+图形+模板)(一)
【运维知识进阶篇】zabbix5.0稳定版详解2(自定义监控+报警+图形+模板)
131 0
|
11月前
|
监控 机器人 Python
Zabbix-实现钉钉群报警
Zabbix-实现钉钉群报警
176 0
|
11月前
|
运维 监控 机器人
zabbix实现多个钉钉群报警
zabbix实现多个钉钉群报警
|
12月前
|
监控 机器人 Shell
zabbix邮件报警
zabbix邮件报警
130 0
|
12月前
|
监控 安全 前端开发
zabbix数据库分离和邮件报警
zabbix数据库分离和邮件报警
82 0