今天一台线上的datanode挂了,但是没有zabbix agent unreachable的报警,不过幸好有host update percent的报警。看了下item和trigger的设置,item是zabbix内置的agent.ping,trigger设置是nodata(5m)=1,即5分钟获取不到agent.ping的值就会报警。。
由于zabbix server log翻转的比较快,同时日志大小设置的为1g,所以出问题时候的日志没办法看了。。只能从数据库开始入手了。查看triggers表,可以看到value确实是1,functions表中的functin+parameter也是nodata+1m,证明是可以正确触发报警的。
1
2
3
4
5
6
7
8
9
10
11
12
|
select
triggerid,expression,description,value,from_unixtime(lastchange ,
'%Y%m%d %H:%i:%S'
)
from
triggers
where
triggerid=
'6347'
;
+
-----------+------------+----------------------------------------------------------+-------+----------------------------------------------+
| triggerid | expression | description | value | from_unixtime(lastchange ,
'%Y%m%d %H:%i:%S'
) |
+
-----------+------------+----------------------------------------------------------+-------+----------------------------------------------+
| 6347 | {10832}=1 | Zabbix agent
on
{HOST.
NAME
}
is
unreachable for1 minutes | 1 | 20140312 11:47:31 |
+
-----------+------------+----------------------------------------------------------+-------+----------------------------------------------+
select
*
from
functions
where
itemid=
'27731'
;
+
------------+--------+-----------+----------+-----------+
| functionid | itemid | triggerid |
function
| parameter |
+
------------+--------+-----------+----------+-----------+
| 10832 | 27731 | 6347 | nodata | 1m |
+
------------+--------+-----------+----------+-----------+
|
查看alerts表中相关时间段的记录,可以看到确实有相关的记录,由于是用了zabbix 执行command的方式来实现报警,可以看到在message字段中存储的是当时报警是执行脚本的信息:
1
2
3
|
select
alertid,actionid,eventid,from_unixtime(clock,
'%Y%m%d %H:%i:%S'
),message
from
alerts
where
message
like
'hostname%'
;
| 468566 | 5 | 3256580 | 20140312 09:04:02 | hostname:/apps/svr/zabbix_server/scripts/zabbix_exec_command.py ip 23500
"Agent ping"
hostname agent.ping Up (1) PROBLEM |
| 468567 | 5 | 3256580 | 20140312 09:06:03 | hostname:/apps/svr/zabbix_server/scripts/zabbix_exec_command.py ip 23500
"Agent ping"
hostname agent.ping Up (1) PROBLEM
|
手动执行脚本,报错:
1
2
|
/
apps
/
svr
/
zabbix_server
/
scripts
/
zabbix_exec_command.py ip
27731
"Agent ping"
hostname agent.ping Up (
1
) PROBLEM
-
bash: syntax error near unexpected token `('
|
不过,rc还没有找到,这个
Up (1) 是怎么来的呢?一般情况下数字型的item产生的itemvalue不会有这种值啊?
为了验证这个问题,手动stop掉一台机器zabbix_agentd进程,并查看zabbix server端的log:
发现在存储agent.ping类的item的值时,有如下操作,把1变成了UP(1)。
1
2
3
4
|
5009
:
20140312
:
113302.211
In zbx_format_value()
5009
:
20140312
:
113302.211
In replace_value_by_map() value:
'1'
valuemapid:
10
5009
:
20140312
:
113302.211
query [txnlev:
1
] [select newvalue
from
mappings where valuemapid
=
10
and
value
=
'1'
]
5009
:
20140312
:
113302.211
End of replace_value_by_map() value:
'Up (1)'
|
说明还是和item的设置有关,再来看agent.ping的设置,在show value设置中,可以看到并不是as is,而是设置的zabbix agent ping status,这里面就是1->up的map:
再来看zabbix的doc中关于map value的描述,其实是为了返回更易理解的值:
For a more “human” representation of received values, you can use value maps that contain the mapping between numeric values and string representations.
rc找到了,把show value改成as is就ok了。
小结:
1.日志+数据库是解决zabbix问题的利器。
2.有时候需要设置多种报警方式,比如在这个例子中,由于有zabbix host update percent的报警,发现了这个问题。
本文转自菜菜光 51CTO博客,原文链接:http://blog.51cto.com/caiguangguang/1374374,如需转载请自行联系原作者