Zabbix企业应用之服务器硬件信息监控

简介:

之前介绍的Zabbix监控都是属于监控服务方面,现在介绍一下Zabbix监控服务器硬件信息的。

由于我公司服务器都是使用Dell(我公司是手游方面,服务器全部是Dell),服务器型号有r410、r420、r710、r720,系统有Centos 5.x、Centos 6.x 、Redhat 5.x、Redhat 6.x、Ubuntu 12.04、Ubuntu 12.04.4等版本,对于硬件监控,我测试过Ipmi、Megacli、Smart等,但这些监控软件的监控内容都比较少,没有通用的那种,最后找到了Dell专门的Omsa,满足了我的需求,下面就介绍一下使用Omsa来监控Dell服务器的硬件信息。

目前我监控以下的硬件信息:

1、cpu处理器状态

2、cpu省电模式状态(如果开启了省电模式,在压力大的时候,会很卡的)

3、raid状态(比如做了哪个raid模式,raid状态是否正常)

4、内存状态(可以查看当前服务器最大支持多少内存,当前多少内存,如果内存有问题,可以显示哪个位置内存故障)

5、机器温度状态(监控机器的温度是否超过阀值)

6、物理硬盘状态(监控物理硬盘是否有故障)

7、电源状态(是单电还是双电,是否有故障)

8、系统面板CMOS电池(cmos电池是否有故障)

9、网卡状态(当前的网卡数量,以及网卡是否有问题)

10、风扇(当前的风扇数量,以及是否有故障)

默认是cpu省电模式监控关闭报警,其他的监控都是15分钟监控一次,如果连续2次都有问题则报警通知。

下面是监控图

1、硬件正常的服务器监控截图

wKioL1NdxYuAFlirAAQxcbtC95U846.jpg

2、部分硬件不正常的监控图

wKiom1NdxmOSUNQSAARq-q-aIyU215.jpg

可以看到此服务器的cpu开启了省电模式,并且内存条有问题

经过命令行查看,发现有问题的内存条是第一个插槽

wKioL1NdxmbyfKYWAADg1vjYLso218.jpg

下面是安装方法:

一、客户端

A.在redhat或者centos系统里安装

1、安装dell的yum源


wget -q -O - http://linux.dell.com/repo/hardware/latest/bootstrap.cgi | bash


2、安装omsa


yum install srvadmin-all


3、做软连接


ln -s /opt/dell/srvadmin/sbin/omreport /usr/bin/omreport ln -s /opt/dell/srvadmin/sbin/omconfig /usr/bin/omconfig


4、关闭web模式(仅允许运行cli)


echo "/usr/bin/omconfig system webserver action=stop" >>/opt/dell/srvadmin/sbin/srvadmin-services.sh


5、启动omsa


/opt/dell/srvadmin/sbin/srvadmin-services.sh start


6、把omsa加入到开机启动里


echo "/opt/dell/srvadmin/sbin/srvadmin-services.sh start">>/etc/rc.local


以上是在centos或者redhat系统里安装omsa。

B.下面是在ubuntu下的安装

1、增加源


echo 'deb http://linux.dell.com/repo/community/ubuntu precise openmanage' | sudo tee -a /etc/apt/sources.list.d/linux.dell.com.sources.list


2、检测与增加key

gpg --keyserver pool.sks-keyservers.net --recv-key 1285491434D8786F gpg -a --export 1285491434D8786F | sudo apt-key add -


 


3、更新源


apt-get update -y


4、安装omsa


apt-get install srvadmin-all -y


5、做软连接


ln -s /opt/dell/srvadmin/sbin/omreport /usr/bin/omreport ln -s /opt/dell/srvadmin/sbin/omconfig /usr/bin/omconfig


6、启动cli模式omsa


service dataeng start


C.zabbix客户端的配置

1、下面是在zabbix_agentd.conf里配置

#follow is monitor hardware 
UserParameter=hardware_battery,omreport chassis batteries|awk'/^Status/{if($NF=="Ok") {print 1} else {print 0}}' 
UserParameter=hardware_cpu_model,awk-vhardware_cpu_crontol=`sudoomreport chassis biossetup|awk'/C State/{if($NF=="Enabled") {print 0} else {print 1}}'` -vhardware_cpu_c1=`sudoomreport chassis biossetup|awk'/C1[-|E]/{if($NF=="Enabled") {print 0} else {print 1}}'` 'BEGIN{if(hardware_cpu_crontol==0 && hardware_cpu_c1==0) {print 0} else {print 1}}' 
UserParameter=hardware_fan_health,awk-vhardware_fan_number=`omreport chassis fans|grep-c "^Index"` -vhardware_fan=`omreport chassis fans|awk'/^Status/{if($NF=="Ok") count+=1}END{print count}'` 'BEGIN{if(hardware_fan_number==hardware_fan) {print 1} else {print 0}}' 
UserParameter=hardware_memory_health,awk-vhardware_memory=`omreport chassis memory|awk'/^Health/{print $NF}'` 'BEGIN{if(hardware_memory=="Ok") {print 1} else {print 0}}' 
UserParameter=hardware_nic_health,awk-vhardware_nic_number=`omreport chassis nics |grep-c "Interface Name"` -vhardware_nic=`omreport chassis nics |awk'/^Connection Status/{print $NF}'|wc-l` 'BEGIN{if(hardware_nic_number==hardware_nic) {print 1} else {print 0}}' 
UserParameter=hardware_cpu,omreport chassis processors|awk'/^Health/{if($NF=="Ok") {print 1} else {print 0}}' 
UserParameter=hardware_power_health,awk-vhardware_power_number=`omreport chassis pwrsupplies|grep-c "Index"` -vhardware_power=`omreport chassis pwrsupplies|awk'/^Status/{if($NF=="Ok") count+=1}END{print count}'` 'BEGIN{if(hardware_power_number==hardware_power) {print 1} else {print 0}}' 
UserParameter=hardware_temp,omreport chassis temps|awk'/^Status/{if($NF=="Ok") {print 1} else {print 0}}'|head-n 1 
UserParameter=hardware_physics_health,awk-vhardware_physics_disk_number=`omreport storage pdisk controller=0|grep-c "^ID"` -vhardware_physics_disk=`omreport storage pdisk controller=0|awk'/^Status/{if($NF=="Ok") count+=1}END{print count}'` 'BEGIN{if(hardware_physics_disk_number==hardware_physics_disk) {print 1} else {print 0}}' 
UserParameter=hardware_virtual_health,awk-vhardware_virtual_disk_number=`omreport storage vdisk controller=0|grep-c "^ID"` -vhardware_virtual_disk=`omreport storage vdisk controller=0|awk'/^Status/{if($NF=="Ok") count+=1}END{print count}'` 'BEGIN{if(hardware_virtual_disk_number==hardware_virtual_disk) {print 1} else {print 0}}'


2、重启zabbix_agentd服务


ps-ef|grepzabbix|grep-vgrep|awk'{print $2}'|xargskill-9 /usr/local/zabbix/sbin/zabbix_agentd-c /usr/local/zabbix/conf/zabbix_agentd.conf


如果需要在其他系统里安装,请参看官方wiki,地址是http://linux.dell.com/wiki/index.php/Repository/hardware

二、服务端

1、模板导入

把Template Hardware Monitor导入到zabbix里(模板在附件),具体操作不介绍。

2、主机关联模板

把需要监控的硬件服务器关联此模板即可

     本文转自yzy121403725 51CTO博客,原文链接:http://blog.51cto.com/lookingdream/1857357,如需转载请自行联系原作者



相关文章
|
26天前
|
存储 安全 数据挖掘
服务器数据恢复—异常断电导致EVA存储中RAID信息丢失的数据恢复案例
意外断电导致raid硬件损坏或者riad管理信息丢失等raid模块损坏而导致数据丢失的情况非常普遍。正常情况下,磁盘阵列一旦创建完成就不会再对管理模块中的信息进行更改,但是raid管理模块中的信息属于可修改信息,一次或多次的意外断电可能会导致这部分信息被篡改或丢失。断电次数过多甚至会导致raid卡上的元器损坏。
|
15天前
|
监控
查看服务器/IIS日志、log、访问信息基本方法
除了手动查看,你也可以使用日志分析工具,如Log Parser、AWStats等,这些工具可以帮助你更方便地分析日志数据。
8 1
|
1月前
|
监控 数据库 Docker
Zabbix监控神通数据库教程
**摘要:** 本文介绍了如何使用Docker安装和配置神舟通用数据库,并利用Zabbix进行监控。首先,通过Docker安装数据库镜像,启动容器并映射端口。接着,使用默认凭证连接数据库并验证安装。然后,将数据库的Python模块和库文件复制到主机,并安装Python3.5及相应模块,创建外部检查脚本以实现Zabbix的监控功能。示例展示了查询数据库版本的监控指标配置。最后,提到了监控结果的界面展示,并邀请读者探索更多Zabbix监控技巧。
30 0
Zabbix监控神通数据库教程
|
2月前
|
运维 Linux 程序员
最全查看Linux系统状态脚本_linux查询所有服务器信息的脚本,墙都不扶就服你
最全查看Linux系统状态脚本_linux查询所有服务器信息的脚本,墙都不扶就服你
最全查看Linux系统状态脚本_linux查询所有服务器信息的脚本,墙都不扶就服你
|
24天前
|
监控 关系型数据库 应用服务中间件
Linux zabbix监控 软件的安装
Linux zabbix监控 软件的安装
|
2月前
|
弹性计算 监控 安全
【阿里云弹性计算】ECS实例监控与告警系统构建:利用阿里云监控服务保障稳定性
【5月更文挑战第23天】在数字化时代,阿里云弹性计算服务(ECS)为业务连续性提供保障。通过阿里云监控服务,用户可实时监控ECS实例的CPU、内存、磁盘I/O和网络流量等指标。启用监控,创建自定义视图集中显示关键指标,并设置告警规则(如CPU使用率超80%),结合多种通知方式确保及时响应。定期维护和优化告警策略,利用健康诊断工具,能提升服务高可用性和稳定性,确保云服务的卓越性能。
120 1
|
2月前
|
SQL 存储 数据库
两个Python脚本轻松解决ETL工作:统计多个服务器下所有数据表信息
两个Python脚本轻松解决ETL工作:统计多个服务器下所有数据表信息
|
2月前
|
运维 监控 Linux
提升系统稳定性:Linux服务器性能监控与故障排查实践深入理解与实践:持续集成在软件测试中的应用
【5月更文挑战第27天】在互联网服务日益增长的今天,保障Linux服务器的性能和稳定性对于企业运维至关重要。本文将详细探讨Linux服务器性能监控的工具选择、故障排查流程以及优化策略,旨在帮助运维人员快速定位问题并提升系统的整体运行效率。通过实际案例分析,我们将展示如何利用系统资源监控、日志分析和性能调优等手段,有效预防和解决服务器性能瓶颈。
|
2月前
|
网络协议 Python
在python中利用TCP协议编写简单网络通信程序,要求服务器端和客户端进行信息互传。 - 蓝易云
在这个示例中,服务器端创建一个socket并监听本地的12345端口。当客户端连接后,服务器发送一条欢迎消息,然后关闭连接。客户端创建一个socket,连接到服务器,接收消息,然后关闭连接。
85 0
|
2月前
|
SQL 存储 数据库
两个Python脚本轻松解决ETL工作:统计多个服务器下所有数据表信息(1)
两个Python脚本轻松解决ETL工作:统计多个服务器下所有数据表信息(1)

推荐镜像

更多