Zabbix分布式监控系统使用总结

简介:

    从接触和使用Zabbix已经有2年多的时间,刚开始接触也就是从Zabbix安装,使用和简单的维护开始学习。到后来涉及到如何添加监控主机?如何自定义监控项?如何设置报警阀值?等开始学习。
    有幸在2013年底从零开始研究和选型整个公司IDC监控系统。由于Zabbix简单易用和强大功能,决定用Zabbix做为公司的监控系统。整个公司有多个IDC机房,监控节点有700左右,采用Zabbix分布式来监控。
    现在Zabbix上线已经接近一年的时间,运行非常稳定,打开页面速率流畅。在这一年的多的时间里面,也发表了一系列文章,主要包括Zabbix监控和分布式部署和实施方案、Zabbix如何监控网络设备、Zabbix 后台数据操作和API等。希望对广大朋友所有帮助。
    1)Zabbix监控和分布式部署实施方案
    
http://sfzhang88.blog.51cto.com/4995876/1364399
    2)Zabbix分布式部署proxy实战
    
http://sfzhang88.blog.51cto.com/4995876/1529967
    3)Zabbix如何监控网络设备
    
http://sfzhang88.blog.51cto.com/4995876/1431623
    4)Zabbix如何监控Windows机器
    
http://sfzhang88.blog.51cto.com/4995876/1545761
    5)Zabbix通过Shell脚本监控HP服务器硬件信息
    
http://sfzhang88.blog.51cto.com/4995876/1413009
    6)Zabbix通过SNMP监控HP服务器硬件信息
    
http://sfzhang88.blog.51cto.com/4995876/1595211
    7)通过Zabbix全面监控NetScaler负载均衡设备
    
http://sfzhang88.blog.51cto.com/4995876/1651513
    8)Zabbix监控mysql数据库性能
    
http://sfzhang88.blog.51cto.com/4995876/1379859
    9)如何从Zabbix数据库中获取监控数据 
    
http://sfzhang88.blog.51cto.com/4995876/1558254
    10)Zabbix Python API 应用实战
   
 http://sfzhang88.blog.51cto.com/4995876/1552916

    做好监控系统,最重要的其实就是两点,首先是监控项目的设置。根据系统、业务设置最能代表监控项目的性能指标。其次是报警阈值的设置。根据业务指标设置精准的报警阈值。比如说监控Apache的httpd进程数监控,如果MaxClients设置200,那么当httpd进程在180的时候必须报警,如果在200的时候报警,此时由于httpd进程爆满已经打不开页面了或者打开网站的速度非常慢。

    下面是平时工作中总结的Zabbix报警阈值的设置,主要包括Linux系统、Windows系统、服务器硬件监控、网络设备和线路的监控的报警阈值的设置。

    1)Linux系统的报警阈值,这里增加了Linux僵尸进程的监控。

wKiom1XS1GzgXKOEAAPOQ175b4g376.jpg

    2)Windows系统的报警阈值,perf_counter是通过windows的性能计数器获取的数据。

wKiom1XS1IDwdHxSAAMGoF_Ihf8115.jpg

    3)SQLServer和IIS的报警阈值,其中perf_counter是通过windows的性能计数器获取的数据,Check_IIS_perf.sh是通过脚本以External check方式监控的。

wKiom1XS1I3jr6kDAAONCvAT918391.jpg

    4)HP硬件的监控,主要是通过SNMP协议和Zabbix discovery方式来监控。

wKioL1XS1qWjTe5xAAEc_8ao3ag665.jpg

    5)其它方面的监控,主要是应用程序的监控。

wKiom1XS1KTjGGy_AAvlJxB-Dtg815.jpg

    最后,发表此文章的主要目的是和广大朋友相互交流和相互学习,在一些自定义监控项目上面提供更多一点自己的想法和使用经验,如果在系统和应用的监控方面有更多好的想法,欢迎相互交流。











本文转自 sfzhang 51CTO博客,原文链接:http://blog.51cto.com/sfzhang88/1685537,如需转载请自行联系原作者

目录
相关文章
|
15天前
|
存储 运维 负载均衡
构建高可用性GraphRAG系统:分布式部署与容错机制
【10月更文挑战第28天】作为一名数据科学家和系统架构师,我在构建和维护大规模分布式系统方面有着丰富的经验。最近,我负责了一个基于GraphRAG(Graph Retrieval-Augmented Generation)模型的项目,该模型用于构建一个高可用性的问答系统。在这个过程中,我深刻体会到分布式部署和容错机制的重要性。本文将详细介绍如何在生产环境中构建一个高可用性的GraphRAG系统,包括分布式部署方案、负载均衡、故障检测与恢复机制等方面的内容。
68 4
构建高可用性GraphRAG系统:分布式部署与容错机制
|
15天前
|
SQL 监控 数据库
OceanBase社区版可以通过Zabbix监控
OceanBase社区版可以通过Zabbix监控
54 7
|
1月前
|
消息中间件 中间件 数据库
NServiceBus:打造企业级服务总线的利器——深度解析这一面向消息中间件如何革新分布式应用开发与提升系统可靠性
【10月更文挑战第9天】NServiceBus 是一个面向消息的中间件,专为构建分布式应用程序设计,特别适用于企业级服务总线(ESB)。它通过消息队列实现服务间的解耦,提高系统的可扩展性和容错性。在 .NET 生态中,NServiceBus 提供了强大的功能,支持多种传输方式如 RabbitMQ 和 Azure Service Bus。通过异步消息传递模式,各组件可以独立运作,即使某部分出现故障也不会影响整体系统。 示例代码展示了如何使用 NServiceBus 发送和接收消息,简化了系统的设计和维护。
47 3
|
1月前
|
消息中间件 存储 监控
消息队列系统中的确认机制在分布式系统中如何实现
消息队列系统中的确认机制在分布式系统中如何实现
|
1月前
|
SQL 监控 数据库
OceanBase社区版可以通过Zabbix监控
【10月更文挑战第5天】随着OceanBase社区版的广泛应用,企业纷纷采用这一高性能、高可用的分布式数据库系统。为了确保系统的稳定运行,使用成熟的Zabbix监控工具进行全面监控至关重要。本文通过具体示例介绍了如何配置Zabbix监控OceanBase,包括安装配置、创建监控模板和监控项、编写脚本、设置触发器及图形展示等步骤,帮助读者快速上手,及时发现并解决问题,确保业务始终处于最佳状态。
51 2
|
1月前
|
消息中间件 存储 监控
【10月更文挑战第2天】消息队列系统中的确认机制在分布式系统中如何实现
【10月更文挑战第2天】消息队列系统中的确认机制在分布式系统中如何实现
|
1月前
|
存储 开发框架 .NET
C#语言如何搭建分布式文件存储系统
C#语言如何搭建分布式文件存储系统
70 2
|
30天前
|
消息中间件 存储 监控
消息队列系统中的确认机制在分布式系统中如何实现?
消息队列系统中的确认机制在分布式系统中如何实现?
|
2月前
|
监控 关系型数据库 MySQL
zabbix agent集成percona监控MySQL的插件实战案例
这篇文章是关于如何使用Percona监控插件集成Zabbix agent来监控MySQL的实战案例。
55 2
zabbix agent集成percona监控MySQL的插件实战案例
|
2月前
|
存储 块存储
ceph分布式存储系统常见术语篇
关于Ceph分布式存储系统的常见术语解释和概述。
110 1
ceph分布式存储系统常见术语篇

推荐镜像

更多