分布式统一监控系统架构图与设计思路
目录:
一、问题解答
二、分布式统一系统
三、统一监控系统架构图
四、设计思路
一、问题解答
1.Ganglia与zbase进行对比?
1)、它们的机制上区别不大。
2)、监控的服务器应用不多就使用zbase,部署来说相对简单,当服务器多,zbase扩展比较麻烦,性能较低。
3)、如果服务器低于一千台可以选择使用zbase,若服务器超过一千台,推荐使用centreon+ganglia,他的扩展性高,但是部署步骤很麻烦。
2.两万八千台服务器使用zbase性能如何?
通过测试一千台服务器会报警,报警有延时,并且延时非常大,且负载很高,对一个监控来说,报警的实时性要求很高,若延时很高就失去了报警的意义。
3.ganglia的好处
Ganglia的好处在于前端更新能在10秒之内把更新返回到服务器,可以及时处理问题,处理问题的时间间隔非常短,若服务器很多,可以通过多种方式,不一定要采用那个软件,若一个机制非常成熟的话,他会集成多个开源软件。
4.ganglia数据汇总
Ganglia天生可以实现数据汇总
图示指标不需要添加任何东西,但在zbase中需要添加第三方工具来实现。所以说每个软件都有它的优缺点。具体怎么去选择使用,还是要综合的去选择。去用它的优点然后屏蔽它的缺点就可以了。
5.关于报警
原来我们是有短信网关,或者是报警接口,但是事实上来说,短信报警对运维人员意义不大,移动端的发展可以使用网易邮箱实时,可以看到更加详细的信息,完全可以抛弃短信报警,当然,确实想用短信报警也没问题,支持多个手机运营商,注册好会发邮件,139发的邮件多会有延迟,但一封两封不会有延迟。变相实现短信报警非常方便。
6.预发布环境和真实环境的差距?
预发布环境和真实环境没有实质性差别,而预发布环境没有线上业务,部署结构上和真实环境一模一样的。
二、分布式统一系统
监控数据和报表通过web方式展示出来,将Nagios和Ganglia的web进行集合,并作二次开发,通过一个统一的界面展示监控状态和报表信息。
三、统一监控系统架构图
四、设计思路
1.Cluster1-n均为一个分布式集群,也可以认为是一个机房数据中心。每个数据中心的node server都运行一个gmond守护进程,进行数据收集,将收集到的数据汇总到ganglia proxy主机,ganglia proxy主机上运行着gmetad守护进程。
同时ganglia proxy和node server都加载通过c或者python编写的ganglia插件,扩展ganglia监控功能(Python 编译升级方式:用源码方法升级)。
2.managerserver是一个管理主机,主要用于收集从各个机房数据中心的监控数据,通过数据抽取模块将nagios和ganglia整合到一起,考虑到数据的安全性,manager server建议做一个备机,主机和备机一起工作时,进行数据收集,主机故障时,自动切换到备机,保证管理主机可用。
3.监控数据和报表通过web方式展示出来,将Nagios和Ganglia的web进行整合,并做二次开发,通过一个统一的界面展示监控状态和报表信息。
优缺点:
服务器如果1000台以内就采用zbase,超过1000台报警就会有延迟
Ganglia系统可以自动实现数据汇总。