开发者学堂课程【企业运维监控平台架构设计与实现:配置centreon监控系统】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/384/detail/4824
配置centreon监控系统
目录:
一. 前言
二. 配置centreon监控系统
三.Ganglia与Centreon的无缝整合
一. 前言
第一步:主机与主机组添加完成。将主机监控起来。
添加单独服务或添加主机组的服务。
命令分为多种类型,包括检查,通知,识别,杂项。
首先,添加检查命令。
check_ fp i ng
check_ Pgsq 1
[ root@locaThost P Tugins ]#
pwd
/usr/1 ib/nagios/p lugins
[ root@locaThost P Tugins ]# 1 1 check_ disk
一
rwxr-xr-x_ 1 nagios nagios 144525 Sep 17
2014
c
heck_ disk
[ root@ 1 oca Thost p lugins ] #
继续创建服务。
继续进入通知:
服务创建完毕。
随机进行用户设置:
联系人用户包括:
联系人用户
Contact Templates
联系人组
时间段
进行命令:
命令包括:
命令
检查
遇知
识别
杂项
配置完成,如何进行创建服务
——点击轮询窗口,点击运用设置。
二. 配置centreon监控系统
1、 配置一个主机/服务模块
2、 添加监控命令
3、 添加报警通知格式
4、 添加联系人和联系组
5、 添加主机/主机组
6.添加服务/服务组
7.导入配置,重启服务
三.Ganglia与Centreon的无缝整合
1.Nagios 和 Gangla 都是很好的数据中心监控工具,虽然它们的功能有重叠部分,但是两者对监控的侧重点并不相同: Ganglia 侧重于收集数据,并随时跟踪数据状态,
2.通过 Ganglia 不但可以看到数据的历史状态,也可以预计数据的未来发展趋势,为我们的应用程序修正和硬件采购提供决策。而 Nagios 更侧重与监控数据并进行过载报警,综合Ganglia 和Nagios的优缺点,同时运行这两个工具可以相互弥补它们的不足
3.Ganglia 暂时没有内置报警通知机制,而 Nagios 这方面是强项。
4.Nagios 没有内置代理和分布式监控机制,而 Ganglia 设计之初就考虑到了这些。
5.Nagios 没有直观的报表展示(虽然可通过PNP插件实现),而 Ganglia 报表功能很强大。Ganglia 内置了基于很多开发接口,通过这些接口,可以将 Ganglia 统计到的数据纳入 Nagios 监控之下。
确定了以 Ganglia 作为数据收集模块,Centreon 作为监控报警模块的方案,这样,一- 个智能监控报警平台两大主要功能模块已经基本实现了,但现在的问题是,如何将收集到的数据传送给监控报警模块呢,这就是数据抽取模块要完成的功能。
6.数据抽取模块要完成的功能是:从数据收集模块中定时采集指定的数据,然后将采集到的数据与指定的报警阀值进行比较,如果发现采集到的数据大于或小于指定的报警阀值,那么就通过监控报警模块设置的报警方式进行故障通知,这个过程,只有采集数据是在数据收集模块中完成,其他操作,
例如:采集数据时间间隔、报警阀值设置、报警方式设置、报警联系人设置等都在监控报警模块中完成。
7. 从数据抽取模块完成的功能可以看出.此模块主要用来衔接数据收集模块和监控报警模块,进而完成 Ganglia 和 Centreon 的无缝整合。
要实现数据抽取模块的功能,没有现成的方法可用,需要在 ganglia 基础上做二次开发,较简单的方法是在通过程序在 ganglia 上开发个 数据提取接口, 然后将数据抽取到 nagios 中,初步方案是通过 python 程序来实现。
8.当然也有现成的方案,推荐两个现成的数据提取脚本: Python 版本: http://www.ivey.com/ganglia/check ganglia metric.py.txt
Php版本:http://www.iivey.com/ganglia/check ganglia metric.php.txt
check_ fpi ng
check_ pgsq 1
[root@Tocalhost plugins]#_ 11 check
g
ang1ia_metriC.py
-rWxr-xr-x
root root 2857
Mar 30 18:16”check_
ganglia metric. Py
[ root@localhost plugins ]#. /check_ gang1 iametric. py
usage:. check_ ganglia metric -hI--host= -mI --metric= -wI --warning= -C I--cri tica 1=
[ rootaloca Thost p lugins ] # pwd
/usr/ 1 ib/ nagios/p Tugi ns
[root@locathost P lugins ]#
登录上一步所登录的网站平台,并点击命令:
命令中有:
检查与通知
通过变量进行定义
保存之后,仅实现命令的定义。重新建立服务。
点击进入:
拥有两台主机:
点击磁盘:
Disk free: 磁盘剩余空间
Disk toal: 磁盘总空间
Part-mark-used: 在某服务器上,某一磁盘所占用最大百分比。
重点:每个磁盘所占用的百分率为多少。
随后进行重启:
分辨多种状态
Last Togin: Thu Mar 31 20: 25814 2016 from 192.168.81.- 30
[ root@host236 ~]# /etc/ ini t. d/ gmond s tart
Starting GANGL 工A gmond:
[ root@host236 ~]# df -h
Filesystem Size Used Avai 1 Use% Mounted on
/dev/ sda6 18G 6.9G 10G 41% /
Tmpfs
750M
750M
0% /dev/ shm
/dev/sdal
190M
49M
132M
27%
boot
/dev/sda2
4.7G
3.5G 964M
79%/usr
/dev/sda5
2- 9G
2. OG
7 11M
7 5% /var
[root@host236 ~]#
显示相关数据
内部拥有很详细的过程:
如何添加服务:
[root@loca Thost p
]ugins
# /
check_ gang1 ia metri C- py
一
h 192.168.81.233一mdisk_free-w 1000 -C 2000
C HEC KGANGLIA OK :disk-free is 96.09
监控技能状态时:
通过第三方插件进入,以及phython即可进行报警操作。
通过扩展接口展示,相关属性值通过扩展接口,
加入ganglia ,phython脚本收集,即可报警。
[ root@host236 ~]# /etc/ini t. d/ gmond restart
shutting down GANGL Ia gmond:
Starting GANGLIA Gmond:
[ root@host236 ~]#
通过原始提供GARPE或ganglia实现:
check_ nrp e
[root@localhost plugins]# 1 1
tota1 36
rwxr-xr-x 1 nagios nagios 33692 Ju1 2 2013 Check nrpe
C root@loca Thos t plugins ] #