【Python之旅】第八篇:开发监控软件的思想与流程-阿里云开发者社区

开发者社区> 香飘叶子> 正文

【Python之旅】第八篇:开发监控软件的思想与流程

简介:
+关注继续查看

 最近两周时间里,一直都在学习监控软件的开发,虽然是简版的,可是在这个过程当中,对于要开发一个监控软件的大概框架和流程还真的学习了很多东西,而且也想,这些知识实在是很难通过看文章或者是书籍能学习得到,只有自己亲自去实践过,我想才可以慢慢体会到这中间的不易吧。而通过这样一个过程,发现自己在这方面的思想枷锁也慢慢地打开,也才慢慢体会到那种乐趣吧。这里,真的是非常感谢Alex老师非常精彩的讲解。

    监控软件的大概流程如下:

wKiom1Yp8PfQJUByAAHkBZuaRZM867.jpg    当然,实际中学习的过程中并没有去监控MySQL或者是ngnix,而只是监控Linux服务器的CPU、内存、load的各项相关指标,不过我觉得这倒没什么问题,因为思想和框架出来了,后面要监控什么,自然而然也就很轻松了,把插件写好,然后添加到监控项里面去就OK了。

    我刚开始看到上面的监控软件示意图时,感觉应该也不会太难的,但当我跟着一步一步去做时,才实现这中间要考虑和解决的问题实在是太多太多,总结起来,要解决的问题,或者说基本的实现流程与思想,简单的总结可以如下:


对于客户端:

1.如何获得需要监控的指标项目

    例如如果我要监控的是CPU的情况,我该如何去获得CPU的相关指标信息,通过什么方式或者说什么命令,这一步实现之后,其实得到的就是一个监控CPU的插件,这个插件应该尽量独立,即不受其它程序的影响,与其它程序之间的耦合度要低,总之,这个插件的功能,就是可以得到我想要的监控指标信息。


2.如何处理获得的监控指标信息

    主要是指客户端对这些监控指标信息数据的处理,这里应该涉及到的问题,获得监控的指标信息后,应该是基于一个监控项目来保存,还是要基于一台被监控的主机来保存指标信息。比如我监控了一台主机的CPU、内存、load后,我是应该把这三者分别保存为三个数据结构,还是把这三者直接保存为一个数据结构?这就要看需求了,而基于CPU、内存、load的监控频率可以调整,考虑到软件以后的扩展性,应该要把三者获得的数据分开保存,用Python开发时,就可以把这三者保存到三个不同的字典中去了。因此,从这一步来看,这里重要的是要知道监控的频率从何而来,继续看下面的内容。


3.监控项目的配置信息获取方式

    比如我要监控CPU,具体我要监控CPU的什么信息,什么指标,如idle、nice等,我应该去哪里找这些配置信息?多长时间监控一次,即监控的频率是多少?有想法是可以直接在客户端上自己设置,但如果这样做的话,依然是考虑到软件的扩展问题,如果以后要监控的服务器主机很多,那不是要在每一台客户端主机上进行设置?既然是监控,那倒不如考虑在服务器端设置客户端的信息,即配置文件,然后可以由客户端直接从服务器端获取,这样当监控多台主机时,只要在服务器端进行相应的设置,客户端跑个客户端程序就可以了,集中、统一管理的思想由此而体现出来。但问题的关键是,这些配置信息,客户端怎么去服务器端取?


4.如何从服务器端获得监控项目的配置信息

    如果用的是3中的方法策略,那么客户端如何从服务器端去取?这时就可以借助Redis数据库的订阅服务功能了,基于Redis数据库的特性,只要在服务器端和客户端都安装并运行了Redis数据库,问题就很好解决了。当然,这里需要获取的重要配置信息应该是:这台主机监控的项目是什么?监控频率是多少?


5.通过什么方式将获取的监控信息发送给服务器端

    有了4的经验,那使用Redis的订阅服务那是最简单不过了。这时其实我们要采取的监控方式是被动监控方式,即服务器端不会主动向客户端获取监控信息,而是由客户端主动向服务器端发送监控信息,然后服务器端再根据已经设定好的监控策略来进行判断客户端主机是否出现异常,然后再实现报警功能。


对于服务器端:

    服务器端要考虑的则更多了,在这里,面向对象的编程思想就显得犹为重要了,当然,监控数据的接收与整理、处理、报警也不容易。


1.用面向对象的编程思想实现不同主机监控项目的模板定制

    客户端的监控配置信息都是从服务器端获得的,由于不同的客户端主机监控的项目、监控的频率都有可能不一样(这很正常,不同的服务器对于不同的性能指标要求都不一样),因此通过面向对象的编程思想,把每个监控项目的基本配置信息模板写好,基于这些模板,根据需要被监控的服务器主机的不同,定制不同的监控配置信息,然后保存到Redis数据库中,让客户端主机去取,这里对应客户端解决问题中的第3点。


2.监控数据如何接收与整理

    前面其实已经说过,依然是通过Redis数据库的订阅服务功能来进行接收,如果这个方式要改变,那么在客户端主机中也应该进行相应的更改,这里对应客户端解决问题中的第5点。这里,可以单独写一个程序来跑一个进程,把接收到的数据,根据后面处理数据时的需求,再添加相关的信息来重新整合接收到的监控数据,再保存到Redis数据库中去,再由监控数据处理程序去进行处理,即handle程序,之所以要这样做,是为了要降低程序之间的耦合度,以方便以后对监控软件进行功能上的扩展。


3.监控数据如何处理

    这里单独写一个程序跑一个进程,从Redis数据库中读取不同主机不同监控项目的监控信息,然后将这些监控信息与第1步定制的模板中的指标阀值进行比对(所以第一步写的内容信息不仅仅是监控项目配置信息模板,也应该还有不同指标和阀值的相关设定),如果发现有异常情况的,即将异常情况信息保存下来,写入到Redis数据库中,等待报警程序进行相关处理以实现报警功能,这样分开来做的目的依然是为了降低程序之间的耦合度。另外这里需要注意的是,监控数据的处理也应该是基于不同的监控项目的(对应客户端中的第2点),而不是基于不同的主机,因为不同的主机的不同监控项目的监控频率可以是不一样的。


4.如何进行报警

    这里也应该单独写一个程序来进行报警功能的实现,从Redis数据库中读取报警信息后,如何将这些信息进行报警,是直接在屏幕输出?还是邮件?还是短信?还是电话?以及将这些信息发给哪个相关负责人?基于上面的这些不同需求,要构思的应该又不少了。


    所以对于上面的一个流程的概述,可以更进一步总结如下:

客户端:读取监控配置信息-->开始监控-->获得监控数据-->发送给服务器端

服务器端:读取监控数据-->监控数据处理-->保存异常信息-->实施自动报警


知道监控软件的思想流程有何作用?

    不管怎么说,监控软件的大致开发过程或者说是开发的流程与思想应该是跟上面说的类似的,只是基于不同的功能、不同的需求、不同的方式,在实际开发的过程当中又有太多细节的不一样,总的来说,流程看起来不会太难,但具体到每一个细节的实施,需要花费的精力,我想是非常非常多的,而这,应该是需要一定的经验的。但无论如何,因为知道了大概的开发流程,并且自己动手实践过,所以以后在自己需要开发相关监控软件时,根据自己的需求,再按照上面的思想流程去做,我想,从最基本的开始做起,是一定可以开发出一套适合实际生产环境的监控软件的。



为什么要学习Python自动化运维开发?

    今年5月份,接手了学校600多台交换机的管理,发现对交换机的监控实在是太弱,600台交换机,上万的用户,竟只有一个只能通过屏幕界面来进行查看的监控平台,因此,更不用说自动报警功能了,迫于这种无奈,我上网找了很多相关的监控软件,要么都是收费的,要么是使用不了,要么就是操作起来非常非常复杂的,因此,很难下手。其实我的需求很简单,只是希望可以看到交换机有没有挂掉,然后如果挂掉了,可以给我打个信息或者打个电话,是这样一种轻量级的监控软件就好了。

    到了今年9月,实在是无奈,只能自己去学开发,那种求人不如求己的感觉越来越强烈。

    不管怎么说,在学习了这方面的知识后,发现其实要开发具有我上面所说功能的交换机功能的监控软件,在流程上面就要比前面说的那个要简单很多,所以我想,这是不难实现的。

    继续Python开发的学习,在后面学习了Web开发相关的知识后,我是希望通过自己的能力可以开发一个较为完善的基于自己实际需要的交换机监控系统。

    当然,以后要用Python做的事情,就真的是太多太多了。

    不管如何,往后要学习的知识或者说技术,真的是太多太多,希望自己不要放弃,继续努力下去吧!

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
PostgreSQL 10.1 手册_部分 III. 服务器管理_第 29 章 监控磁盘使用_29.1. 判断磁盘用量
29.1. 判断磁盘用量 每个表都有一个主要的堆磁盘文件,大多数数据都存储在其中。如果一个表有着可能会很宽(尺寸大)的列, 则另外还有一个TOAST文件与这个表相关联, 它用于存储因为太宽而不能存储在主表里面的值(参阅第 66.2 节)。
843 0
python os.startfile python实现双击运行程序 python监控windows程序 监控进程不在时重新启动
用python监控您的window服务 原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://world77.blog.51cto.com/414605/782935     最近比较烦,研发给的pc服务版本在虚拟机上已经开始给客户使用了,服务老是莫名的死翘翘,客户不停的电话给我,搞的我心情很差,于是在一个下午,静下心来,用python写了个简单的监控进程的脚本,当发现进程消失的时候,立即调用服务,开启服务。
1559 0
C#通过“委托和事件”的方式实现进程监控并与“普通方式”对比
今天重新学习了一下观察者模式,对我的思路产生了启发。进程监控程序之前写过几个,这回换一种思路,改用委托和事件来实现。我已经用序号将关键的几步标注,方便大家理顺思路。代码如下: using System; using System.
680 0
《团队软件过程(修订版)》—第1章1.4节TSPi的结构和流程
TSPi从团队制定开发策略开始。首先确定在第一个周期中要开发的最小合理产品,然后,估算在每个后续周期中要增加的产品功能的规模。这种方式基本可以保证你能完成最终产品的可运行的前期版本。
1113 0
Python WMI获取Windows系统信息 监控系统
1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 #http://www.cnblogs.com/liu-ke/ 4 import wmi 5 import os 6 import sys 7 import...
1009 0
木马频繁造假 伪装成多个安全软件钓鱼
拿到一个“半成品”样本,病毒在文件属性中假冒360安全卫士,但图标明显不对。   运行后,还会假冒毒霸的病毒警告:   这里看一下正常的毒霸实时监控发现病毒时的窗口:   伪造的还挺象那么回事儿,只是文字太多露出马脚。
594 0
+关注
110
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载