【Python之旅】第八篇:开发监控软件的思想与流程

本文涉及的产品
云数据库 Redis 版,社区版 2GB
推荐场景:
搭建游戏排行榜
简介:

    最近两周时间里,一直都在学习监控软件的开发,虽然是简版的,可是在这个过程当中,对于要开发一个监控软件的大概框架和流程还真的学习了很多东西,而且也想,这些知识实在是很难通过看文章或者是书籍能学习得到,只有自己亲自去实践过,我想才可以慢慢体会到这中间的不易吧。而通过这样一个过程,发现自己在这方面的思想枷锁也慢慢地打开,也才慢慢体会到那种乐趣吧。这里,真的是非常感谢Alex老师非常精彩的讲解。

    监控软件的大概流程如下:

wKiom1Yp8PfQJUByAAHkBZuaRZM867.jpg    当然,实际中学习的过程中并没有去监控MySQL或者是ngnix,而只是监控Linux服务器的CPU、内存、load的各项相关指标,不过我觉得这倒没什么问题,因为思想和框架出来了,后面要监控什么,自然而然也就很轻松了,把插件写好,然后添加到监控项里面去就OK了。

    我刚开始看到上面的监控软件示意图时,感觉应该也不会太难的,但当我跟着一步一步去做时,才实现这中间要考虑和解决的问题实在是太多太多,总结起来,要解决的问题,或者说基本的实现流程与思想,简单的总结可以如下:


对于客户端:

1.如何获得需要监控的指标项目

    例如如果我要监控的是CPU的情况,我该如何去获得CPU的相关指标信息,通过什么方式或者说什么命令,这一步实现之后,其实得到的就是一个监控CPU的插件,这个插件应该尽量独立,即不受其它程序的影响,与其它程序之间的耦合度要低,总之,这个插件的功能,就是可以得到我想要的监控指标信息。


2.如何处理获得的监控指标信息

    主要是指客户端对这些监控指标信息数据的处理,这里应该涉及到的问题,获得监控的指标信息后,应该是基于一个监控项目来保存,还是要基于一台被监控的主机来保存指标信息。比如我监控了一台主机的CPU、内存、load后,我是应该把这三者分别保存为三个数据结构,还是把这三者直接保存为一个数据结构?这就要看需求了,而基于CPU、内存、load的监控频率可以调整,考虑到软件以后的扩展性,应该要把三者获得的数据分开保存,用Python开发时,就可以把这三者保存到三个不同的字典中去了。因此,从这一步来看,这里重要的是要知道监控的频率从何而来,继续看下面的内容。


3.监控项目的配置信息获取方式

    比如我要监控CPU,具体我要监控CPU的什么信息,什么指标,如idle、nice等,我应该去哪里找这些配置信息?多长时间监控一次,即监控的频率是多少?有想法是可以直接在客户端上自己设置,但如果这样做的话,依然是考虑到软件的扩展问题,如果以后要监控的服务器主机很多,那不是要在每一台客户端主机上进行设置?既然是监控,那倒不如考虑在服务器端设置客户端的信息,即配置文件,然后可以由客户端直接从服务器端获取,这样当监控多台主机时,只要在服务器端进行相应的设置,客户端跑个客户端程序就可以了,集中、统一管理的思想由此而体现出来。但问题的关键是,这些配置信息,客户端怎么去服务器端取?


4.如何从服务器端获得监控项目的配置信息

    如果用的是3中的方法策略,那么客户端如何从服务器端去取?这时就可以借助Redis数据库的订阅服务功能了,基于Redis数据库的特性,只要在服务器端和客户端都安装并运行了Redis数据库,问题就很好解决了。当然,这里需要获取的重要配置信息应该是:这台主机监控的项目是什么?监控频率是多少?


5.通过什么方式将获取的监控信息发送给服务器端

    有了4的经验,那使用Redis的订阅服务那是最简单不过了。这时其实我们要采取的监控方式是被动监控方式,即服务器端不会主动向客户端获取监控信息,而是由客户端主动向服务器端发送监控信息,然后服务器端再根据已经设定好的监控策略来进行判断客户端主机是否出现异常,然后再实现报警功能。


对于服务器端:

    服务器端要考虑的则更多了,在这里,面向对象的编程思想就显得犹为重要了,当然,监控数据的接收与整理、处理、报警也不容易。


1.用面向对象的编程思想实现不同主机监控项目的模板定制

    客户端的监控配置信息都是从服务器端获得的,由于不同的客户端主机监控的项目、监控的频率都有可能不一样(这很正常,不同的服务器对于不同的性能指标要求都不一样),因此通过面向对象的编程思想,把每个监控项目的基本配置信息模板写好,基于这些模板,根据需要被监控的服务器主机的不同,定制不同的监控配置信息,然后保存到Redis数据库中,让客户端主机去取,这里对应客户端解决问题中的第3点。


2.监控数据如何接收与整理

    前面其实已经说过,依然是通过Redis数据库的订阅服务功能来进行接收,如果这个方式要改变,那么在客户端主机中也应该进行相应的更改,这里对应客户端解决问题中的第5点。这里,可以单独写一个程序来跑一个进程,把接收到的数据,根据后面处理数据时的需求,再添加相关的信息来重新整合接收到的监控数据,再保存到Redis数据库中去,再由监控数据处理程序去进行处理,即handle程序,之所以要这样做,是为了要降低程序之间的耦合度,以方便以后对监控软件进行功能上的扩展。


3.监控数据如何处理

    这里单独写一个程序跑一个进程,从Redis数据库中读取不同主机不同监控项目的监控信息,然后将这些监控信息与第1步定制的模板中的指标阀值进行比对(所以第一步写的内容信息不仅仅是监控项目配置信息模板,也应该还有不同指标和阀值的相关设定),如果发现有异常情况的,即将异常情况信息保存下来,写入到Redis数据库中,等待报警程序进行相关处理以实现报警功能,这样分开来做的目的依然是为了降低程序之间的耦合度。另外这里需要注意的是,监控数据的处理也应该是基于不同的监控项目的(对应客户端中的第2点),而不是基于不同的主机,因为不同的主机的不同监控项目的监控频率可以是不一样的。


4.如何进行报警

    这里也应该单独写一个程序来进行报警功能的实现,从Redis数据库中读取报警信息后,如何将这些信息进行报警,是直接在屏幕输出?还是邮件?还是短信?还是电话?以及将这些信息发给哪个相关负责人?基于上面的这些不同需求,要构思的应该又不少了。


    所以对于上面的一个流程的概述,可以更进一步总结如下:

客户端:读取监控配置信息-->开始监控-->获得监控数据-->发送给服务器端

服务器端:读取监控数据-->监控数据处理-->保存异常信息-->实施自动报警


知道监控软件的思想流程有何作用?

    不管怎么说,监控软件的大致开发过程或者说是开发的流程与思想应该是跟上面说的类似的,只是基于不同的功能、不同的需求、不同的方式,在实际开发的过程当中又有太多细节的不一样,总的来说,流程看起来不会太难,但具体到每一个细节的实施,需要花费的精力,我想是非常非常多的,而这,应该是需要一定的经验的。但无论如何,因为知道了大概的开发流程,并且自己动手实践过,所以以后在自己需要开发相关监控软件时,根据自己的需求,再按照上面的思想流程去做,我想,从最基本的开始做起,是一定可以开发出一套适合实际生产环境的监控软件的。



为什么要学习Python自动化运维开发?

    今年5月份,接手了学校600多台交换机的管理,发现对交换机的监控实在是太弱,600台交换机,上万的用户,竟只有一个只能通过屏幕界面来进行查看的监控平台,因此,更不用说自动报警功能了,迫于这种无奈,我上网找了很多相关的监控软件,要么都是收费的,要么是使用不了,要么就是操作起来非常非常复杂的,因此,很难下手。其实我的需求很简单,只是希望可以看到交换机有没有挂掉,然后如果挂掉了,可以给我打个信息或者打个电话,是这样一种轻量级的监控软件就好了。

    到了今年9月,实在是无奈,只能自己去学开发,那种求人不如求己的感觉越来越强烈。

    不管怎么说,在学习了这方面的知识后,发现其实要开发具有我上面所说功能的交换机功能的监控软件,在流程上面就要比前面说的那个要简单很多,所以我想,这是不难实现的。

    继续Python开发的学习,在后面学习了Web开发相关的知识后,我是希望通过自己的能力可以开发一个较为完善的基于自己实际需要的交换机监控系统。

    当然,以后要用Python做的事情,就真的是太多太多了。

    不管如何,往后要学习的知识或者说技术,真的是太多太多,希望自己不要放弃,继续努力下去吧!




本文转自 xpleaf 51CTO博客,原文链接:http://blog.51cto.com/xpleaf/1705623,如需转载请自行联系原作者

相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore     ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
1天前
|
Python
LabVIEW和Python开发微细车削控制系统
LabVIEW和Python开发微细车削控制系统
LabVIEW和Python开发微细车削控制系统
|
1天前
|
设计模式 开发框架 数据库
Python Web开发主要常用的框架
Python Web开发框架包括Django、Flask、Tornado和Pyramid。Django适用于复杂应用,提供ORM、模板引擎等全套功能;Flask轻量级,易于扩展,适合小型至中型项目;Tornado擅长处理高并发,支持异步和WebSockets;Pyramid灵活强大,可适配多种数据库和模板引擎,适用于各种规模项目。选择框架需依据项目需求和技术栈。
8 2
|
1天前
|
安全 测试技术 持续交付
在Python Web开发中,测试是一个至关重要的环节
【5月更文挑战第12天】在Python Web开发中,测试至关重要,包括单元测试(unittest模块)、集成测试、功能测试、系统测试、验收测试、性能测试、安全测试和端到端测试。常用的测试工具有unittest、pytest、selenium、requests和coverage。遵循“测试先行”和“持续集成”原则,确保代码质量与稳定性。
8 3
|
2天前
|
JSON 监控 调度
局域网管理软件的自动化任务调度:Python 中的 APScheduler 库的应用
使用 Python 的 APScheduler 库可简化局域网管理中的自动化任务调度。APScheduler 是一个轻量级定时任务调度库,支持多种触发方式如间隔、时间、日期和 Cron 表达式。示例代码展示了如何创建每 10 秒执行一次的定时任务。在局域网管理场景中,可以利用 APScheduler 定期监控设备状态,当设备离线时自动提交数据到网站,提升管理效率。
14 0
|
2天前
|
存储 C++ Python
LabVIEW使用Python MathWorks® MATLAB®软件和C/C++
LabVIEW使用Python MathWorks® MATLAB®软件和C/C++
|
5天前
|
存储 程序员 API
python web开发示例详解
python web开发示例详解
13 0
|
7天前
|
运维 监控 Ubuntu
Python实现ubuntu系统进程内存监控
Python实现ubuntu系统进程内存监控
12 1
|
7天前
|
机器学习/深度学习 编解码 监控
利用Python实现监控视频的超分辨率提升
利用Python实现监控视频的超分辨率提升
19 2
|
13天前
|
机器学习/深度学习 算法 数据挖掘
【Python 机器学习专栏】Python 机器学习入门:基础概念与流程
【4月更文挑战第30天】本文介绍了Python在机器学习中的重要性,机器学习的基础概念和分类,包括监督学习、非监督学习和强化学习。Python因其丰富的库(如Scikit-learn、TensorFlow、PyTorch)、简单易学的语法和跨平台性在机器学习领域广泛应用。文章还概述了机器学习的基本流程,包括数据收集、预处理、特征工程、模型训练与评估等,并列举了常用的Python机器学习算法,如线性回归、逻辑回归、决策树和支持向量机。最后,讨论了Python机器学习在金融、医疗、工业和商业等领域的应用,鼓励读者深入学习并实践这一技术。
|
19天前
|
运维 Shell Python
第四章 Python运算符与流程控制
第四章 Python运算符与流程控制