一个监控脚本带来的Python实践和学习

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 工作中经常要和服务器、数据库这些打交道,有些小功能例如:服务监控、数据监控等用java往往无处下手,即使能做也要花费很长的时间,身边好几个同事都会Python,面对这些需求他们往往优先选择Python来实现,又快又省事。

工作中经常要和服务器、数据库这些打交道,有些小功能例如:服务监控、数据监控等用java往往无处下手,即使能做也要花费很长的时间,身边好几个同事都会Python,面对这些需求他们往往优先选择Python来实现,又快又省事。所以我也计划着自学一下Python,寻思着买一本入门的书来参考,在豆瓣上挑来挑去最后挑了《Head first Python》这本。买来后断断续续看了好几章了,对Python也有了一些基本的了解,不过一直没真正上手。

废话太多,直接步入正题,昨天领导让我写个脚本来实时监控某个服务的日志,监控日志中报出的用户购买超时的现象,如果某个node累计超时次数达到10次则通过邮件和短信告警。

 

需求就是上面说的这样,虽然Python用的还不熟练,不过当下也没其它好的方式来实现,没办法,赶鸭子上架,现学现用,如果碰到不会的就借助于万能的互联网吧

 

一、Python调用shell

首先考虑实现的方式,由于领导要求实时监控,所以当前想到的方式就是使用linux shell的tail命令扫描服务日志,然后再使用关键字来grep,根据grep出来的日志内容进行分析。这时候碰到了第一个问题,如何在Python中执行linux shell命令呢?

 

没办法,上网求助,网上有人推荐使用os.system,不过大部分都推荐使用subprocess模块来实现,通过官方文档说明,我决定使用subprocess

官方给出的文档里有这么一段话:

写道
The subprocess module allows you to spawn new processes, connect to their input/output/error pipes, and obtain their return codes. This module intends to replace several other, older modules and functions, such as:
os.system
os.spawn*
os.popen*
popen2.*
commands.*

翻译过来的意思大致就是:subprocess模块允许你新建子进程,可以连接到进程的输入、输出、异常通道,并且可以获取到子进程的返回值,这个模块是Python用来替代一些其它过时的模块和功能的。

所以说,官方推荐使用subprocess来实现类似的功能。

 

要使用subprocess,首先必须import该模块

Python代码   收藏代码
  1. import subprocess  

要调用shell命令,subprocess有很多方式,比如call、Popen等,这里我们使用Popen

首先看一个最简单的实例:

Python代码   收藏代码
  1. subprocess.Popen('ls -l',stdout=subprocess.PIPE,stderr=subprocess.PIPE,shell=True)  

上面的代码构建了一个Popen对象,Popen的构造函数格式如下:

Python代码   收藏代码
  1. subprocess.Popen(args, bufsize=0, executable=None, stdin=None, stdout=None, stderr=None, preexec_fn=None, close_fds=False, shell=False, cwd=None, env=None, universal_newlines=False, startupinfo=None, creationflags=0)  

参数args可以是字符串或者序列类型(如:list,元组),用于指定进程的可执行文件及其参数。如果是序列类型,第一个元素通常是可执行文件的路径。

参数stdin, stdout, stderr分别表示程序的标准输入、输出、错误句柄。他们可以是PIPE,文件描述符或文件对象,也可以设置为None,表示从父进程继承。

如果参数shell设为true,程序将通过shell来执行。

关于其它具体的参数的说明,参见官方文档:http://docs.python.org/2/library/subprocess.html#popen-constructor

不想看英文的可以看网上的另一篇博客:http://blog.csdn.net/wuwangyingzhong/article/details/6002055

 

我的代码逻辑如下:

Python代码   收藏代码
  1. #日志文件目录和名称  
  2. filename = '/home/project/logs/xxx.log'  
  3. #要执行的shell命令  
  4. command='tail -f '+filename+'|grep "timeout"'  
  5. popen=subprocess.Popen(command,stdout=subprocess.PIPE,stderr=subprocess.PIPE,shell=True)  
  6. while True:  
  7.     #获取当前grep出来的日志文本行  
  8.     line=popen.stdout.readline().strip()  
  9.     #对日志文本进行分析(这里省略)  

 

二、Python发送http请求

上面已经提到,告警的方式为邮件和短信,我们的短信推送接口是一个http接口,所以如果需要短信告警,则需要通过python来请求该http接口。python中一共有urllib、urllib2、httplib、httplib2支持发送http请求,由于服务器上没有安装python的httplib和httplib2模块,所以只能使用urllib,urllib2

使用GET请求来请求短信推送接口,可以把参数写在url中,如果使用POST方式来请求接口,则数据必须放在data或者body中,不能放在url中,放在url中将被忽略。

附上一个通过urllib,urllib2发送GET请求的示例:

Python代码   收藏代码
  1. import urllib,urllib2  
  2.   
  3.   
  4. def main():  
  5.     url="http://www.baidu.com/s?wd=douban"  
  6.     req = urllib2.Request(url)  
  7.     print req  
  8.   
  9.     res_data = urllib2.urlopen(req)  
  10.     res = res_data.read()  
  11.     print res  
  12.   
  13. if __name__ == '__main__':  
  14.     main()  

关于python对http请求的操作,可以参见博客:http://blog.163.com/xychenbaihu@yeah/blog/static/132229655201231085444250/

 

三、脚本进程和子进程的退出

发现了2个问题:

问题1:在上面的代码中,python调用的shell tail命令作用是实时监控当前的日志,而服务是24小时不间断的,该python脚本也一直同步执行,所以只能使用nohup方式后台启动。每次要关闭该脚本,手动通过进程pid来kill。带来了一个新的问题,每次kill掉python主进程时,主进程执行时启动的Popen子进程未关闭,由于调试时曾经连续启动->kill->启动->kill多次,导致系统中出现了一大堆tail日志的进程,这是我原来没有预料到的。

问题2:我们的日志是生成的dailyRolling日志,文件名称为:xxx_dailyRolling.log,每天的0点会自动重命名为xxx_dailyRolling.logyyyyMMdd,yyyyMMdd代表前一天的日期,例如xxx_dailyRolling.log20131023,如果tail -f xxx_dailyRolling.log命令一直执行,到0点时会中断,所以我还需要在每天0点前停止当前的python脚本,然后在第二天0点后定时启动此python脚本

 

综上,2个问题一起解决,在0点前停止python脚本前先kill掉Popen子进程,然后再停止就OK了。

我的思路时每天设置一个固定的时间点,例如就定为每天的23:30:00(因为我们的服务在凌晨时基本上没人使用,监控的目的主要是为了监控白天高峰期时的服务情况,所以23:30到0点这段时间即使没监控也不影响),然后在Popen子进程执行时判断当前时刻是否到了23:30:00,如果已经到了,则终止子进程。通过实践证明,如果Popen子进程终止了,如果python主进程里没有挂起的其余子进程在执行,则主进程也会终止。

 

Popen可以通过terminate()或者kill()函数来终止当前的子进程。在执行了terminate()后,如果不想立即终止,可以通过wait()或poll()函数来等待子进程执行结束,关于各函数的使用,具体参考官方文档。

各函数说明如下:

写道
Popen.poll()
Check if child process has terminated. Set and return returncode attribute.

Popen.wait()
Wait for child process to terminate. Set and return returncode attribute.

Popen.terminate()
Stop the child. On Posix OSs the method sends SIGTERM to the child. On Windows the Win32 API function TerminateProcess() is called to stop the child.

Popen.kill()
Kills the child. On Posix OSs the function sends SIGKILL to the child. On Windows kill() is an alias for terminate().

附上一个示例:

Python代码   收藏代码
  1. #程序执行终止时间为当前时刻延迟15秒  
  2. stoptime = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time()+15))  
  3.   
  4. def main():  
  5.     popen=subprocess.Popen(command,stdout=subprocess.PIPE,stderr=subprocess.PIPE,shell=True)  
  6.     pid=popen.pid  
  7.     print('Popen.pid:'+str(pid))  
  8.     while True:  
  9.         line=popen.stdout.readline().strip()  
  10.         print(line)  
  11.         #当前时间  
  12.         thistime = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time()))  
  13.         if thistime>=stoptime:  
  14.             #终止子进程  
  15.             popen.terminate()  
  16.             #等待子进程终止后跳出while循环  
  17.             if subprocess.Popen.poll(popen) is not None:  
  18.                 break  
  19.             else:  
  20.                 print('waiting for subprocess.Popen terminate()')  
  21.     print('DONE')  
  22.   
  23. if __name__ == '__main__':  
  24.     main()  

 

四、Python2.x和3.x版本的区别(部分)

Python在2.x和3.x之间有一些特性区别比较大,由于我本地是安装的最新的3.2.2版本,而服务器上还是2.6.x,所以在编写调试时遇到了一些,也拿出来说说说:

区别1.print函数

在python 2.x版本中,同时支持print(xxx)和print xxx,示例:

Python代码   收藏代码
  1. >>> name='chenzhou'  
  2. >>> print name  
  3. chenzhou  
  4. >>> print(name)          
  5. chenzhou  
  6. >>>   

在python 3.x版本中,只支持print(xxx)的方式,示例:

Python代码   收藏代码
  1. >>> name='chenzhou'  
  2. >>> print(name)  
  3. chenzhou  
  4. >>> print name  
  5. SyntaxError: invalid syntax  
  6. >>>   

区别2.判断字典中的key是否存在

在python 2.x中,可以使用has_key(key)函数,也可以判断 key in xxxMap.keys(),示例:

Python代码   收藏代码
  1. >>> users={'name':'chenzhou','age':'24','address':'Beijing'}  
  2. >>> print users.has_key('name')  
  3. True  
  4. >>> print 'name' in users.keys()  
  5. True  
  6. >>> print users.has_key('score')  
  7. False  
  8. >>> print 'score' not in users.keys()  
  9. True  
  10. >>>   

在python 3.x中,只支持key in xxxMap.keys() 示例:

Python代码   收藏代码
  1. >>> users={'name':'chenzhou','age':'24','address':'Beijing'}  
  2. >>> print('name' in users.keys())  
  3. True  
  4. >>> print('score' in users.keys())  
  5. False  
  6. >>> print(users.has_key('name'))  
  7. Traceback (most recent call last):  
  8.   File "<pyshell#20>", line 1in <module>  
  9.     print(users.has_key('name'))  
  10. AttributeError: 'dict' object has no attribute 'has_key'  
  11. >>>   

 

五、Python UnicodeDecodeError

脚本写完后在linux下执行时报错:

Shell代码   收藏代码
  1. UnicodeDecodeError: 'ascii' codec can't decode byte 0xe8 in position 0: ordinal not in range(128)  

网友给出的原因是windows系统下编辑的文件在linux下编码转换出现的问题,具体解决方法如下:

Python代码   收藏代码
  1. #引入sys模块  
  2. import sys  
  3. #加入下面两行代码  
  4. reload(sys)  
  5. sys.setdefaultencoding('utf-8')  

其它:

在grep关键字时用到了正则表达式,推荐一篇关于Python正则表达式的好博

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
11天前
|
安全 网络安全 文件存储
思科设备巡检命令Python脚本大集合
【10月更文挑战第18天】
39 1
思科设备巡检命令Python脚本大集合
|
7天前
|
关系型数据库 MySQL 数据库连接
python脚本:连接数据库,检查直播流是否可用
【10月更文挑战第13天】本脚本使用 `mysql-connector-python` 连接MySQL数据库,检查 `live_streams` 表中每个直播流URL的可用性。通过 `requests` 库发送HTTP请求,输出每个URL的检查结果。需安装 `mysql-connector-python` 和 `requests` 库,并配置数据库连接参数。
104 68
|
8天前
|
数据可视化 数据挖掘 Python
使用Python进行数据可视化:探索与实践
【10月更文挑战第21天】本文旨在通过Python编程,介绍如何利用数据可视化技术来揭示数据背后的信息和趋势。我们将从基础的图表创建开始,逐步深入到高级可视化技巧,包括交互式图表和动态展示。文章将引导读者理解不同图表类型适用的场景,并教授如何使用流行的库如Matplotlib和Seaborn来制作美观且具有洞察力的可视化作品。
30 7
|
5天前
|
测试技术 开发者 Python
探索Python中的装饰器:从入门到实践
【10月更文挑战第24天】 在Python的世界里,装饰器是一个既神秘又强大的工具。它们就像是程序的“隐形斗篷”,能在不改变原有代码结构的情况下,增加新的功能。本篇文章将带你走进装饰器的世界,从基础概念出发,通过实际例子,逐步深入到装饰器的高级应用,让你的代码更加优雅和高效。无论你是初学者还是有一定经验的开发者,这篇文章都将为你打开一扇通往高效编程的大门。
|
6天前
|
JSON 测试技术 持续交付
自动化测试与脚本编写:Python实践指南
自动化测试与脚本编写:Python实践指南
12 1
|
12天前
|
调度 开发者 Python
探索Python中的异步编程:从基础到实践
在本文中,我们将深入探讨Python的异步编程世界。从asyncio库的基本概念出发,我们将逐步构建起对异步编程的理解,并探索如何在实际项目中应用这些技术。本文不仅涵盖了异步编程的基础知识,还提供了实用的代码示例,旨在帮助读者在Python中有效地使用异步编程,以提高应用程序的性能和响应能力。
|
17天前
|
机器学习/深度学习 人工智能 架构师
Python学习圣经:从0到1,精通Python使用
尼恩架构团队的大模型《LLM大模型学习圣经》是一个系统化的学习系列,初步规划包括以下内容: 1. **《Python学习圣经:从0到1精通Python,打好AI基础》** 2. **《LLM大模型学习圣经:从0到1吃透Transformer技术底座》**
Python学习圣经:从0到1,精通Python使用
|
20天前
|
机器学习/深度学习 缓存 PyTorch
pytorch学习一(扩展篇):miniconda下载、安装、配置环境变量。miniconda创建多版本python环境。整理常用命令(亲测ok)
这篇文章是关于如何下载、安装和配置Miniconda,以及如何使用Miniconda创建和管理Python环境的详细指南。
269 0
pytorch学习一(扩展篇):miniconda下载、安装、配置环境变量。miniconda创建多版本python环境。整理常用命令(亲测ok)
|
11天前
|
设计模式 开发者 Python
Python编程中的设计模式应用与实践###
【10月更文挑战第18天】 本文深入探讨了Python编程中设计模式的应用与实践,通过简洁明了的语言和生动的实例,揭示了设计模式在提升代码可维护性、可扩展性和重用性方面的关键作用。文章首先概述了设计模式的基本概念和重要性,随后详细解析了几种常用的设计模式,如单例模式、工厂模式、观察者模式等,在Python中的具体实现方式,并通过对比分析,展示了设计模式如何优化代码结构,增强系统的灵活性和健壮性。此外,文章还提供了实用的建议和最佳实践,帮助读者在实际项目中有效运用设计模式。 ###
11 0
|
17天前
|
人工智能 算法 搜索推荐
通义灵码在Python项目开发中的应用实践
通义灵码在Python项目开发中的应用实践
75 0