Python多进程日志以及分布式日志的实现方式

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: python日志模块logging支持多线程,但是在多进程下写入日志文件容易出现下面的问题:PermissionError: [WinError 32] 另一个程序正在使用此文件,进程无法访问。也就是日志文件被占用的情况,原因是多个进程的文件handler对日志文件进行操作产生的。

python日志模块logging支持多线程,但是在多进程下写入日志文件容易出现下面的问题:


PermissionError: [WinError 32] 另一个程序正在使用此文件,进程无法访问。


也就是日志文件被占用的情况,原因是多个进程的文件handler对日志文件进行操作产生的。


这个问题经常在TimedRotatingFileHandler、RotatingFileHandler中出现。

解决办法

题主在网上搜集了各种解决上面问题的办法,基本以下面三个方向为主:

  • 安装第三方库提供的handler
  • 重写filehandler加全局锁
  • 使用队列将消息传递


但是三种方法各有小缺陷:

  • 第三方库很久无人维护,且支持的功能比较单一,无法满足生产环境的需求。
  • 轮转日志的时候由于全局锁的存在,其他子进程无法记录日志,有丢失日志的风险。
  • 使用多进程消息队列的缺点在于使用困难,如果是多模块编程,需要将全局队列传来传去,在大型项目中显得很麻烦。


经过对官网的研究 ,题主无意中找到了一种非常方便且高效的方法,并且经过一定的修改使这种方法可用于分布式日志,且支持多语言日志的处理。


唯一的不足是需要新学习一个zmq通信协议,但是这并不是问题,如果只是想要一个解决方案并立即投入使用,只需要按照下面的方法编写,无需关注zmq的相关知识。

基于zmq的分布式日志

实现思路

  • 通过zmq的多对一通信,将多个地方的日志发送到一个地方集中处理,从而实现分布式日志。
  • 这个方法不仅可以解决python分布日志的问题,还可以很好的兼容其他语言,比如项目中还有C、java,那么可以将它们中的日志也发送过来,一并处理。


看到这很多人可能明白了,这个方法类似官网提供的SocketHandler,但本方法其实是基于QueueHandler实现的,有利于发挥zmq易用性、可插拔、并发性能好的优点。

代码实现

首先是集中处理日志的程序,也就是上面所说"多对一"中的一。

import zmq
import logging
from logging import handlers
class ZeroMQSocketListener(handlers.QueueListener):
    def __init__(self, uri="tcp://127.0.0.1:5555", *handlers,**kwargs):
        self.respect_handler_level = True     # handler日志等级启用,允许对handler设置setLevel,False则忽视级别
        self.ctx = kwargs.get('ctx') or zmq.Context()
        socket = self.ctx.socket(zmq.SUB)
        socket.bind(uri)
        socket.setsockopt_string(zmq.SUBSCRIBE, '')     # 订阅所有主题
        super().__init__(socket, *handlers, respect_handler_level=self.respect_handler_level)
    def dequeue(self,block):
        msg = self.queue.recv_json()
        # print('111',msg)    # 测试用
        return logging.makeLogRecord(msg)
def main_logger():
    # 日志集中处理区,在主程序中调用一次
    # handlers配置区,filter可选
    formatter = logging.Formatter("%(name)s - %(asctime)s - %(levelname)s - %(module)s - %(funcName)s - %(message)s")
    console = logging.StreamHandler()
    console.setLevel(logging.ERROR)
    ch = handlers.TimedRotatingFileHandler(r'logs\face.log',when='M',
                                           # backupCount=180,
                                           encoding='utf-8')
    ch.setLevel(logging.INFO)
    ch.setFormatter(formatter)  # add formatter to ch
    # 设置监听的端口,并传递handlers
    loggerListener = ZeroMQSocketListener("tcp://127.0.0.1:5555",*(ch,console))
    loggerListener.start()   # 开启一个子线程处理记录器监听
# 主进程调用一次,非阻塞
main_logger()


自此,日志集中处理就结束了,是不是很简单,而且需要注意,我们这里不需要用到root logger,因为ZeroMQSocketListener会自动调用各种handlers将日志内容进行处理,想当于替代了logger的工作,所以也就没必要声明一个logger出来了。


更新:

这里的main_logger()是非阻塞,也就是下面还可以写其他代码,但是如果什么代码都没有,那么主进程就会直接退出,日志就收不到了。


如果接下来不需要做其他工作,那么请在main_logger()下方使用while True:time.sleep(0.5) 将主进程阻塞。


  • 需要重点关注通信地址"tcp://127.0.0.1:5555",因为其他地方的日志都会发送到这里来。


接下来是子进程中或者是你想记录日志的任何地方,比如在其他同事的电脑里


  • subprocess.py
import logging,zmq
from logging import handlers
# 我们需要的handler
class ZeroMQSocketHandler(handlers.QueueHandler):
    def __init__(self, uri="tcp://127.0.0.1:5555", socktype=zmq.PUB, ctx=None):
        self.ctx = ctx or zmq.Context()
        socket = self.ctx.socket(socktype)
        socket.connect(uri)
        super().__init__(socket)
    def enqueue(self, record):
        self.queue.send_json(record.__dict__)
    def close(self):
        self.queue.close()
# 创建远端日志
rmtlogger = logging.getLogger('sub_root_name')    ##
rmtlogger.setLevel(logging.INFO)     # 建议设置一下,有时候默认是WARNING级别
rmtlogger.propagate=False    # 不允许传递,日志传递到这里就发送到主进程中
# 配置handler
zmqhandler = ZeroMQSocketHandler()
zmqhandler.setLevel(logging.INFO)
rmtlogger.addHandler(zmqhandler)
# if you have submodule
# import submodule 
# 记录日志
rmtlogger.info("这是一条遥远的日志")


  • 如果是多进程环境下,您大可直接将上面的代码直接开启到多个子进程中,并不会出现网络问题。


logger可以通过python日志的name系统进行传递,也就是说如果子进程中还有其他模块,可以通过日志传递系统将其他模块产生的日志传递过来,最后一并发送给监听器,就像下面:


  • submodule.py


# subprocess.py的子模块,如需测试注意调用
import logging
subMolduleLogger = logging.getLogger(f'sub_root_name.modulename')
subMolduleLogger.info("这是一条子模块日志")
# 这部分内容需要logging基础知识


  • 上面这条日志会传递给rmtlogger,通过rmtlogger发送到主进程。


在主进程中,设置了logging.Formatter对象,可以将产生日志的名字打印出来,用于区分日志产生的位置。

多语言支持

由于zmq本身就支持多语言,比如你使用c语言或其他语言,只需要在代码中使用zmq将日志通过json发送过来。


python日志可以通过dict方法重建logger对象,具体可以打印上面代码中ZeroMQSocketListener.dequeue中的msg进行摸索,实现起来还是比较简单的。

总结

本篇所提供的多进程日志解决方法的目的是尽可能少做配置和修改,保留原有编程习惯的同时兼顾了代码的易用性。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
5天前
|
并行计算 数据处理 调度
Python中的并发编程:探索多线程与多进程的奥秘####
本文深入探讨了Python中并发编程的两种主要方式——多线程与多进程,通过对比分析它们的工作原理、适用场景及性能差异,揭示了在不同应用需求下如何合理选择并发模型。文章首先简述了并发编程的基本概念,随后详细阐述了Python中多线程与多进程的实现机制,包括GIL(全局解释器锁)对多线程的影响以及多进程的独立内存空间特性。最后,通过实例演示了如何在Python项目中有效利用多线程和多进程提升程序性能。 ####
|
17天前
|
调度 iOS开发 MacOS
python多进程一文够了!!!
本文介绍了高效编程中的多任务原理及其在Python中的实现。主要内容包括多任务的概念、单核和多核CPU的多任务实现、并发与并行的区别、多任务的实现方式(多进程、多线程、协程等)。详细讲解了进程的概念、使用方法、全局变量在多个子进程中的共享问题、启动大量子进程的方法、进程间通信(队列、字典、列表共享)、生产者消费者模型的实现,以及一个实际案例——抓取斗图网站的图片。通过这些内容,读者可以深入理解多任务编程的原理和实践技巧。
41 1
|
24天前
|
Python
python读写操作excel日志
主要是读写操作,创建表格
50 2
|
24天前
|
Python
Python中的多线程与多进程
本文将探讨Python中多线程和多进程的基本概念、使用场景以及实现方式。通过对比分析,我们将了解何时使用多线程或多进程更为合适,并提供一些实用的代码示例来帮助读者更好地理解这两种并发编程技术。
|
23天前
|
Python Windows
python知识点100篇系列(24)- 简单强大的日志记录器loguru
【10月更文挑战第11天】Loguru 是一个功能强大的日志记录库,支持日志滚动、压缩、定时删除、高亮和告警等功能。安装简单,使用方便,可通过 `pip install loguru` 快速安装。支持将日志输出到终端或文件,并提供丰富的配置选项,如按时间或大小滚动日志、压缩日志文件等。还支持与邮件通知模块结合,实现邮件告警功能。
python知识点100篇系列(24)- 简单强大的日志记录器loguru
|
30天前
|
人工智能 文字识别 Java
SpringCloud+Python 混合微服务,如何打造AI分布式业务应用的技术底层?
尼恩,一位拥有20年架构经验的老架构师,通过其深厚的架构功力,成功指导了一位9年经验的网易工程师转型为大模型架构师,薪资逆涨50%,年薪近80W。尼恩的指导不仅帮助这位工程师在一年内成为大模型架构师,还让他管理起了10人团队,产品成功应用于多家大中型企业。尼恩因此决定编写《LLM大模型学习圣经》系列,帮助更多人掌握大模型架构,实现职业跃迁。该系列包括《从0到1吃透Transformer技术底座》、《从0到1精通RAG架构》等,旨在系统化、体系化地讲解大模型技术,助力读者实现“offer直提”。此外,尼恩还分享了多个技术圣经,如《NIO圣经》、《Docker圣经》等,帮助读者深入理解核心技术。
SpringCloud+Python 混合微服务,如何打造AI分布式业务应用的技术底层?
|
1月前
|
数据挖掘 程序员 调度
探索Python的并发编程:线程与进程的实战应用
【10月更文挑战第4天】 本文深入探讨了Python中实现并发编程的两种主要方式——线程和进程,通过对比分析它们的特点、适用场景以及在实际编程中的应用,为读者提供清晰的指导。同时,文章还介绍了一些高级并发模型如协程,并给出了性能优化的建议。
30 3
|
1月前
|
存储 数据采集 分布式计算
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
44 1
|
1月前
|
数据采集 机器学习/深度学习 存储
使用 Python 清洗日志数据
使用 Python 清洗日志数据
34 2
|
1月前
|
存储 Python
Python中的多进程通信实践指南
Python中的多进程通信实践指南
19 0