python 分布式进程

简介: python 分布式进程

文章目录

简介

分布式进程指的是将Process进程分布到多台机器上,充分利用多台机器的性能完成复杂的任务。我们可以将这一点应用到分布式爬虫的开发中。


分布式进程在Python中依然要用到 multiprocessing 模块。multiprocessing模块不但支持多进程,其中managers子模块还支持把多进程分布到多台机器上。可以写一个服务进程作为调度者,将任务分布到其他多个进程中,依靠网络通信进行管理。举个例子:在做爬虫程序时,常常会遇到这样的场景,我们想抓取某个网站

的所有图片,如果使用多进程的话,一般是一个进程负责抓取图片的链接地址,将链接地址存放到Queue中,另外的进程负责从Queue中读取链接地址进行下载和存储到本地。现在把这个过程做成分布式,一台机器上的进程负责抓取链接,其他机器上的进程负责下载存储。那么遇到的主要问题是将Queue暴露到网络中,让其他机器进程都可以访问,分布式进程就是将这一个过程进行了封装,我们可以将这个过程称为本地队列的网络化。整体过程如图1-24所示。

1832b220aa754cd18c504acc7686a560.png

要实现上面例子的功能,创建分布式进程需要分为六个步骤:


建立队列Queue,用来进行进程间的通信。服务进程创建任务队列task_queue,用来作为传递任务给任务进程的通道;服务进程创建结果队列result_queue,作为任务进程完成任务后回复服务进程的通道。在分布式多进程环

境下,必须通过由Queuemanager获得的Queue接口来添加任务。


把第一步中建立的队列在网络上注册,暴露给其他进程(主机),注册后获得网络队列,相当于本地队列的映像。


建立一个对象(Queuemanager(BaseManager))实例manager,绑定端口和验证口令。


启动第三步中建立的实例,即启动管理manager,监管信息通道。


通过管理实例的方法获得通过网络访问的Queue对象,即再把网络队列实体化成可以使用的本地队列。


创建任务到“本地”队列中,自动上传任务到网络队列中,分配给任务进程进行处理。接下来通过程序实现上面的例子(Linux版),首先编写的是服务进程(taskManager.py),代码如下:

import random,time,Queue
from multiprocessing.managers import BaseManager
# 第一步:建立task_queue和result_queue,用来存放任务和结果
task_queue=Queue.Queue()
result_queue=Queue.Queue()
class Queuemanager(BaseManager):
  pass
# 第二步:把创建的两个队列注册在网络上,利用register方法,callable参数关联了Queue对象,
# 将Queue对象在网络中暴露
Queuemanager.register('get_task_queue',callable=lambda:task_queue)
Queuemanager.register('get_result_queue',callable=lambda:result_queue)
# 第三步:绑定端口8001,设置验证口令‘qiye’。这个相当于对象的初始化
manager=Queuemanager(address=('',8001),authkey='qiye')
# 第四步:启动管理,监听信息通道
manager.start()
# 第五步:通过管理实例的方法获得通过网络访问的Queue对象
task=manager.get_task_queue()
result=manager.get_result_queue()
# 第六步:添加任务
for url in ["ImageUrl_"+i for i in range(10)]:
  print 'put task %s ...' %url
  task.put(url)
# 获取返回结果
print 'try get result...'
for i in range(10):
  print 'result is %s' %result.get(timeout=10)
# 关闭管理
manager.shutdown()

任务进程已经编写完成,接下来编写任务进程(taskWorker.py),创建任务进程的步骤相对较少,需要四个步骤:


使用QueueManager注册用于获取Queue的方法名称,任务进程只能通过名称来在网络上获取Queue。

连接服务器,端口和验证口令注意保持与服务进程中完全一致。

从网络上获取Queue,进行本地化。

从task队列获取任务,并把结果写入result队列

程序taskWorker.py代码(win/linux版)如下:

# coding:utf-8
import time
from multiprocessing.managers import BaseManager
# 创建类似的QueueManager:
class QueueManager(BaseManager):
  pass
# 第一步:使用QueueManager注册用于获取Queue的方法名称
QueueManager.register('get_task_queue')
QueueManager.register('get_result_queue')
# 第二步:连接到服务器:
server_addr = '127.0.0.1'
print('Connect to server %s...' % server_addr)
# 端口和验证口令注意保持与服务进程完全一致:
m = QueueManager(address=(server_addr, 8001), authkey='qiye')
# 从网络连接:
m.connect()
# 第三步:获取Queue的对象:
task = m.get_task_queue()
result = m.get_result_queue()
# 第四步:从task队列获取任务,并把结果写入result队列:
while(not task.empty()):
  image_url = task.get(True,timeout=5)
  print('run task download %s...' % image_url)
  time.sleep(1)
  result.put('%s--->success'%image_url)
# 处理结束:
print('worker exit.')

最后开始运行程序,先启动服务进程taskManager.py,运行结果如下:

put task ImageUrl_0 ...
put task ImageUrl_1 ...
put task ImageUrl_2 ...
put task ImageUrl_3 ...
put task ImageUrl_4 ...
put task ImageUrl_5 ...
put task ImageUrl_6 ...
put task ImageUrl_7 ...
put task ImageUrl_8 ...
put task ImageUrl_9 ...
try get result...

接着再启动任务进程taskWorker.py,运行结果如下:

Connect to server 127.0.0.1...
run task download ImageUrl_0...
run task download ImageUrl_1...
run task download ImageUrl_2...
run task download ImageUrl_3...
run task download ImageUrl_4...
run task download ImageUrl_5...
run task download ImageUrl_6...
run task download ImageUrl_7...
run task download ImageUrl_8...
run task download ImageUrl_9...
worker exit.

当任务进程运行结束后,服务进程运行结果如下:

result is ImageUrl_0--->success
result is ImageUrl_1--->success
result is ImageUrl_2--->success
result is ImageUrl_3--->success
result is ImageUrl_4--->success
result is ImageUrl_5--->success
result is ImageUrl_6--->success
result is ImageUrl_7--->success
result is ImageUrl_8--->success
result is ImageUrl_9--->success

其实这就是一个简单但真正的分布式计算,把代码稍加改造,启动多个worker,就可以把任务分布到几台甚至几十台机器上,实现大规模的分布式爬虫。


注意 由于平台的特性,创建服务进程的代码在Linux和Windows上有一些不同,创建工作进程的代码是一致的。


taskManager.py程序在Windows版下的代码如下:

# coding:utf-8
# taskManager.py for windows
import queue
from multiprocessing.managers import BaseManager
from multiprocessing import freeze_support
# 任务个数
task_number = 10
# 定义收发队列
task_queue = queue.Queue(task_number);
result_queue = queue.Queue(task_number);
def get_task():
  return task_queue
def get_result():
  return result_queue
# 创建类似的QueueManager:
class QueueManager(BaseManager):
  pass
def win_run():
  # Windows下绑定调用接口不能使用lambda,所以只能先定义函数再绑定
  QueueManager.register('get_task_queue',callable = get_task)
  QueueManager.register('get_result_queue',callable = get_result)
  # 绑定端口并设置验证口令,Windows下需要填写IP地址,Linux下不填默认为本地
  manager = QueueManager(address = ('127.0.0.1',8001))
  # 启动
  manager.start()
  try:
  # 通过网络获取任务队列和结果队列
    task = manager.get_task_queue()
    result = manager.get_result_queue()
    # 添加任务
    for url in ["ImageUrl_"+str(i) for i in range(10)]:
      print('put task %s ...' %url)
      task.put(url)
    print('try get result...')
    for i in range(10):
      print('result is %s' %result.get(timeout=10))
  except:
    print('Manager error')
  finally:
    # 一定要关闭,否则会报管道未关闭的错误
    manager.shutdown()
if __name__ == '__main__':
# Windows下多进程可能会有问题,添加这句可以缓解
  freeze_support()
  win_run()

输出

$ python taskManager_win.py 
put task ImageUrl_0 ...
put task ImageUrl_1 ...
put task ImageUrl_2 ...
put task ImageUrl_3 ...
put task ImageUrl_4 ...
put task ImageUrl_5 ...
put task ImageUrl_6 ...
put task ImageUrl_7 ...
put task ImageUrl_8 ...
put task ImageUrl_9 ...
try get result...
相关文章
|
1天前
|
Java 测试技术 Python
Python的多线程允许在同一进程中并发执行任务
【5月更文挑战第17天】Python的多线程允许在同一进程中并发执行任务。示例1展示了创建5个线程打印"Hello World",每个线程调用同一函数并使用`join()`等待所有线程完成。示例2使用`ThreadPoolExecutor`下载网页,创建线程池处理多个URL,打印出每个网页的大小。Python多线程还可用于线程间通信和同步,如使用Queue和Lock。
14 1
|
2天前
|
数据处理 Python
Python并发编程:实现高效的多线程与多进程
Python作为一种高级编程语言,提供了强大的并发编程能力,通过多线程和多进程技术,可以实现程序的并发执行,提升系统的性能和响应速度。本文将介绍Python中多线程和多进程的基本概念,以及如何利用它们实现高效的并发编程,解决实际开发中的并发性问题。
|
3天前
|
监控 Python
python过滤指定进程
python过滤指定进程
15 1
|
3天前
|
运维 监控 Ubuntu
Python实现ubuntu系统进程内存监控
Python实现ubuntu系统进程内存监控
17 1
|
3天前
|
开发者 Python
在Python中查询进程信息的实用指南
在Python中查询进程信息的实用指南
10 2
|
3天前
|
消息中间件 Linux 调度
Python的进程锁,进程队列
Python的进程锁,进程队列
123 3
|
3天前
|
数据采集 监控 调度
Python的进程,以及进程同步,守护进程详细解读
Python的进程,以及进程同步,守护进程详细解读
141 4
|
3天前
|
调度 Python 容器
【python】-详解进程与线程
【python】-详解进程与线程
|
3天前
|
运维 监控 Unix
第十五章 Python多进程与多线程
第十五章 Python多进程与多线程
|
3天前
|
Java 数据库连接 数据处理
Python从入门到精通:3.1.2多线程与多进程编程
Python从入门到精通:3.1.2多线程与多进程编程