Python多进程抓取全国邮政编码和长途区号-阿里云开发者社区

开发者社区> Python中文社区> 正文

Python多进程抓取全国邮政编码和长途区号

简介:

由于Python设计的限制(就是咱们常用的CPython)最多只能用满1个CPU核心。Python提供了非常好用的多进程包multiprocessing,你只需要定义一个函数,Python会替你完成其他所有事情。借助这个包,可以轻松完成从单进程到并发执行的转换。使用进程池可以让你跑满多核CPU,而且使用方法非常简单。

Show You The Code:

import multiprocessing
import time
def func(msg):
 for i in xrange(3):
 print msg
 time.sleep(1)
 return "done " + msg
if __name__ == "__main__":
 pool = multiprocessing.Pool(processes=4)
 result = []
 for i in xrange(10):
 msg = "hello %d" %(i)
 result.append(pool.apply_async(func, (msg, )))
 pool.close()
 pool.join()
 for res in result:
 print res.get()
 print "Sub-process(es) done."

processes=4是最多并发进程数量,使用Pool,还需要关注每个进程的执行结果。下面以多进程抓取全国邮政编码和长途区号为例。目标站点:http://www.ip138.com

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

使用以下语句导入多线程模块:
from multiprocessing.dummy import Pool as ThreadPool

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=
multiprocessing包是Python中的多进程管理包,这个模块表示像线程一样管理进程,这个是multiprocessing的核心,它与threading很相似,对多核CPU的利用率会比threading好的多。Pool类可以提供指定数量的进程供用户调用,当有新的请求提交到Pool中时,如果池还没有满,就会创建一个新的进程来执行请求。如果池满,请求就会告知先等待,直到池中有进程结束,才会创建新的进程来执行这些请求。

Pool类中的map方法,与内置的map函数用法行为基本一致,它会使进程阻塞直到返回结果。虽然第二个参数是一个迭代器,但在实际使用中,必须在整个队列都就绪后,程序才会运行子进程。map函数用法如下:

map(func, iterable[, chunksize=None])

获取文本内容:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=
对邮政编码进行解析:
640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

获取全国邮编结果如下:640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

原文发布时间为:2016-10-28本文来自云栖社区合作伙伴“Python中文社区”,了解相关信息可以关注“Python中文社区”微信公众号

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
Python中文社区
使用钉钉扫一扫加入圈子
+ 订阅

官网链接