简陋的分布式爬虫（附项目代码地址）-阿里云开发者社区

简陋的分布式爬虫（附项目代码地址）

2018-03-14 6800

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

新手向，基于Redis构建的分布式爬虫。

以爬取考研网的贴子为例，利用 PyQuery, lxml 进行解析，将符合要求的文章文本存入MySQ数据库中。

结构简介

cooperator

协作模块，用于为Master&Worker模块提供代理IP支持

master

提取满足条件的文章url，并交给Worker进一步处理

Worker

解析文章内容，将符合要求的存入数据库

环境依赖

sqlalchemy => 1.0.13 
pyquery => 1.2.17 
requests => 2.12.3 
redis => 2.10.5 
lxml => 3.6.0

需要预先安装MySQL-server 和 Redis-server.
MySQL中应有名为kybsrc的数据库，且该数据库包含一个名为posts的表，拥有num(INT AUTO_INCREMENT)和post(TEXT)两个字段。

如何启动

0. 先配置好各模块所引用的配置文件

1. 为了更好地运行，cooperator/start.py 应提前开始并完成一次工作函数执行

第一次执行完后，每五分钟运行一次工作函数

2. 启动 master/start.py

默认只执行一次

3. 启动 worker/start.py

默认循环监听是否有新的URL待解析

核心点说明

1. 通过Redis的集合类型进行代理IP和URL的传递

# Summary Reference

# ---------

# 创建句柄

def make_redis_handler():

    pool = redis.ConnectionPool(host=r_server['ip'], port=r_server['port'], password=r_server['passwd'])

    return redis.Redis(connection_pool=pool)



# 获得句柄

def make_proxy_handler():

    return make_redis_handler()



# 保存到指定的set下

def check_and_save(self, proxy):

 'pass'

   self.redis_handler.sadd(r_server['s_name'], proxy)

2. 由于在验证代理IP和使用封装的get_url()函数的时候网络IO较多，所以使用多线程（效果还是很明显的）。

# Summary Reference

# ---------

# 创建句柄

def make_redis_handler():

    pool = redis.ConnectionPool(host=r_server['ip'], port=r_server['port'], password=r_server['passwd'])

    return redis.Redis(connection_pool=pool)



# 获得句柄

def make_proxy_handler():

    return make_redis_handler()



# 保存到指定的set下

def check_and_save(self, proxy):

 'pass'

   self.redis_handler.sadd(r_server['s_name'], proxy)

原文发布时间为：2017-04-05

本文作者：哇咔咔

本文来自云栖社区合作伙伴“ Python中文社区”，了解相关信息可以关注“ Python中文社区”微信公众号

简陋的分布式爬虫（附项目代码地址）

cooperator

master

Worker

0. 先配置好各模块所引用的配置文件

1. 为了更好地运行，cooperator/start.py 应提前开始并完成一次工作函数执行

第一次执行完后，每五分钟运行一次工作函数

2. 启动 master/start.py

默认只执行一次

3. 启动 worker/start.py

默认循环监听是否有新的URL待解析

核心点说明

1. 通过Redis的集合类型进行代理IP和URL的传递

2. 由于在验证代理IP和使用封装的get_url()函数的时候网络IO较多，所以使用多线程（效果还是很明显的）。

Python中文社区

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

简陋的分布式爬虫（附项目代码地址）

cooperator

master

Worker

0. 先配置好各模块所引用的配置文件

1. 为了更好地运行，cooperator/start.py 应提前开始并完成一次工作函数执行

第一次执行完后，每五分钟运行一次工作函数

2. 启动 master/start.py

默认只执行一次

3. 启动 worker/start.py

默认循环监听是否有新的URL待解析

核心点说明

1. 通过Redis的集合类型进行代理IP和URL的传递

2. 由于在验证代理IP和使用封装的get_url()函数的时候网络IO较多，所以使用多线程（效果还是很明显的）。

Python中文社区

热门文章

最新文章

相关课程

相关电子书