开发者社区> 伴戨> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

阿里云Centos7.6上面部署基于redis的分布式爬虫scrapy-redis将任务队列push进redis

简介: Scrapy是一个比较好用的Python爬虫框架,你只需要编写几个组件就可以实现网页数据的爬取。
+关注继续查看


Scrapy是一个比较好用的Python爬虫框架,你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候,单个服务器的处理能力就不能满足我们的需求了(无论是处理速度还是网络请求的并发数),这时候分布式爬虫的优势就显现出来。


而Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule),并对爬取产生的项目(items)存储以供后续处理使用。scrapy-redi重写了scrapy一些比较关键的代码,将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。
_1
说白了,就是使用redis来维护一个url队列,然后scrapy爬虫都连接这一个redis获取url,且当爬虫在redis处拿走了一个url后,redis会将这个url从队列中清除,保证不会被2个爬虫拿到同一个url,即使可能2个爬虫同时请求拿到同一个url,在返回结果的时候redis还会再做一次去重处理,所以这样就能达到分布式效果,我们拿一台主机做redis 队列,然后在其他主机上运行爬虫.且scrapy-redis会一直保持与redis的连接,所以即使当redis 队列中没有了url,爬虫会定时刷新请求,一旦当队列中有新的url后,爬虫就立即开始继续爬


首先分别在主机和从机上安装需要的爬虫库
pip3 install requests scrapy scrapy-redis redis


在主机中安装redis


点我领取阿里云2000元代金券,(阿里云优惠券的作用:购买阿里云产品,最后支付结算的时候,阿里云优惠券可抵扣一部分费用。

安装redis


yum install redis


启动服务
systemctl start redis


查看版本号
redis-cli --version


设置开机启动
systemctl enable redis.service


修改redis配置文件 vim /etc/redis.conf 将保护模式设为no,同时注释掉bind,为了可以远程访问,另外需要注意阿里云安全策略也需要暴露6379端口


改完配置后,别忘了重启服务才能生效
systemctl restart redis
然后分别新建爬虫项目
scrapy startproject myspider
在项目的spiders目录下新建test.py


点我领取阿里云2000元代金券,(阿里云优惠券的作用:购买阿里云产品,最后支付结算的时候,阿里云优惠券可抵扣一部分费用。

导包


import scrapy
import os
from scrapy_redis.spiders import RedisSpider


定义抓取类


class Test(scrapy.Spider):


class Test(RedisSpider):


#定义爬虫名称,和命令行运行时的名称吻合
name = "test"

定义redis的key

redis_key = 'test:start_urls'

定义头部信息

haders = {

'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/73.0.3683.86 Chrome/73.0.3683.86 Safari/537.36'

}

def parse(self, response):

print(response.url)
pass


然后修改配置文件settings.py,增加下面的配置,其中redis地址就是在主机中配置好的redis地址:
BOT_NAME = 'myspider'


SPIDER_MODULES = ['myspider.spiders']
NEWSPIDER_MODULE = 'myspider.spiders'


点我领取阿里云2000元代金券,(阿里云优惠券的作用:购买阿里云产品,最后支付结算的时候,阿里云优惠券可抵扣一部分费用。

设置中文编码


FEED_EXPORT_ENCODING = 'utf-8'


scrapy-redis 主机地址


REDIS_URL = 'redis://root@39.106.228.179:6379'


队列调度


SCHEDULER = "scrapy_redis.scheduler.Scheduler"


不清除缓存


SCHEDULER_PERSIST = True


通过redis去重


DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"


点我领取阿里云2000元代金券,(阿里云优惠券的作用:购买阿里云产品,最后支付结算的时候,阿里云优惠券可抵扣一部分费用。

不遵循robots


ROBOTSTXT_OBEY = False


最后,可以在两台主机上分别启动scrapy服务
此时,服务已经起来了,只不过redis队列中没有任务,在等待状态
进入主机的redis
redis-cli
将任务队列push进redis
lpush test:start_urls http://baidu.com
lpush test:start_urls http://chouti.com
可以看到,两台服务器的爬虫服务分别领取了队列中的任务进行抓取,同时利用redis的特性,url不会重复抓取
121
爬取任务结束之后,可以通过flushdb命令来清除地址指纹,这样就可以再次抓取历史地址了。

阿里云服务器:活动地址

购买可领取:阿里云代金券

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
关于在阿里云esc创建的redis伪集群,java客户端无法连接的解决办法
创建集群的时候 --replicas 后边跟的ip一定要用公网的ip,用内网的ip地址客户端无法连接。 想要利用公网ip创建集群,在阿里的防火墙安全组里边要添加上集群端口。
25 0
Google Earth Engine(GEE)——JavaScript基本功能介绍(变量和数据类型及几何类型的简介)
Google Earth Engine(GEE)——JavaScript基本功能介绍(变量和数据类型及几何类型的简介)
65 0
web3.js中estimateGas如何计算智能合约消耗的gas量
我们可使用web3.js框架的estimateGas函数获得一个以太坊智能合约的Gas估计值 ,通过执行一个消息调用或交易,该消息调用或交易直接在节点的VM中执行,并未在区块链中确认,函数会返回估算使用的gas量。
1404 0
【AWS系列】镭速RaySync VS FTP (4)- AWS爱尔兰到阿里云深圳
使用镭速传输,上传提升11.4倍,下载提升140.8倍。
1793 0
JAVAWEB贵美网上商城完整项目源码(SSH2)
JAVAWEB贵美网上商城完整项目源码(SSH2) 贵美网上商城原是北大青鸟的一个内部项目,项目采用 struts2+spring4+hibernate4+mysql等技术实现,数据库连接池采用c3p0的方式。 贵美商城包括前后台。前台采用绚丽的jquer+jquery.validate实现效果显示,实现注册登录 浏览商品详情 加入购物车等功能。后台采用easyui实现管理员登录
2988 0
基于纯Java代码的Spring容器和Web容器零配置的思考和实现(2) - 静态资源、视图和消息器
在上一篇博文《基于纯Java代码的Spring容器和Web容器零配置的思考和实现(1) - 数据源与事务管理》中我们介绍了怎么基于Java代码去设计和配置一个具有可扩展性的数据源和事务管理器。在这篇博文中,我们将介绍怎么配置静态资源处理、视图解析器以及消息转换器。
830 0
ZPush--基于netty4实现的苹果通知推送服务(APNs)Java客户端
简单说下实现苹果通知推送服务(APNs)客户端的一些要注意的地方: 使用长连接; sanbox服务器是没用的,调试时直接用“gateway.
900 0
+关注
2
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载