Scrapy使用代理爬取网站-阿里云开发者社区

Scrapy使用代理爬取网站

2018-08-30 1732

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云数据库 Tair（兼容Redis），内存型 2GB

Redis 开源版，标准版 2GB

简介： timg.jpg前言在我们平时使用爬虫程序采集数据时，往往会遇到，因采集速度过快导致的自己网络ip被目标网站封禁，这种封禁有时候是封几分钟，有时候是封一天，封的时间不等，但是这样会导致我们局域网内其他人也无法访问目标网站，最大的问题是我们无法进行数据采集。

img_94d3da47fcf91d6528495c3ce840bc1d.jpe

timg.jpg

前言

在我们平时使用爬虫程序采集数据时，往往会遇到，因采集速度过快导致的自己网络ip被目标网站封禁，这种封禁有时候是封几分钟，有时候是封一天，封的时间不等，但是这样会导致我们局域网内其他人也无法访问目标网站，最大的问题是我们无法进行数据采集。为了保证正常采集数据且本地ip不被封禁，引入代理ip。

代理ip

代理ip有很多种类型，这里我们爬虫程序一般使用的是http或https的代理ip。
爬虫使用的话最好用高匿代理

高匿名代理不改变客户机的请求，这样在服务器看来就像有个真正的客户浏览器在访问它，这时客户的真实IP是隐藏的，服务器端不会认为我们使用了代理。

requests库使用代理ip

# 准备好的代理ip
proxy = "127.0.0.1:8000"    
proxies = {
        "https": "https://{0}".format(proxy),
        "http": "http://{0}".format(proxy),
 }
res = requests.get(url, proxies=proxies)

以上代码片段是最简单的requests库实现代理ip执行get请求

线上爬虫使用代理ip方案

目前爬虫使用代理的方法很多，这里我简单说说我在线上环境使用代理的心得。
首先，我自己维护了一个代理ip池，这个ip池是放在redis中的，也就是说我的所有可使用的代理ip是放在redis中，使用redis的set数据结构，

image.png

当然了，这里列出的ip都是可使用的，因为在放入redis之前我会使用特定的程序去检测代理ip的可用性。
代理ip的来源这里我要说一下，最好是越多越好，分好类，付费的，免费的，拨号的，全部拿来用，使用的时候随机从redis中取一个出来用。代理ip的选择大家自行查找，或者需要也可给我留言。

scrapy使用代理ip

class RandomProxyMiddleware(object):

    def __init__(self):
        settings = get_project_settings()
        self.PROXY_REDIS_HOST = settings.get('PROXY_REDIS_HOST')
        self.PROXY_REDIS_PORT = settings.get('PROXY_REDIS_PORT')
        self.PROXY_REDIS_PARAMS = settings.get('PROXY_REDIS_PARAMS')
        self.PROXY_REDIS_KEY = settings.get('PROXY_REDIS_KEY')
        self.pool = redis.ConnectionPool(host=self.PROXY_REDIS_HOST,
                                         port=self.PROXY_REDIS_PORT,
                                         db=self.PROXY_REDIS_PARAMS['db'],
                                         password=self.PROXY_REDIS_PARAMS['password'])
        self.conn = redis.StrictRedis(connection_pool=self.pool)

    def process_request(self, request, spider):
        proxy = self.conn.srandmember(self.PROXY_REDIS_KEY)
        proxy = proxy.decode('utf-8')
        proxy = json.loads(proxy)
        ip = proxy['proxy']
        request.meta['proxy'] = "https://%s" % ip

上图代码片段自定义一个代理中间件RandomProxyMiddleware,在scrapyprocess_request(self, request, spider)这个方法中使用redis的操作随机获取一个代理出来，加到request.meta['proxy']中,便完成了代理中间件的编写。随后把RandomProxyMiddleware加到setting文件中，

DOWNLOADER_MIDDLEWARES = {
   'crawl_spider.middlewares.RandomProxyMiddleware': 400,
}

便可完成scrapy增加代理的需求。

Scrapy使用代理爬取网站

前言

代理ip

requests库使用代理ip

线上爬虫使用代理ip方案

scrapy使用代理ip

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Scrapy使用代理爬取网站

前言

代理ip

requests库使用代理ip

线上爬虫使用代理ip方案

scrapy使用代理ip

热门文章

最新文章

相关电子书