目标反爬虫怎么办?实践出真知-scrapy集成动态ip代理(以阿布云为例)

简介: 360截图20180712215548501.jpg一、前言在爬虫行当,每天都要面对目标反爬虫技术,我们想要拿到数据,就需要针对它们的反爬虫来制定绕过方法,比如它识别你的UserAgent,那你可能就需要伪造、它限制IP请求次数,你可能就需要限速或者改变ip、它用验证码来识别你是人是机,你就需要模拟人的操作并且正确填写它给你弹出的验证码等等。
360截图20180712215548501.jpg

一、前言

在爬虫行当,每天都要面对目标反爬虫技术,我们想要拿到数据,就需要针对它们的反爬虫来制定绕过方法,比如它识别你的UserAgent,那你可能就需要伪造、它限制IP请求次数,你可能就需要限速或者改变ip、它用验证码来识别你是人是机,你就需要模拟人的操作并且正确填写它给你弹出的验证码等等。

这里我以实际项目举例:有个项目需要爬取中国证券协会,对方使用的反爬虫手段中就有IP请求次数的限制,因为我需要的数据比较多,而且目标的数据很绕,所以我紧紧降低我爬虫的速度我觉得对我影响很大,所以我选择通过动态ip切换来应对,我需要在scrapy中实现ip自动切换,才能够在客户要求的时间内完成爬取任务。

在此之前,我用过第三方库scrapy-proxys加上芝麻ip的代理api接口,可能是之前代码没有调整好,导致的没有能够成功。(后面有机会再测试)。

二、阿布云范例

阿布云官方给出了python和scrapy的示例代码

文档python3示例

from urllib import request

# 要访问的目标页面
targetUrl = "http://test.abuyun.com/proxy.php"

# 代理服务器
proxyHost = "http-dyn.abuyun.com"
proxyPort = "9020"

# 代理隧道验证信息
proxyUser = "H01234567890123D"
proxyPass = "0123456789012345"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
    "host" : proxyHost,
    "port" : proxyPort,
    "user" : proxyUser,
    "pass" : proxyPass,
}

proxy_handler = request.ProxyHandler({
    "http"  : proxyMeta,
    "https" : proxyMeta,
})

#auth = request.HTTPBasicAuthHandler()
#opener = request.build_opener(proxy_handler, auth, request.HTTPHandler)

opener = request.build_opener(proxy_handler)

request.install_opener(opener)
resp = request.urlopen(targetUrl).read()

print (resp)                        

上面的是官方提供的python原生写法,下面还有官方提供的scrapy写法:

文档scrapy示例

import base64

# 代理服务器
proxyServer = "http://http-dyn.abuyun.com:9020"

# 代理隧道验证信息
proxyUser = "H012345678901zyx"
proxyPass = "0123456789012xyz"

# for Python2
proxyAuth = "Basic " + base64.b64encode(proxyUser + ":" + proxyPass)

# for Python3
#proxyAuth = "Basic " + base64.urlsafe_b64encode(bytes((proxyUser + ":" + proxyPass), "ascii")).decode("utf8")

class ProxyMiddleware(object):
    def process_request(self, request, spider):
        request.meta["proxy"] = proxyServer

        request.headers["Proxy-Authorization"] = proxyAuth 

这里在scrapy项目中的Middleware里面写即可。

三、正式集成

将它集成到scrapy框架中,那就在项目工程的middlewares.py中新增类及key等信息:

import base64

""" 阿布云ip代理key配置 """
proxyServer = "http://http-dyn.abuyun.com:9020"
proxyUser = "HWFHQ5YP14Lxxx"
proxyPass = "CB8D0AD56EAxxx"
# for Python3
proxyAuth = "Basic " + base64.urlsafe_b64encode(bytes((proxyUser + ":" + proxyPass),     "ascii")).decode("utf8")


class ABProxyMiddleware(object):
    """ 阿布云动态ip代理中间件 """
    def process_request(self, request, spider):
        request.meta["proxy"] = proxyServer
        request.headers["Proxy-Authorization"] = proxyAuth

然后再到settings.py中启用刚才编写的中间件:

DOWNLOADER_MIDDLEWARES = {

   #'Securities.middlewares.SecuritiesDownloaderMiddleware': None,

    'Securities.middlewares.ABProxyMiddleware': 1,
}

四、注意事项

阿布云动态ip默认是1秒钟请求5次,(可以加钱,购买多次)。所以,当他是默认5次的时候,我需要对爬虫进行限速,还是在settings.py中,空白处新增如下代码:

""" 启用限速设置 """
AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 0.2  # 初始下载延迟
DOWNLOAD_DELAY = 0.2  # 每次请求间隔时间

当然了,如果你加钱增加每秒次数的话,可以不用考虑限速的问题。

最后

即可完成阿布云动态代理ip在scrapy中的的集成,尽情的爬吧!

学习是一通百通的,既然阿布云平台的示例代码可以集成到框架中,那么其他平台的示例代码同样可以集成到框架中使用,我就不多写了。

如果你想真的学会这个技巧,你就应该自己去实践,自己动手编写代码并测试,才能够掌握在自己手中。

目录
相关文章
|
12天前
|
数据采集 存储 Go
Golang爬虫代理接入的技术与实践
Golang爬虫代理接入的技术与实践
|
12天前
|
数据采集 NoSQL Redis
Python爬虫-代理池原理和搭建
代理池架构,代理池的实现
54 0
|
4天前
|
数据采集 Web App开发 JavaScript
爬虫技术升级:如何结合DrissionPage和Auth代理插件实现数据采集
本文介绍了在Python中使用DrissionPage库和Auth代理Chrome插件抓取163新闻网站数据的方法。针对许多爬虫框架不支持代理认证的问题,文章提出了通过代码生成包含认证信息的Chrome插件来配置代理。示例代码展示了如何创建插件并利用DrissionPage进行网页自动化,成功访问需要代理的网站并打印页面标题。该方法有效解决了代理认证难题,提高了爬虫的效率和安全性,适用于各种需要代理认证的网页数据采集。
爬虫技术升级:如何结合DrissionPage和Auth代理插件实现数据采集
|
11天前
|
数据采集 Web App开发 搜索推荐
突破目标网站的反爬虫机制:Selenium策略分析
突破目标网站的反爬虫机制:Selenium策略分析
|
12天前
|
分布式计算 DataWorks 关系型数据库
DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
33 0
|
12天前
|
数据采集 定位技术 Python
Python爬虫IP代理技巧,让你不再为IP封禁烦恼了! 
本文介绍了Python爬虫应对IP封禁的策略,包括使用代理IP隐藏真实IP、选择稳定且数量充足的代理IP服务商、建立代理IP池增加爬虫效率、设置合理抓取频率以及运用验证码识别技术。这些方法能提升爬虫的稳定性和效率,降低被封禁风险。
|
12天前
|
数据采集 安全 API
SOCKS5代理IP:为什么它是网络爬虫的首选?
代理IP在网络爬虫中扮演重要角色,尤其是SOCKS5代理因其灵活性(支持多种协议)、高度匿名性、高速稳定性和安全性而备受青睐。它能帮助爬虫绕过访问限制,隐秘高效地收集数据,同时提供身份验证以保障安全。穿云API作为代理协议,在爬虫领域也受到推崇。
|
12天前
|
监控 测试技术 数据安全/隐私保护
如何将代理IP集成到自动化测试框架中?
如何将代理IP集成到自动化测试框架中?
|
12天前
|
数据采集 存储
4个步骤:如何使用 SwiftSoup 和爬虫代理获取网站视频
本文介绍了如何使用SwiftSoup库和爬虫代理技术抓取网站视频资源。通过安装SwiftSoup、获取HTML内容、解析HTML以提取视频链接,以及设置爬虫代理来绕过访问限制,可以实现高效、灵活的视频资源获取。示例代码展示了一个完整的过程,包括下载并存储视频文件到设备。结合这两种技术,可以有效应对网站访问挑战,方便地获取互联网视频资源。
4个步骤:如何使用 SwiftSoup 和爬虫代理获取网站视频
|
12天前
|
数据采集 大数据
爬虫为什么要使用代理IP?
网络爬虫在大数据时代中扮演关键角色,但面临反爬系统和地域IP限制的挑战。高匿名代理IP成为解决之道,它隐藏真实IP,防止封禁,支持多IP并发爬取,突破地域限制,提高爬取效率。然而,应对复杂反爬策略仍需结合有效的爬虫策略。选择高质量代理IP服务商至关重要。

热门文章

最新文章