python框架之Pyspider和Scrapy的区别-阿里云开发者社区

python框架之Pyspider和Scrapy的区别

2023-05-06 300

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： python框架之Pyspider和Scrapy的区别

对于一些简单的爬虫需求来说，只是简单的利用 requsets, xpath 等爬虫库就可以。但是如果是更复杂的需求这些简单的爬虫库远远无法达到一个爬虫框架的要求。一个爬虫框架的雏形，应该包含调度器、队列、请求对象等。我们平时写的爬虫程序，连最基本的框架都不具备。
但是这样的架构和模块还是太简单，远远达不到一个框架的要求。如果我们将各个组件独立出来，定义成不同的模块，也就慢慢形成了一个框架。
有了框架之后，我们就不必关心爬虫的全部流程，异常处理、任务调度等都会集成在框架中。我们只需要关心爬虫的核心逻辑部分即可，如页面信息的提取，下一步请求的生成等。这样，不仅开发效率会提高很多，而且爬虫的健壮性也更强。
爬虫框架有很多可以选择，这里我们重点带大家了解下pyspisder和Scrapy的区别。
1、pyspider 调试非常方便，WebUI 操作便捷直观，在 Scrapy 中则是使用 parse 命令进行调试，论方便程度不及 pyspider。
2、PySpider 中内置了 PyQuery 作为选择器，在 Scrapy 中对接了 XPath、CSS 选择器和正则匹配。
3、如果要快速实现一个页面的抓取，推荐使用 pyspider，开发更加便捷，如快速抓取某个普通新闻网站的新闻内容。如果要应对反爬程度很强、超大规模的抓取，推荐使用 Scrapy，如抓取封 IP、封账号、高频验证的网站的大规模数据采集。
比如一些大型新闻网站数据的获取就需要使用Scrapy，在访问过程中遇到封IP可以通过添加IP池来解决，IP池的选择最好根据IP延迟，速度，稳定性来进行重点测试。网络上有很多的代理商，综合各方面数据对比，亿牛云提供的爬虫隧道加强版值得推荐给大家。比如我们使用隧道代理来实现大型新闻网站数据获取的过程如下所示：

        import base64            
        import sys
        import random

        PY3 = sys.version_info[0] >= 3

        def base64ify(bytes_or_str):
            if PY3 and isinstance(bytes_or_str, str):
                input_bytes = bytes_or_str.encode('utf8')
            else:
                input_bytes = bytes_or_str

            output_bytes = base64.urlsafe_b64encode(input_bytes)
            if PY3:
                return output_bytes.decode('ascii')
            else:
                return output_bytes

        class ProxyMiddleware(object):                
            def process_request(self, request, spider):
                # 代理服务器(产品官网 www.16yun.cn)
                proxyHost = "t.16yun.cn"
                proxyPort = "31111"

                # 代理验证信息
                proxyUser = "YUTRGKJ"
                proxyPass = "547895"

                # [版本>=2.6.2](https://docs.scrapy.org/en/latest/news.html?highlight=2.6.2#scrapy-2-6-2-2022-07-25)无需添加验证头,会自动在请求头中设置Proxy-Authorization     
                request.meta['proxy'] = "http://{0}:{1}@{2}:{3}".format(proxyUser,proxyPass，proxyHost，proxyPort)

                # 版本<2.6.2 需要手动添加代理验证头
                # request.meta['proxy'] = "http://{0}:{1}".format(proxyHost,proxyPort)
                # request.headers['Proxy-Authorization'] = 'Basic ' +  base64ify(proxyUser + ":" + proxyPass)                    

                # 设置IP切换头(根据需求)
                # tunnel = random.randint(1,10000)
                # request.headers['Proxy-Tunnel'] = str(tunnel)

                # 每次访问后关闭TCP链接，强制每次访问切换IP
                request.header['Connection'] = "Close"

python框架之Pyspider和Scrapy的区别

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

python框架之Pyspider和Scrapy的区别

热门文章

最新文章

相关课程

相关电子书

推荐镜像