scrapy 编写扩展（八）-阿里云开发者社区

scrapy 编写扩展（八）

2016-11-03 1251

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在scrapy使用过程中，很多情况下需要根据实际需求定制自己的扩展，小到实现自己的pipelines，大到用新的scheduler替换默认的scheduler。扩展可以按照是否需要读取crawler大致分为两种，对于不需要读取的，比如pipelines的编写，只需要实现默认的方法porcess_item。需要读取的，如scheduler的编写又存在另外的方式。 1.第一种

在scrapy使用过程中，很多情况下需要根据实际需求定制自己的扩展，小到实现自己的pipelines，大到用新的scheduler替换默认的scheduler。

扩展可以按照是否需要读取crawler大致分为两种，对于不需要读取的，比如pipelines的编写，只需要实现默认的方法porcess_item。需要读取的，如scheduler的编写又存在另外的方式。

1.第一种

这种处理起来比较简单，一般是根据scrapy的signals实现相应的处理。具体实现可见文档pipelines的编写方法。

2.第二种

（1）区别：

这种方式和第一种的主要区别是需要使用crawler内部信息，比如接收内部信号，如signals.spider_opened等。还体现在对设置setting.py的是否需要读取上。

（2）实现：

i)读取设置一般通过from_settings函数实现。一下是scrapy-redis中scheduler的from_settings的实现方法：

def from_settings(cls, settings):
        persist = settings.get('SCHEDULER_PERSIST', SCHEDULER_PERSIST)
        queue_key = settings.get('SCHEDULER_QUEUE_KEY', QUEUE_KEY)
        queue_cls = load_object(settings.get('SCHEDULER_QUEUE_CLASS', QUEUE_CLASS))
        dupefilter_key = settings.get('DUPEFILTER_KEY', DUPEFILTER_KEY)
        idle_before_close = settings.get('SCHEDULER_IDLE_BEFORE_CLOSE', IDLE_BEFORE_CLOSE)
        server = connection.from_settings(settings)
        return cls(server, persist, queue_key, queue_cls, dupefilter_key, idle_before_close)

ii)from_crawler()

Scrapy API的主要入口是 Crawler 的实例对象，通过类方法 from_crawler 将它传递给扩展(extensions)。该对象提供对所有Scrapy核心组件的访问，也是扩展访问Scrapy核心组件和挂载功能到Scrapy的唯一途径。
实现例子如下：

def from_crawler(cls, crawler):
        instance = cls.from_settings(crawler.settings)
        return instance

iii)其它函数

想pipelines中的process_item一样，有些函数是此类型组建所必需的，整个框架在执行时会使用到次函数，所以必须加以实现。如scheduler中的enqueue_request、next_request等函数。

最难处理的也是第iii种，这需要全局了解scrapy运行逻辑，函数调用关系等。比较简单的方式是按照原组件的函数功能，函数返回值等根据自己编写的扩展的功能重新实现。就是照葫芦画瓢。

scrapy内data stream在其文档的架构上已经说明，但是转化到代码上好难找啊。

其它：

探索的提高效率的py-charm操作：

ctrl+shift+f可以全局查找字符的出现。右上角的放大镜貌似只能找函数。

文章标签：

Python

API

关键词：

Scrapy扩展

scrapy 编写扩展（八）

1.第一种

2.第二种

（1）区别：

（2）实现：

i)读取设置一般通过from_settings函数实现。一下是scrapy-redis中scheduler的from_settings的实现方法：

ii)from_crawler()

iii)其它函数

其它：

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

scrapy 编写扩展 （八）

1.第一种

2.第二种

（1）区别：

（2）实现：

i)读取设置一般通过from_settings函数实现。一下是scrapy-redis中scheduler的from_settings的实现方法：

ii)from_crawler()

iii)其它函数

其它：

热门文章

最新文章

相关电子书

scrapy 编写扩展（八）