开发者社区> 问答> 正文

scrapy分为几个组成部分?分别有什么作用?

scrapy分为几个组成部分?分别有什么作用?

展开
收起
珍宝珠 2019-11-11 11:13:29 3171 0
1 条回答
写回答
取消 提交回答
  • 分为5个部分;Spiders(爬虫类),Scrapy Engine(引擎),Scheduler(调度器),Downloader(下载器),Item Pipeline(处理管道)。

    Spiders:开发者自定义的一个类,用来解析网页并抓取指定url返回的内容。
    Scrapy Engine:控制整个系统的数据处理流程,并进行事务处理的触发。
    Scheduler:接收Engine发出的requests,并将这些requests放入到处理列队中,以便之后engine需要时再提供。
    Download:抓取网页信息提供给engine,进而转发至Spiders。
    Item Pipeline:负责处理Spiders类提取之后的数据。
    比如清理HTML数据、验证爬取的数据(检查item包含某些字段)、查重(并丢弃)、将爬取结果保存到数据库中

    2019-11-11 12:49:16
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
复杂升学环境下的语言交互:技术与实践 立即下载
数据+算法定义新世界 立即下载
低代码开发师(初级)实战教程 立即下载