开发者社区> 问答> 正文

scrapy中如何实现暂停爬虫?

scrapy中如何实现暂停爬虫?

展开
收起
珍宝珠 2019-11-22 13:57:58 2274 0
1 条回答
写回答
取消 提交回答
  • # 有些情况下,例如爬取大的站点,我们希望能暂停爬取,之后再恢复运行。
    # Scrapy通过如下工具支持这个功能:
    一个把调度请求保存在磁盘的调度器
    一个把访问请求保存在磁盘的副本过滤器[duplicates filter]
    一个能持续保持爬虫状态(键/值对)的扩展
    Job 路径
    要启用持久化支持,你只需要通过 JOBDIR 设置 job directory 选项。
    这个路径将会存储所有的请求数据来保持一个单独任务的状态(例如:一次spider爬取(a spider run))。
    必须要注意的是,这个目录不允许被不同的spider共享,甚至是同一个spider的不同jobs/runs也不行。
    也就是说,这个目录就是存储一个单独 job的状态信息。
    
    2019-11-22 13:58:09
    赞同 展开评论 打赏
问答分类:
问答标签:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Python第五讲——关于爬虫如何做js逆向的思路 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载