开发者社区 问答 正文

scrapy中如何实现暂停爬虫?

scrapy中如何实现暂停爬虫?

展开
收起
珍宝珠 2019-11-22 13:57:58 2337 分享 版权
1 条回答
写回答
取消 提交回答
  • # 有些情况下,例如爬取大的站点,我们希望能暂停爬取,之后再恢复运行。
    # Scrapy通过如下工具支持这个功能:
    一个把调度请求保存在磁盘的调度器
    一个把访问请求保存在磁盘的副本过滤器[duplicates filter]
    一个能持续保持爬虫状态(键/值对)的扩展
    Job 路径
    要启用持久化支持,你只需要通过 JOBDIR 设置 job directory 选项。
    这个路径将会存储所有的请求数据来保持一个单独任务的状态(例如:一次spider爬取(a spider run))。
    必须要注意的是,这个目录不允许被不同的spider共享,甚至是同一个spider的不同jobs/runs也不行。
    也就是说,这个目录就是存储一个单独 job的状态信息。
    
    2019-11-22 13:58:09
    赞同 展开评论
问答分类:
问答标签:
问答地址: