开发者社区> 问答> 正文

爬虫如何保存已访问过的url?

在爬取数据的时候,如何保存已经访问过的url和队列?
对于爬取过的url,我使用redis的set来保存,访问队列是用list来保存,数据量是直线上升,内存不大,也只有4g,扛不住。不知道各位朋友有什么好的方法吗?

展开
收起
落地花开啦 2016-02-27 14:27:42 3024 0
3 条回答
写回答
取消 提交回答
  • 混经验的

    2019-08-09 08:44:45
    赞同 展开评论 打赏
  • 学习了

    2019-07-17 18:48:50
    赞同 展开评论 打赏
  • 喜欢技术,喜欢努力的人

    4G内存可以开很大的BloomFilter了,每个URL只需要几个比特,URL长度无关。BloomFilter有一定错误率(比如千分之一、百分之一,取决于配置),会导致漏爬一些网页,但不会重复爬。
    如果4G内存开BloomFilter还不够的话,楼主更需要考虑的问题是怎么存爬出来的网页。

    2019-07-17 18:48:50
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Python第五讲——关于爬虫如何做js逆向的思路 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载