开发者社区> 问答> 正文

爬虫如何保存已访问过的url?

落地花开啦 2016-02-27 14:27:42 1000

在爬取数据的时候,如何保存已经访问过的url和队列?
对于爬取过的url,我使用redis的set来保存,访问队列是用list来保存,数据量是直线上升,内存不大,也只有4g,扛不住。不知道各位朋友有什么好的方法吗?

数据采集 NoSQL Redis
分享到
取消 提交回答
全部回答(3)
  • jxcgq
    2019-08-09 08:44:45

    混经验的

    0 0
  • 西山居2815
    2019-07-17 18:48:50

    学习了

    0 0
  • 落地花开啦
    2019-07-17 18:48:50

    4G内存可以开很大的BloomFilter了,每个URL只需要几个比特,URL长度无关。BloomFilter有一定错误率(比如千分之一、百分之一,取决于配置),会导致漏爬一些网页,但不会重复爬。
    如果4G内存开BloomFilter还不够的话,楼主更需要考虑的问题是怎么存爬出来的网页。

    0 0
添加回答
+ 订阅

分享数据库前沿,解构实战干货,推动数据库技术变革

推荐文章
相似问题
推荐课程