爬虫如何保存已访问过的url?-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

爬虫如何保存已访问过的url?

2016-02-27 14:27:42 2460 3

在爬取数据的时候,如何保存已经访问过的url和队列?
对于爬取过的url,我使用redis的set来保存,访问队列是用list来保存,数据量是直线上升,内存不大,也只有4g,扛不住。不知道各位朋友有什么好的方法吗?

取消 提交回答
全部回答(3)
  • jxcgq
    2019-08-09 08:44:45

    混经验的

    0 0
  • 西山居2815
    2019-07-17 18:48:50

    学习了

    0 0
  • 落地花开啦
    2019-07-17 18:48:50

    4G内存可以开很大的BloomFilter了,每个URL只需要几个比特,URL长度无关。BloomFilter有一定错误率(比如千分之一、百分之一,取决于配置),会导致漏爬一些网页,但不会重复爬。
    如果4G内存开BloomFilter还不够的话,楼主更需要考虑的问题是怎么存爬出来的网页。

    0 0
添加回答
相关问答

37

回答

ISV接入钉钉详细示例以及代码(JAVA版本)  --服务窗代码部分放出

蛋蛋oo蛋蛋 2016-08-13 16:22:00 56437浏览量 回答数 37

20

回答

[@倚贤][¥20]学习Java后端的疑惑

小江同志 2018-10-24 16:11:21 134629浏览量 回答数 20

22

回答

爬虫数据管理【问答合集】

我是管理员 2018-08-10 16:37:41 149032浏览量 回答数 22

39

回答

安全组详解,新手必看教程

我的中国 2017-11-30 15:23:46 263739浏览量 回答数 39

23

回答

【精品问答合集】Redis热门问答

李博 bluemind 2019-05-29 16:36:15 131374浏览量 回答数 23

9

回答

HaoSQL,好用的SQL等数据库一键包发布!

梦丫头 2017-11-14 15:20:55 72353浏览量 回答数 9

30

回答

基础语言百问-Python

薯条酱 2017-05-17 18:01:13 66523浏览量 回答数 30

11

回答

【精品问答合集】MongoDB热门问答

李博 bluemind 2019-05-29 16:50:19 123609浏览量 回答数 11

15

回答

对象存储oss【问答合集】

我是管理员 2018-08-03 14:54:02 69690浏览量 回答数 15

13

回答

【精品问答合集】Java热门问答

李博 bluemind 2019-05-29 16:00:45 129471浏览量 回答数 13
+关注
落地花开啦
喜欢技术,喜欢努力的人
0
文章
7824
问答
问答排行榜
最热
最新
相关电子书
更多
JS零基础入门教程(上册)
立即下载
性能优化方法论
立即下载
手把手学习日志服务SLS,云启实验室实战指南
立即下载