爬虫怎么保存已经访问过的url -问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

爬虫怎么保存已经访问过的url

2016-03-09 13:51:00 2401 2

话说同志们在爬取数据的时候如何保存已经访问过的url和队列?对于爬取过的url,我使用redis的set来保存,访问队列是用list来保存,数据量是直线上升,内存不大,也只有4g,扛不住。不知道以前的方法是什么?

取消 提交回答
全部回答(2)
  • 志颖1
    2019-07-17 18:56:00

    可以使用Hash去重

    0 0
  • 爵霸
    2019-07-17 18:56:00

    队列和判断是否访问我都是用的MySQL,考虑到Redis的持久化特性不是很好,而且当时也没想过用Redis或者其他的,暂时现在用MySQL也没什么问题。
    具体的做法就是对url的md5值做唯一索引,每次查询都很快,表结构也简单。
    队列的话使用的是查表的形式,SQL如下(具体status是表示一些自己定义的状态):
    select * from t_down_task where status = 0 order by id limit 1;
    定期删除已经执行完的任务

    0 0
添加回答
相关问答

37

回答

ISV接入钉钉详细示例以及代码(JAVA版本)  --服务窗代码部分放出

蛋蛋oo蛋蛋 2016-08-13 16:22:00 56192浏览量 回答数 37

20

回答

[@倚贤][¥20]学习Java后端的疑惑

小江同志 2018-10-24 16:11:21 133676浏览量 回答数 20

22

回答

爬虫数据管理【问答合集】

我是管理员 2018-08-10 16:37:41 148636浏览量 回答数 22

39

回答

安全组详解,新手必看教程

我的中国 2017-11-30 15:23:46 263044浏览量 回答数 39

23

回答

【精品问答合集】Redis热门问答

李博 bluemind 2019-05-29 16:36:15 130488浏览量 回答数 23

9

回答

HaoSQL,好用的SQL等数据库一键包发布!

梦丫头 2017-11-14 15:20:55 72096浏览量 回答数 9

30

回答

基础语言百问-Python

薯条酱 2017-05-17 18:01:13 66248浏览量 回答数 30

11

回答

【精品问答合集】MongoDB热门问答

李博 bluemind 2019-05-29 16:50:19 123101浏览量 回答数 11

15

回答

对象存储oss【问答合集】

我是管理员 2018-08-03 14:54:02 69221浏览量 回答数 15

13

回答

【精品问答合集】Java热门问答

李博 bluemind 2019-05-29 16:00:45 128717浏览量 回答数 13
+关注
2
文章
9426
问答
问答排行榜
最热
最新
相关电子书
更多
JS零基础入门教程(上册)
立即下载
性能优化方法论
立即下载
手把手学习日志服务SLS,云启实验室实战指南
立即下载