备案控制台

开发者社区问答正文

爬虫怎么保存已经访问过的url

话说同志们在爬取数据的时候如何保存已经访问过的url和队列？对于爬取过的url，我使用redis的set来保存，访问队列是用list来保存，数据量是直线上升，内存不大，也只有4g，扛不住。不知道以前的方法是什么？

展开

收起

爵霸 2016-03-09 13:51:00 3146 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

志颖1

个人网站:https://www.zhouzying.cn

可以使用Hash去重

2019-07-17 18:56:00

赞同展开评论
爵霸

队列和判断是否访问我都是用的MySQL，考虑到Redis的持久化特性不是很好，而且当时也没想过用Redis或者其他的，暂时现在用MySQL也没什么问题。
具体的做法就是对url的md5值做唯一索引，每次查询都很快，表结构也简单。
队列的话使用的是查表的形式，SQL如下（具体status是表示一些自己定义的状态）：
select * from t_down_task where status = 0 order by id limit 1;
定期删除已经执行完的任务

2019-07-17 18:56:00

赞同展开评论

问答分类：

数据采集 NoSQL Redis 云数据库 Tair（兼容 Redis）

问答标签：

爬虫访问 URL访问爬虫URL URL爬虫爬虫保存访问URL

问答地址：

开发者社区 > 数据库 > 问答

相关问答

Web应用防火墙是否能够阻断脚本工具爬虫访问

141

1

0

fn里面访问公网他的出口IP是怎么分配的？我的场景是爬虫对出口IP有考虑。

489

2

0

阿里云OSS 文件Url签名过期依然可以访问（已经设置cache-control为no-cache）

2910

0

0

请问下, 接入ahas访问了应用页面,为什么显示suffix_cleaned_url呢？

1211

1

0

flask的框架，访问url 怎么变成下载html？

1062

1

0

如图，请问local start后为什么看不到访问的url地址，文档的例子上有一个url: htt

874

1

0

请问，PTS压测去访问接口url的时候，从阿里云出来的ip是随机的，这种随机有范围么？

1092

1

0

请问，PTS压测去访问接口url的时候，从阿里云出来的ip是固定的吗还是一个区间段的随机ip地址？

1240

1

0

请问，如图， s deploy后函数在控制台看为什么不是已部署状态，没有访问服务的url？

855

1

0

使用URL访问时会下载一个html文件，而不是访问网页，这该如何排查？

1116

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

PolarDB这个PXD部署这个端口可以指定吗？

通义灵码启动异常，可点击按钮进行一键修复，如仍无法解决，请参考[问题排查指南](https://he

关于idea lingma欺骗的对话。请开发者尽快修复

怎么搭建本地文生图工作流

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

相关文章

CNFANS模式淘宝1688代购系统搭建指南

雷达目标航迹跟踪与数据处理

机器学习时间特征处理：循环编码（Cyclical Encoding）与其在预测模型中的应用

蓝易云：在CentOS 7系统中彻底移除MongoDB数据库的步骤

RFID智能灯条让快递驿站查找如此简单

还有其他疑问?