文档备案控制台

开发者社区问答正文

爬虫怎么保存已经访问过的url

话说同志们在爬取数据的时候如何保存已经访问过的url和队列？对于爬取过的url，我使用redis的set来保存，访问队列是用list来保存，数据量是直线上升，内存不大，也只有4g，扛不住。不知道以前的方法是什么？

展开

收起

爵霸 2016-03-09 13:51:00 3183 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

志颖1

个人网站:https://www.zhouzying.cn

可以使用Hash去重

2019-07-17 18:56:00

赞同展开评论
爵霸

队列和判断是否访问我都是用的MySQL，考虑到Redis的持久化特性不是很好，而且当时也没想过用Redis或者其他的，暂时现在用MySQL也没什么问题。
具体的做法就是对url的md5值做唯一索引，每次查询都很快，表结构也简单。
队列的话使用的是查表的形式，SQL如下（具体status是表示一些自己定义的状态）：
select * from t_down_task where status = 0 order by id limit 1;
定期删除已经执行完的任务

2019-07-17 18:56:00

赞同展开评论

问答分类：

数据采集 NoSQL Redis 云数据库 Tair（兼容 Redis）

问答标签：

爬虫访问 URL访问爬虫URL URL爬虫爬虫保存访问URL

问答地址：

开发者社区 > 数据库 > 问答

相关问答

Web应用防火墙是否能够阻断脚本工具爬虫访问

161

1

0

fn里面访问公网他的出口IP是怎么分配的？我的场景是爬虫对出口IP有考虑。

509

2

0

阿里云OSS 文件Url签名过期依然可以访问（已经设置cache-control为no-cache）

2994

0

0

请问下, 接入ahas访问了应用页面,为什么显示suffix_cleaned_url呢？

1234

1

0

flask的框架，访问url 怎么变成下载html？

1093

1

0

如图，请问local start后为什么看不到访问的url地址，文档的例子上有一个url: htt

905

1

0

请问，PTS压测去访问接口url的时候，从阿里云出来的ip是随机的，这种随机有范围么？

1110

1

0

请问，PTS压测去访问接口url的时候，从阿里云出来的ip是固定的吗还是一个区间段的随机ip地址？

1272

1

0

请问，如图， s deploy后函数在控制台看为什么不是已部署状态，没有访问服务的url？

880

1

0

使用URL访问时会下载一个html文件，而不是访问网页，这该如何排查？

1134

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

内存被通义灵码吃光了。我电脑总共48G的内存，被通义灵码吃掉了30几G，你们搞什么飞机？

我下载的gguf文件，最新的LMSTUDIO仍然无法识别什么问题

CoPAW配置后，对话，出现 AGENT_UNKNOWN_ERROR 如何解决

copaw安装后，出现这个情况，在设置模型的过程中出现这个问题，如何解决

Qwen OpenAI-Responses 兼容模式有问题

相关文章

基于YOLOV8的混凝土裂缝识别系统（中英文双版） | 附完整源码与效果演示

一文读懂机床数据采集：数控系统适配、核心参数与落地实践

注塑机数据采集如何实现与 MES 系统的双向数据闭环？

别把数据中台做成“数据坟场”：聊聊企业数据中台架构的真实落地之路

FPGA时序收敛的痛点与解决之道——从一次高速接口调试谈起

还有其他疑问?