文档备案控制台

开发者社区问答正文

爬虫如何保存已访问过的url?

在爬取数据的时候,如何保存已经访问过的url和队列？
对于爬取过的url，我使用redis的set来保存，访问队列是用list来保存，数据量是直线上升，内存不大，也只有4g，扛不住。不知道各位朋友有什么好的方法吗？

展开

收起

落地花开啦 2016-02-27 14:27:42 3192 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

3 条回答

写回答

取消提交回答

jxcgq

混经验的

2019-08-09 08:44:45

赞同展开评论
西山居2815

学习了

2019-07-17 18:48:50

赞同展开评论
落地花开啦

喜欢技术，喜欢努力的人

4G内存可以开很大的BloomFilter了，每个URL只需要几个比特，URL长度无关。BloomFilter有一定错误率（比如千分之一、百分之一，取决于配置），会导致漏爬一些网页，但不会重复爬。
如果4G内存开BloomFilter还不够的话，楼主更需要考虑的问题是怎么存爬出来的网页。

2019-07-17 18:48:50

赞同展开评论

问答分类：

数据采集 NoSQL Redis 云数据库 Tair（兼容 Redis）

问答标签：

爬虫访问 URL访问爬虫URL URL爬虫爬虫保存访问URL

问答地址：

开发者社区 > 数据库 > 问答

相关问答

Web应用防火墙是否能够阻断脚本工具爬虫访问

158

1

0

fn里面访问公网他的出口IP是怎么分配的？我的场景是爬虫对出口IP有考虑。

507

2

0

阿里云OSS 文件Url签名过期依然可以访问（已经设置cache-control为no-cache）

2984

0

0

请问下, 接入ahas访问了应用页面,为什么显示suffix_cleaned_url呢？

1231

1

0

flask的框架，访问url 怎么变成下载html？

1092

1

0

如图，请问local start后为什么看不到访问的url地址，文档的例子上有一个url: htt

900

1

0

请问，PTS压测去访问接口url的时候，从阿里云出来的ip是随机的，这种随机有范围么？

1110

1

0

请问，PTS压测去访问接口url的时候，从阿里云出来的ip是固定的吗还是一个区间段的随机ip地址？

1269

1

0

请问，如图， s deploy后函数在控制台看为什么不是已部署状态，没有访问服务的url？

877

1

0

使用URL访问时会下载一个html文件，而不是访问网页，这该如何排查？

1131

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

部署coclaw，报错如下，怎么办？应该点击哪里？

claude code接入千问3.5效果怎么样如题,用过的老哥给评测一下

灵码如何使用skills呢

copaw在魔搭平台搭建控制面板卡死重启无效

阿里云服务器镜像系统选哪个比较好？稳定和兼容性如何？

相关文章

AI大模型训练数据告急？用Redis+动态代理采集数据集

OpenClaw（Clawdbot）阿里云及本地部署与资源/并发/稳定性全链路优化教程

阿里云 KVStore 云数据库全解：配置价格、适用场景、核心优势一文吃透

终于有人把数据挖掘讲清楚了

Python 爬虫 403 错误处理：Selenium 与普通请求对比

还有其他疑问?