备案控制台

开发者社区问答正文

爬虫如何保存已访问过的url?

在爬取数据的时候,如何保存已经访问过的url和队列？
对于爬取过的url，我使用redis的set来保存，访问队列是用list来保存，数据量是直线上升，内存不大，也只有4g，扛不住。不知道各位朋友有什么好的方法吗？

展开

收起

落地花开啦 2016-02-27 14:27:42 3168 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

3 条回答

写回答

取消提交回答

jxcgq

混经验的

2019-08-09 08:44:45

赞同展开评论
西山居2815

学习了

2019-07-17 18:48:50

赞同展开评论
落地花开啦

喜欢技术，喜欢努力的人

4G内存可以开很大的BloomFilter了，每个URL只需要几个比特，URL长度无关。BloomFilter有一定错误率（比如千分之一、百分之一，取决于配置），会导致漏爬一些网页，但不会重复爬。
如果4G内存开BloomFilter还不够的话，楼主更需要考虑的问题是怎么存爬出来的网页。

2019-07-17 18:48:50

赞同展开评论

问答分类：

数据采集 NoSQL Redis 云数据库 Tair（兼容 Redis）

问答标签：

爬虫访问 URL访问爬虫URL URL爬虫爬虫保存访问URL

问答地址：

开发者社区 > 数据库 > 问答

相关问答

Web应用防火墙是否能够阻断脚本工具爬虫访问

137

1

0

fn里面访问公网他的出口IP是怎么分配的？我的场景是爬虫对出口IP有考虑。

485

2

0

阿里云OSS 文件Url签名过期依然可以访问（已经设置cache-control为no-cache）

2886

0

0

请问下, 接入ahas访问了应用页面,为什么显示suffix_cleaned_url呢？

1210

1

0

flask的框架，访问url 怎么变成下载html？

1061

1

0

如图，请问local start后为什么看不到访问的url地址，文档的例子上有一个url: htt

873

1

0

请问，PTS压测去访问接口url的时候，从阿里云出来的ip是随机的，这种随机有范围么？

1092

1

0

请问，PTS压测去访问接口url的时候，从阿里云出来的ip是固定的吗还是一个区间段的随机ip地址？

1230

1

0

请问，如图， s deploy后函数在控制台看为什么不是已部署状态，没有访问服务的url？

855

1

0

使用URL访问时会下载一个html文件，而不是访问网页，这该如何排查？

1112

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

阿里云CDN价格表，CDN如何收费的？

CentOS 7安装最新版docker-compose-plugin（2.27.1-1.el7）报错

服务器<details open ontoggle="alert(9);"></details>

通义灵码，文件编辑返回403错误

相关文章

空间检索（上）：如何用 Geohash 实现「查找附近的人」功能？

NoSQL 检索：为什么日志系统主要用 LSM 树而非 B+ 树？

一、数据仓库基石：核心理论、分层艺术与 ETL/ELT 之辨

存储系统：从检索技术角度剖析 LevelDB 的架构设计思想

搜索引擎：输入搜索词以后，搜索引擎是怎么工作的？

还有其他疑问?