文档备案控制台

开发者社区问答正文

分布式爬虫原理？

分布式爬虫原理？

展开

收起

珍宝珠 2019-11-11 11:54:25 2513 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

珍宝珠

scrapy-redis实现分布式，其实从原理上来说很简单，这里为描述方便，我们把自己的核心服务器称为 master，而把用于跑爬虫程序的机器称为 slave。

我们知道，采用 scrapy 框架抓取网页，我们需要首先给定它一些 start_urls，爬虫首先访问 start_urls里面的 url，再根据我们的具体逻辑，对里面的元素、或者是其他的二级、三级页面进行抓取。而要实现分布式，我们只需要在这个 starts_urls 里面做文章就行了。

我们在 master 上搭建一个 redis 数据库（注意这个数据库只用作 url 的存储，不关心爬取的具体数据，不要和后面的 mongodb 或者 mysql 混淆），并对每一个需要爬取的网站类型，都开辟一个单独的列表字段。通过设置 slave 上 scrapy-redis 获取 url 的地址为 master 地址。这样的结果就是，尽管有多个 slave，然而大家获取 url 的地方只有一个，那就是服务器 master 上的 redis 数据库。并且，由于 scrapy-redis 自身的队列机制，slave 获取的链接不会相互冲突。这样各个 slave 在完成抓取任务之后，再把获取的结果汇总到服务器上（这时的数据存储不再在是 redis，而是 mongodb 或者mysql等存放具体内容的数据库了）这种方法的还有好处就是程序移植性强，只要处理好路径问题，把 slave 上的程序移植到另一台机器上运行，基本上就是复制粘贴的事情。

2019-11-11 13:34:35

赞同展开评论

问答分类：

数据采集

问答标签：

爬虫原理分布式原理

问答地址：

开发者社区 > 大数据 > 问答

相关问答

分布式事务原理是什么？

158

1

0

dataworks这个分布式同步如果数据源是MYSQL 原理是什么根据主键进行任务拆分吗？

192

4

0

爬虫的基本原理是什么呢？

439

1

0

需要了解数据库原理才能做分布式事物嘛？

527

1

0

分布式链路跟踪Sleuth原理是什么啊？

594

1

0

分布式链路跟踪Zipkin原理是什么啊？

534

1

0

深入理解分布式事务:原理与实战电子书全章谁有

4301

1

0

分布式系统的原子广播原理是什么？

860

1

0

分布式原理是什么？

419

1

0

分布式去重原理是什么？

417

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

阿里云如何部署使用OpenClaw？OpenClaw部署一看就会：零基础零代码、纯点击

阿里云ECS 手动部署 OpenClaw 超详细教程（2026最新版）

2026年阿里云新老用户如何部署OpenClaw？OpenClaw部署喂饭级教程

在今天3点左右通义灵码问问题不正常返回了

有没有将一个网页部署到服务器上的教程

相关文章

环境振动估算阻尼比（SDOF）研究（Matlab代码实现）

风力涡轮机系统与压缩空气储能联合运行的建模与实验研究（Matlab代码实现）

2026 年，医疗机构继续重仓“竞价排名”是否理性？——从技术视角看医疗GEO与数字信誉资产

Python 异步编程实战指南：从零构建高并发 Web 爬虫与 API 服务

Go 1.26 新特性：`net.Dialer` 终于支持带 context 的高性能拨号！

还有其他疑问?