《精通Python网络爬虫：核心技术、框架与项目实战》—

《精通Python网络爬虫：核心技术、框架与项目实战》——3.2　爬行策略

2017-05-02 2023

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章出版社《精通Python网络爬虫：核心技术、框架与项目实战》一书中的第3章，第3.2节，作者韦　玮，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.2　爬行策略

在网络爬虫爬取的过程，在待爬取的URL列表中，可能有很多URL地址，那么这些URL地址，爬虫应该先爬取哪个，后爬取哪个呢？在通用网络爬虫中，虽然爬取的顺序并不是那么重要，但是在其他很多爬虫中，比如聚焦网络爬虫中，爬取的顺序非常重要，而爬取的顺序，一般由爬行策略决定。在这一节中，我们将为大家介绍一些常见的爬行策略。

爬行策略主要有深度优先爬行策略、广度优先爬行策略、大站优先策略、反链策略、其他爬行策略等。下面我们将分别进行介绍。

如图3-3所示，假设有一个网站，ABCDEFG分别为站点下的网页，图中箭头表示网页的层次结构。

abc4d686e6141c1f0f5c17bc9f3cfc1ddb2c28c2

假如此时网页ABCDEFG都在爬行队列中，那么按照不同的爬行策略，其爬取的顺序是不同的。

比如，如果按照深度优先爬行策略去爬取的话，那么此时会首先爬取一个网页，然后将这个网页的下层链接依次深入爬取完再返回上一层进行爬取。

所以，若按深度优先爬行策略，图3-3中的爬行顺序可以是：A → D → E → B → C → F → G。

如果按照广度优先的爬行策略去爬取的话，那么此时首先会爬取同一层次的网页，将同一层次的网页全部爬取完后，在选择下一个层次的网页去爬行，比如，上述的网站中，如果按照广度优先的爬行策略去爬取的话，爬行顺序可以是：A→B→C→D→E→F→G。

除了以上两种爬行策略之外，我们还可以采用大站爬行策略。我们可以按对应网页所属的站点进行归类，如果某个网站的网页数量多，那么我们则将其称为大站，按照这种策略，网页数量越多的网站越大，然后，优先爬取大站中的网页URL地址。

一个网页的反向链接数，指的是该网页被其他网页指向的次数，这个次数在一定程度上代表着该网页被其他网页的推荐次数。所以，如果按反链策略去爬行的话，那么哪个网页的反链数量越多，则哪个网页将被优先爬取。但是，在实际情况中，如果单纯按反链策略去决定一个网页的优先程度的话，那么可能会出现大量的作弊情况。比如，做一些垃圾站群，并将这些网站互相链接，如果这样的话，每个站点都将获得较高的反链，从而达到作弊的目的。作为爬虫项目方，我们当然不希望受到这种作弊行为的干扰，所以，如果采用反向链接策略去爬取的话，一般会考虑可靠的反链数。

除了以上这些爬行策略，在实际中还有很多其他的爬行策略，比如OPIC策略、Partial PageRank策略等。

《精通Python网络爬虫：核心技术、框架与项目实战》——3.2　爬行策略

3.2　爬行策略

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

《精通Python网络爬虫：核心技术、框架与项目实战》——3.2 爬行策略

3.2 爬行策略

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

《精通Python网络爬虫：核心技术、框架与项目实战》——3.2　爬行策略

3.2　爬行策略