《精通Python网络爬虫：核心技术、框架与项目实战》——3.3　网页更新策略-阿里云开发者社区

《精通Python网络爬虫：核心技术、框架与项目实战》——3.3　网页更新策略

2017-05-02 2592

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章出版社《精通Python网络爬虫：核心技术、框架与项目实战》一书中的第3章，第3.3节，作者韦　玮，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.3　网页更新策略

一个网站的网页经常会更新，作为爬虫方，在网页更新后，我们则需要对这些网页进行重新爬取，那么什么时候去爬取合适呢？如果网站更新过慢，而爬虫爬取得过于频繁，则必然会增加爬虫及网站服务器的压力，若网站更新较快，但是爬虫爬取的时间间隔较长，则我们爬取的内容版本会过老，不利于新内容的爬取。显然，网站的更新频率与爬虫访问网站的频率越接近，则效果越好，当然，爬虫服务器资源有限的时候，此时爬虫也需要根据对应策略，让不同的网页具有不同的更新优先级，优先级高的网页更新，将获得较快的爬取响应。

具体来说，常见的网页更新策略主要有3种：用户体验策略、历史数据策略、聚类分析策略等，以下我们将分别进行讲解。

在搜索引擎查询某个关键词的时候，会出现一个排名结果，在排名结果中，通常会有大量的网页，但是，大部分用户都只会关注排名靠前的网页，所以，在爬虫服务器资源有限的情况下，爬虫会优先更新排名结果靠前的网页。这种更新策略，我们称之为用户体验策略，那么在这种策略中，爬虫到底何时去爬取这些排名结果靠前的网页呢？此时，爬取中会保留对应网页的多个历史版本，并进行对应分析，依据这多个历史版本的内容更新、搜索质量影响、用户体验等信息，来确定对这些网页的爬取周期。

除此之外，我们还可以使用历史数据策略来确定对网页更新爬取的周期。比如，我们可以依据某一个网页的历史更新数据，通过泊松过程进行建模等手段，预测该网页下一次更新的时间，从而确定下一次对该网页爬取的时间，即确定更新周期。

以上两种策略，都需要历史数据作为依据。有的时候，若一个网页为新网页，则不会有对应的历史数据，并且，如果要依据历史数据进行分析，则需要爬虫服务器保存对应网页的历史版本信息，这无疑给爬虫服务器带来了更多的压力和负担。如果想要解决这些问题，则需要采取新的更新策略。比较常用的是聚类分析策略。那么什么是聚类分析策略呢？

在生活中，相信大家对分类已经非常熟悉，比如我们去商场，商场中的商品一般都分好类了，方便顾客去选购相应的商品，此时，商品分类的类别是固定的，是已经拟定好的。但是，假如商品的数量巨大，事先无法对其进行分类，或者说，根本不知道将会拥有哪些类别的商品，此时，我们应该如何解决将商品归类的问题呢？

这时候我们可以用聚类的方式解决，依据商品之间的共性进行相应分析，将
共性较多的商品聚为一类，此时，商品聚集成的类的数目是不一定的，但是能保证的是，聚在一起的商品之间一定有某种共性，即依据“物以类聚”的思想去实现。

同样，在我们的聚类算法中，也会有类似的分析过程。

将聚类分析算法运用在爬虫对网页的更新上，我们可以这样做，如图3-4所示。

f4d4da8759398f071622104a0b101a36811fbf1e

1）首先，经过大量的研究发现，网页可能具有不同的内容，但是一般来说，具有类似属性的网页，其更新频率类似。这是聚类分析算法运用在爬虫网页的更新上的一个前提指导思想。

2）有了1中的指导思想后，我们可以首先对海量的网页进行聚类分析，在聚类之后，会形成多个类，每个类中的网页具有类似的属性，即一般具有类似的更新频率。

3）聚类完成后，我们可以对同一个聚类中的网页进行抽样，然后求该抽样结果的平均更新值，从而确定对每个聚类的爬行频率。

以上，就是使用爬虫爬取网页的时候，常见的3种更新策略，我们掌握了其算法思想后，在后续我们进行爬虫的实际开发的时候，编写出来的爬虫执行效率会更高，并且执行逻辑会更合理。

《精通Python网络爬虫：核心技术、框架与项目实战》——3.3　网页更新策略

3.3　网页更新策略

华章出版社

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

《精通Python网络爬虫：核心技术、框架与项目实战》——3.3 网页更新策略

3.3 网页更新策略

华章出版社

热门文章

最新文章

相关课程

相关电子书

推荐镜像

《精通Python网络爬虫：核心技术、框架与项目实战》——3.3　网页更新策略

3.3　网页更新策略