《精通Python网络爬虫：核心技术、框架与项目实战》——3.4　网页分析算法-阿里云开发者社区

《精通Python网络爬虫：核心技术、框架与项目实战》——3.4　网页分析算法

2017-05-02 1802

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章出版社《精通Python网络爬虫：核心技术、框架与项目实战》一书中的第3章，第3.4节，作者韦　玮，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.4　网页分析算法

在搜索引擎中，爬虫爬取了对应的网页之后，会将网页存储到服务器的原始数据库中，之后，搜索引擎会对这些网页进行分析并确定各网页的重要性，即会影响用户检索的排名结果。

所以在此，我们需要对搜索引擎的网页分析算法进行简单了解。

搜索引擎的网页分析算法主要分为3类：基于用户行为的网页分析算法、基于网络拓扑的网页分析算法、基于网页内容的网页分析算法。接下来我们分别对这些算法进行讲解。

1.基于用户行为的网页分析算法

基于用户行为的网页分析算法是比较好理解的。这种算法中，会依据用户对这些网页的访问行为，对这些网页进行评价，比如，依据用户对该网页的访问频率、用户对网页的访问时长、用户的单击率等信息对网页进行综合评价。

2.基于网络拓扑的网页分析算法

基于网络拓扑的网页分析算法是依靠网页的链接关系、结构关系、已知网页或数据等对网页进行分析的一种算法，所谓拓扑，简单来说即结构关系的意思。基于网络拓扑的网页分析算法，同样主要可以细分为3种类型：基于网页粒度的分析算法、基于网页块粒度的分析算法、基于网站粒度的分析算法。

PageRank算法是一种比较典型的基于网页粒度的分析算法。相信很多朋友都听过Page-Rank算法，它是谷歌搜索引擎的核心算法，简单来说，它会根据网页之间的链接关系对网页的权重进行计算，并可以依靠这些计算出来的权重，对网页进行排名。当然，具体的算法细节有很多，在此不展开讲解。除了PageRank算法之外，HITS算法也是一种常见的基于网页粒度的分析算法。

基于网页块粒度的分析算法，也是依靠网页间链接关系进行计算的，但计算规则有所不同。我们知道，在一个网页中通常会包含多个超链接，但一般其指向的外部链接中并不是所有的链接都与网站主题相关，或者说，这些外部链接对该网页的重要程度是不一样的，所以若要基于网页块粒度进行分析，则需要对一个网页中的这些外部链接划分层次，不同层次的外部链接对于该网页来说，其重要程度不同。这种算法的分析效率和准确率，会比传统的算法好一些。

基于网站粒度的分析算法，也与PageRank算法类似，但是，如果采用基于网站粒度进行分析，相应的，会使用SiteRank算法。即此时我们会划分站点的层次和等级，而不再具体地计算站点下的各个网页的等级。所以其相对于基于网页粒度的算法来说，则更加简单高效，但是会带来一些缺点，比如精确度不如基于网页粒度的分析算法精确。

3.基于网页内容的网页分析算法

在基于网页内容的网页分析算法中，会依据网页的数据、文本等网页内容特征，对网页进行相应的评价。

以上，我简单为大家介绍了搜索引擎中的网页分析算法，我们学习爬虫，需要对这些算法进行相应的了解。

《精通Python网络爬虫：核心技术、框架与项目实战》——3.4　网页分析算法

3.4　网页分析算法

1.基于用户行为的网页分析算法

2.基于网络拓扑的网页分析算法

3.基于网页内容的网页分析算法

华章出版社

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

《精通Python网络爬虫：核心技术、框架与项目实战》——3.4 网页分析算法

3.4 网页分析算法

1.基于用户行为的网页分析算法

2.基于网络拓扑的网页分析算法

3.基于网页内容的网页分析算法

华章出版社

热门文章

最新文章

相关课程

相关电子书

推荐镜像

《精通Python网络爬虫：核心技术、框架与项目实战》——3.4　网页分析算法

3.4　网页分析算法