精通Python网络爬虫：核心技术、框架与项目实战.1.5　爬虫扩展—

精通Python网络爬虫：核心技术、框架与项目实战.1.5　爬虫扩展——聚焦爬虫

2017-05-02 1320

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

1.5　爬虫扩展——聚焦爬虫

由于聚焦爬虫可以按对应的主题有目的地进行爬取，并且可以节省大量的服务器资源和带宽资源，具有很强的实用性，所以在此，我们将对聚焦爬虫进行详细讲解。图1-2所示为聚焦爬虫运行的流程，熟悉该流程后，我们可以更清晰地知道聚焦爬虫的工作原理和

过程。

首先，聚焦爬虫拥有一个控制中心，该控制中心负责对整个爬虫系统进行管理和监控，主要包括控制用户交互、初始化爬行器、确定主题、协调各模块之间的工作、控制爬行过程等方面。

然后，将初始的URL集合传递给URL队列，页面爬行模块会从URL队列中读取第一批URL列表，然后根据这些URL地址从互联网中进行相应的页面爬取。爬取后，将爬取到的内容传到页面数据库中存储，同时，在爬行过程中，会爬取到一些新的URL，此时，需要根据我们所定的主题使用链接过滤模块过滤掉无关链接，再将剩下来的URL链接根据主题使用链接评价模块或内容评价模块进行优先级的排序。完成后，将新的URL地址传递到URL队列中，供页面爬行模块使用。另一方面，将页面爬取并存放到页面数据库后，需要根据主题使用页面分析模块对爬取到的页面进行页面分析处理，并根据处理结果建立索引数据库，用户检索对应信息时，可以从索引数据库中进行相应的检索，并得到对应的结果。

图1-2　聚焦爬虫运行的流程

这就是聚焦爬虫的主要工作流程，了解聚焦爬虫的主要工作流程有助于我们编写聚焦爬虫，使编写的思路更加清晰。

精通Python网络爬虫：核心技术、框架与项目实战.1.5　爬虫扩展——聚焦爬虫

华章出版社

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

精通Python网络爬虫：核心技术、框架与项目实战.1.5 爬虫扩展——聚焦爬虫

华章出版社

热门文章

最新文章

相关课程

相关电子书

推荐镜像

精通Python网络爬虫：核心技术、框架与项目实战.1.5　爬虫扩展——聚焦爬虫