本期Python爬虫策略,我们说一个爬虫神器——scrapy爬虫。
图片来自:百度百科
从scrapy框架图中我们可以看到整个数据流向,5大件:调度器(Scheduler)、下载器(Downloader)、爬虫(Spider)和实体管道(Item Pipeline)、Scrapy引擎(Scrapy Engine)。而实际使用过程中,我们只需要关注以下几个就行:spider、items、pipelines、settings。
哎,想了很久怎么组织语言讲这个东西,但有很多东西只能自己体会,没法讲,自己的语言能力不够啊!!!只能用以前写的一篇文章Scrapy爬取umei壁纸和转载的一篇文章来让大家意会Scrapy爬虫的基本原理。
想要认真详细了解这个工具的可以去scrapy官网,有详细的介绍:https://docs.scrapy.org/en/latest/
总结,一句话scrapy这个东西很强大,但不要轻易使用,要特别注意遵守网络协议,就是setting中的ROBOTSTXT_OBEY,好多网站对这个要求挺高的,同时,由于scrapy高速的爬取数据,容易把相关网站搞崩了,到时候被网站追责就麻烦了,所以,大型数据爬虫慎之又慎!!!