第3章 Scrapy框架介绍

　　Scrapy是一个为了爬取网站信息，提取结构性数据而编写的应用框架。Scrapy用途广泛，可用于数据挖掘、监测和自动化测试等。

3.1 网络爬虫原理

　　网络爬虫的英文为Web Spider，又称做网络蜘蛛或网络机器人。如果把互联网比喻成一张巨大的蜘蛛网，数据便是存放于蜘蛛网中的各个节点，爬虫就是网中爬行的蜘蛛，沿着网络抓取自己的猎物（数据）。
　　网络爬虫简单来说就是一种按照一定规则，自动地抓取互联网中信息的程序或脚本。

3.1.1 爬虫执行的流程

　　我们知道，网络爬虫执行的基本流程是：模拟用户使用浏览器向网站发送请求，网站响应请求后将网页文档发送过来，爬虫对网页做信息提取和存储。具体流程如图3-1所示。

图3-1 爬虫执行流程

　　图3-1中的爬虫执行流程，介绍如下：
　　（1）发送请求。
　　爬虫设定一个URL，模拟浏览器使用HTTP协议向网站服务器发送访问请求。
　　（2）获取HTML文档。
　　服务器接收到请求后，将HTML文档（或者图片、视频等其他资源）发送给爬虫。
　　（3）抽取数据。
　　爬虫使用XPath或BeautifulSoup从HTML文档中抽取出有用的数据。
　　（4）保存数据。
　　将抽取到的数据保存到文件（CSV、JSON、TXT等）或数据库（MySQL、MongoDB等）中，实现数据的持久化存储。
　　上面流程中的每一步，看似简单，但实现起来着实不易。如何伪装成浏览器？如何构造一个HTTP请求发送给网站服务器？如何获取网站服务器发送的HTML文档？如何抽取HTML数据？如何将每一个步骤关联起来？种种问题，在学习Scrapy爬虫框架后，都能轻松解决。还等什么呢？下面开始我们的Scrapy学习之旅吧！

3.2 Scrapy框架结构及执行流程

　　Scrapy框架结构和流程设计遵循网络爬虫的基本原理。通过组件封装不同的功能模块；通过请求和响应类封装数据流；通过引擎指挥整个系统协调运行。

3.2.1 Scrapy框架结构

　　理解了HTTP和爬虫的基本原理，就不难理解Scrapy的框架结构了。如图3-2所示为Scrapy的框架结构，包含了不同功能的组件、系统中发生的数据流及执行流程。
　　1．组件
　　下面简单介绍一下Scrapy框架结构中包含的组件。

引擎（Engine）
　　引擎犹如总指挥，是整个系统的“大脑”，指挥其他组件协同工作。
调度器（Scheduler）
　　调度器接收引擎发过来的请求，按照先后顺序，压入队列中，同时去除重复的请求。
下载器（Downloader）
　　下载器用于下载网页内容，并将网页内容返回给爬虫（Scrapy下载器是建立在twisted这个高效的异步模型上的）。
爬虫（Spiders）
　　爬虫作为最核心的组件，用于从特定的网页中提取需要的信息，即所谓的实体（Item）。用户也可以从中提取出链接，让Scrapy继续抓取下一个页面。

图3-2 Scrapy框架结构

项目管道（Item Pipelines）
　　项目管道负责处理爬虫从网页中抽取的实体。主要的功能是持久化实体、验证实体的有效性、清除不需要的信息等。
下载器中间件（Downloader Middlewares）
　　下载器中间件介于引擎和下载器之间，主要处理Scrapy引擎与下载器之间的请求及响应。
爬虫中间件（Spider Middlewares）
　　爬虫中间件介于引擎和爬虫之间，主要工作是处理爬虫的响应输入和请求输出。
　　2．数据流
　　Scrapy框架结构中传递和处理的数据主要有以下3种：
向网站服务器发送的请求数据（请求的内容见2.1.3节）；
网站服务器返回的响应数据（响应的内容见2.1.4节）；
解析后的结构数据（类似于字典）。
　　Scrapy中定义的Request和Response类，用于保存请求和响应数据；Item类保存解析后的结构数据。它们分别对应于图3-2中标识的Requests、Response和Items。
3.2.2 Scrapy执行流程
　　下面从数据流的角度介绍Scrapy框架的执行流程。
　　图3-2中第①、②、③、④步，执行的是HTTP请求，传递和处理的是向网站服务器发送的请求数据。
　　第①步：爬虫（Spider）使用URL（要爬取页面的网址）构造一个请求（Request）对象，提交给引擎（Engine）。如果请求要伪装成浏览器，或者设置代理IP，可以先在爬虫中间件中设置，再发送给引擎。
　　第②步：引擎将请求安排给调度器，调度器根据请求的优先级确定执行顺序。
　　第③步：引擎从调度器获取即将要执行的请求。
　　第④步：引擎通过下载器中间件，将请求发送给下载器下载页面。
　　图3-2中第⑤、⑥、⑦、⑧步，执行的是HTTP响应，传递和处理的是网站服务器返回的响应数据。
　　第⑤步：页面完成下载后，下载器会生成一个响应（Response）对象并将其发送给引擎。下载后的数据会保存于响应对象中。
　　第⑥步：引擎接收来自下载器的响应对象后，通过爬虫中间件，将其发送给爬虫（Spider）进行处理。
　　第⑦步：爬虫将抽取到的一条数据实体（Item）和新的请求（如下一页的链接）发送给引擎。
　　第⑧步：引擎将从爬虫获取到的Item发送给项目管道（Item Pipelines），项目管道实现数据持久化等功能。同时将新的请求发送给调度器，再从第②步开始重复执行，直到调度器中没有更多的请求，引擎关闭该网站。
3.3 Scrapy安装
　　Scrapy作为一个强大的爬虫框架，需要依赖于很多库。幸运的是，前面我们安装了Anaconda，它已经帮我们安装好了Scrapy所有的依赖库。因此，无论在哪个操作系统，安装Scrapy就非常简单了。
3.3.1 使用pip安装Scrapy
　　这里还是使用pip安装Scrapy框架，命令如下：
　　
　　>pip install scrapy
3.3.2 常见安装错误
　　因为系统环境的差异，在安装Scrapy时，有时会出现各种意想不到的错误。例如，使用pip安装Scrapy时遇到Microsoft Visual C++14.0 is required错误，如图3-3所示。

图3-3 Scrapy安装时出现的错误

　　解决方法1
　　如果使用pip安装失败，可以试着使用Conda安装Scrapy，执行如下命令：
　　
　　>conda install -c scrapinghub scrapy
　　
　　安装过程中，可能会有升级Conda的提示，根据提示选择y就可以了，如图3-4所示。

图3-4 使用Conda安装Scrapy

　　解决方法2
　　根据提示可知，错误是由安装Twisted导致的，所以需要先安装Twisted。如图3-5所示。根据Python和操作系统的版本，选择对应的whl下载文件即可。其中，cp后面的数字是依赖的Python版本，amd64表示64位操作系统。下载完后，定位到Twisted安装包所在路径，执行以下命令安装Twisted。
　　
　　>pip install Twisted-19.2.0-cp35-cp35m-win_amd64.whl

图3-5 Twisted下载页

　　成功安装Twisted后，就可以使用pip命令安装Scrapy了。
###3.3.3 验证安装
　　Scrapy安装完成后，需要验证安装是否成功。在Python解释器界面，输入如下代码：
　　
　　>import scrapy
　　
　　运行代码后，如果没有错误提示信息，说明Scrapy已经安装成功。
##3.4 第一个网络爬虫
　　正确安装Scrapy框架后，就可以创建Scrapy项目，实现第一个网络爬虫了。
###3.4.1 需求分析
　　现要获取起点中文网中小说热销榜的数据（网址为 https://www.qidian.com/rank/ hotsales?style=1&page=1），如图3-6所示。每部小说提取内容为：小说名称、作者、类型和形式。

图3-6 起点中文网中24小时热销榜

3.4.2 创建项目

　　首先，创建一个爬取起点中文网小说热销榜的Scrapy项目步骤如下：
　　（1）通过命令行定位到存放项目的目录（如D盘的scrapyProject文件夹）。
　　
　　>d:
　　>cd d:\scrapyProject
　　
　　（2）创建一个名为qidian_hot的项目，命令如下：
　　
　　>scrapy startproject qidian_hot
　　
　　回车，得到如图3-7所示的创建成功信息。

图3-7 生成Scrapy项目

　　（3）查看项目结构。
　　在D盘的scrapyProject目录下，自动生成了qidian_hot项目。使用PyCharm打开项目，如图3-8所示为Scrapy项目的目录结构，它对应于图3-2中Scrapy的框架结构。

图3-8 Scrapy项目框架

　　Scrapy中组件的本质是一个个Python源文件，只要在源文件中实现各自的功能，爬虫功能就能自动实现了。
###3.4.3 分析页面
　　通过Chrome浏览器的“开发者工具”，分析页面的HTML代码，确定数据解析的XPath方法步骤如下：
　　（1）在Chrome浏览器中，按F12键，显示“开发者工具”栏。
　　（2）输入网址 https://www.qidian.com/rank/hotsales?style=1&page=1，回车。
　　（3）此时将显示24小时热销榜页面。选择“开发者工具”栏，单击最左边的元素选择按钮，将光标移动到任一部小说内容上并选中，对应的HTML代码

就会被高亮显示，具体操作如图3-9所示。
　　（4）分析页面结构。
　　不难发现，每部小说都包裹在

元素中，逐层展开，就能定位到小说名称、作者、类型和形式。
小说名称：div(class=" book-mid-info ") → h4 → a → 文本。 作者：div(class=" book-mid-info ") → p（第1个）→ a（第1个）→ 文本。
类型：div(class=" book-mid-info ") → p（第1个）→ a（第2个）→ 文本。 形式：div(class=" book-mid-info ") → p（第1个）→ span → 文本。
　　使用XPath获取小说内容，语法如下：
小说名称：div[@class=" book-mid-info "]/ h4/a/text()。 作者：div[@class=" book-mid-info "]/ p[1]/a[1]/text()。
类型：div[@class=" book-mid-info "]/ p[1]/a[2]/text()。 形式：div[@class=" book-mid-info "]/ p[1]/span/text()。

图3-9 获取小说内容对应的HTML代码

3.4.4 实现Spider爬虫功能

　　下面实现爬虫功能。由图3-8得知，爬虫功能是在spiders目录下实现的。实现的步骤如下：
　　（1）在spiders目录下新建爬虫源文件qidian_hot_spider.py。
　　（2）在qidian_hot_spider.py文件中定义HotSalesSpider类，实现爬虫功能。
　　实现代码如下：
　　
　　#--coding:utf-8--
　　from scrapy import Request
　　from scrapy.spiders import Spider
　　class HotSalesSpider(Spider):
　　 #定义爬虫名称
　　 name = 'hot'
　　 #起始的URL列表
　　 start_urls = ["https://www.qidian.com/rank/hotsales?style=1"]
　　 #解析函数
　　 def parse(self, response):
　　 #使用xpath定位到小说内容的div元素，保存到列表中
　　 list_selector = response.xpath("//div[@class='book-mid-info']")
　　 #依次读取每部小说的元素，从中获取名称、作者、类型和形式
　　 for one_selector in list_selector:
　　 #获取小说名称
　　 name = one_selector.xpath("h4/a/text()").extract()[0]
　　 #获取作者
　　 author = one_selector.xpath("p[1]/a[1]/text()").extract()[0]
　　 #获取类型
　　 type = one_selector.xpath("p[1]/a[2]/text()").extract()[0]
　　 #获取形式（连载/完本）
　　 form = one_selector.xpath("p[1]/span/text()").extract()[0]
　　 #将爬取到的一部小说保存到字典中
　　 hot_dict = {"name":name, #小说名称
　　 "author":author, #作者
　　 "type":type, #类型
　　 "form":form} #形式
　　 #使用yield返回字典
　　 yield hot_dict
　　
　　以上代码虽然添加了不少注释，但相信大家理解起来还是有点困难。不用担心，下一章将会详细讲解，这里先成功运行一个爬虫，建立信心和整体认识即可。
　　下面简单说明HotSalesSpider的实现方法。

爬虫所有的功能都是在类HotSalesSpider中实现的，它的基类为Spider。
类中定义了两个属性：name和start_urls。其中，name为爬虫名称，运行爬虫时需要用到；start_urls中存储的是目标网址的列表。如想要爬取两页热销榜的小说信息，可以将start_urls修改为：
　　
　　start_urls = ["https://www.qidian.com/rank/hotsales?style=1",
　　 "https://www.qidian.com/rank/hotsales?style=1&page=3"]
　　
　　类中定义了一个方法parse()，这是爬虫的核心方法，通常完成两个任务：
提取页面中的数据。
提取页面中的链接，并产生对链接页面的下载请求。
3.4.5 运行爬虫
　　代码完成后，就可以使用命令执行爬虫了。
　　（1）通过命令行定位到qidian_hot项目目录下（很重要）。
　　>d:
　　>cd D:\scrapyProject\qidian_hot
　　
　　（2）输入爬虫执行命令（hot为爬虫名，hot.csv为保存数据的文件名）。
　　
　　>scrapy crawl hot -o hot.csv
　　
　　回车，爬虫程序开始执行，命令提示符中会不断显示爬虫执行时的信息。爬虫执行完后，数据会自动保存于hot.csv文件中。打开hot.csv文件查看数据，如图3-10所示。

图3-10 生成的CSV文件

　需要特别注意的是，爬虫程序不能频繁执行。因为网站一般都有反爬虫措施，如频繁执行会被认定是爬虫程序，网站就会封掉你的IP，禁止访问。关于这个问题，下一章会给出解决方案。

3.4.6 常见问题

　　在生成的CSV文件中，有时会发现数据之间会有空行间隔，如图3-11所示。

图3-11 有空行的CSV文件

　　原因：这是Scrapy框架默认的组织形式，即数据之间以空行间隔。
　　解决方法：修改默认的组织形式。在Anaconda中找到exporters.py（笔者的是在C:\Anaconda3\Lib\site-packages\scrapy目录下）。打开源文件，在类CsvItemExporter中添加一行代码，如图3-12所示。保存文件，重新运行爬虫程序。

图3-12 手动添加换行形式

3.5 本章小结

　　本章首先介绍了网络爬虫的原理；接着介绍了Scrapy框架结构、执行流程及安装过程；最后以爬取起点中文网小说24小时热销榜为例，实现了第一个Scrapy爬虫案例，让大家对Scrapy爬虫有个初步的认识。

带你读《从零开始学Scrapy网络爬虫》之三:Scrapy框架介绍

第3章 Scrapy框架介绍

3.1 网络爬虫原理

3.1.1 爬虫执行的流程

3.2 Scrapy框架结构及执行流程

3.2.1 Scrapy框架结构

3.2.2 Scrapy执行流程

3.3 Scrapy安装

3.3.1 使用pip安装Scrapy

3.3.2 常见安装错误

3.4.2 创建项目

3.4.4 实现Spider爬虫功能

3.4.5 运行爬虫

3.4.6 常见问题

3.5 本章小结

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

带你读《从零开始学Scrapy网络爬虫》之三:Scrapy框架介绍

第3章 Scrapy框架介绍

3.1 网络爬虫原理

3.1.1 爬虫执行的流程

3.2 Scrapy框架结构及执行流程

3.2.1 Scrapy框架结构

3.2.2 Scrapy执行流程

3.3 Scrapy安装

3.3.1 使用pip安装Scrapy

3.3.2 常见安装错误

3.4.2 创建项目

3.4.4 实现Spider爬虫功能

3.4.5 运行爬虫

3.4.6 常见问题

3.5 本 章 小 结

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

3.5 本章小结