带你读《从零开始学Scrapy网络爬虫》之三:Scrapy框架介绍

简介: 本书共13章。其中,第1~4章为基础篇,介绍了Python基础、网络爬虫基础、Scrapy框架及基本的爬虫功能。第5~10章为进阶篇,介绍了如何将爬虫数据存储于MySQL、MongoDB和Redis数据库中;如何实现异步AJAX数据的爬取;如何使用Selenium和Splash实现动态网站的爬取;如何实现模拟登录功能;如何突破反爬虫技术,以及如何实现文件和图片的下载。第11~13章为高级篇,介绍了使用Scrapy-Redis实现分布式爬虫;使用Scrapyd和Docker部署分布式爬虫;使用Gerapy管理分布式爬虫,并实现了一个抢票软件的综合项目。

点击查看第一章
点击查看第二章

第3章 Scrapy框架介绍

  Scrapy是一个为了爬取网站信息,提取结构性数据而编写的应用框架。Scrapy用途广泛,可用于数据挖掘、监测和自动化测试等。

3.1 网络爬虫原理

  网络爬虫的英文为Web Spider,又称做网络蜘蛛或网络机器人。如果把互联网比喻成一张巨大的蜘蛛网,数据便是存放于蜘蛛网中的各个节点,爬虫就是网中爬行的蜘蛛,沿着网络抓取自己的猎物(数据)。
  网络爬虫简单来说就是一种按照一定规则,自动地抓取互联网中信息的程序或脚本。

3.1.1 爬虫执行的流程

  我们知道,网络爬虫执行的基本流程是:模拟用户使用浏览器向网站发送请求,网站响应请求后将网页文档发送过来,爬虫对网页做信息提取和存储。具体流程如图3-1所示。
image.png

图3-1 爬虫执行流程

  图3-1中的爬虫执行流程,介绍如下:
  (1)发送请求。
  爬虫设定一个URL,模拟浏览器使用HTTP协议向网站服务器发送访问请求。
  (2)获取HTML文档。
  服务器接收到请求后,将HTML文档(或者图片、视频等其他资源)发送给爬虫。
  (3)抽取数据。
  爬虫使用XPath或BeautifulSoup从HTML文档中抽取出有用的数据。
  (4)保存数据。
  将抽取到的数据保存到文件(CSV、JSON、TXT等)或数据库(MySQL、MongoDB等)中,实现数据的持久化存储。
  上面流程中的每一步,看似简单,但实现起来着实不易。如何伪装成浏览器?如何构造一个HTTP请求发送给网站服务器?如何获取网站服务器发送的HTML文档?如何抽取HTML数据?如何将每一个步骤关联起来?种种问题,在学习Scrapy爬虫框架后,都能轻松解决。还等什么呢?下面开始我们的Scrapy学习之旅吧!

3.2 Scrapy框架结构及执行流程

  Scrapy框架结构和流程设计遵循网络爬虫的基本原理。通过组件封装不同的功能模块;通过请求和响应类封装数据流;通过引擎指挥整个系统协调运行。

3.2.1 Scrapy框架结构

  理解了HTTP和爬虫的基本原理,就不难理解Scrapy的框架结构了。如图3-2所示为Scrapy的框架结构,包含了不同功能的组件、系统中发生的数据流及执行流程。
  1.组件
  下面简单介绍一下Scrapy框架结构中包含的组件。

  • 引擎(Engine)
      引擎犹如总指挥,是整个系统的“大脑”,指挥其他组件协同工作。
  • 调度器(Scheduler)
      调度器接收引擎发过来的请求,按照先后顺序,压入队列中,同时去除重复的请求。
  • 下载器(Downloader)
      下载器用于下载网页内容,并将网页内容返回给爬虫(Scrapy下载器是建立在twisted这个高效的异步模型上的)。
  • 爬虫(Spiders)
      爬虫作为最核心的组件,用于从特定的网页中提取需要的信息,即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面。

image.png

图3-2 Scrapy框架结构

  • 项目管道(Item Pipelines)
      项目管道负责处理爬虫从网页中抽取的实体。主要的功能是持久化实体、验证实体的有效性、清除不需要的信息等。
  • 下载器中间件(Downloader Middlewares)
      下载器中间件介于引擎和下载器之间,主要处理Scrapy引擎与下载器之间的请求及响应。
  • 爬虫中间件(Spider Middlewares)
      爬虫中间件介于引擎和爬虫之间,主要工作是处理爬虫的响应输入和请求输出。

  2.数据流
  Scrapy框架结构中传递和处理的数据主要有以下3种:

  • 向网站服务器发送的请求数据(请求的内容见2.1.3节);
  • 网站服务器返回的响应数据(响应的内容见2.1.4节);
  • 解析后的结构数据(类似于字典)。
      Scrapy中定义的Request和Response类,用于保存请求和响应数据;Item类保存解析后的结构数据。它们分别对应于图3-2中标识的Requests、Response和Items。

3.2.2 Scrapy执行流程

  下面从数据流的角度介绍Scrapy框架的执行流程。
  图3-2中第①、②、③、④步,执行的是HTTP请求,传递和处理的是向网站服务器发送的请求数据。
  第①步:爬虫(Spider)使用URL(要爬取页面的网址)构造一个请求(Request)对象,提交给引擎(Engine)。如果请求要伪装成浏览器,或者设置代理IP,可以先在爬虫中间件中设置,再发送给引擎。
  第②步:引擎将请求安排给调度器,调度器根据请求的优先级确定执行顺序。
  第③步:引擎从调度器获取即将要执行的请求。
  第④步:引擎通过下载器中间件,将请求发送给下载器下载页面。
  图3-2中第⑤、⑥、⑦、⑧步,执行的是HTTP响应,传递和处理的是网站服务器返回的响应数据。
  第⑤步:页面完成下载后,下载器会生成一个响应(Response)对象并将其发送给引擎。下载后的数据会保存于响应对象中。
  第⑥步:引擎接收来自下载器的响应对象后,通过爬虫中间件,将其发送给爬虫(Spider)进行处理。
  第⑦步:爬虫将抽取到的一条数据实体(Item)和新的请求(如下一页的链接)发送给引擎。
  第⑧步:引擎将从爬虫获取到的Item发送给项目管道(Item Pipelines),项目管道实现数据持久化等功能。同时将新的请求发送给调度器,再从第②步开始重复执行,直到调度器中没有更多的请求,引擎关闭该网站。

3.3 Scrapy安装

  Scrapy作为一个强大的爬虫框架,需要依赖于很多库。幸运的是,前面我们安装了Anaconda,它已经帮我们安装好了Scrapy所有的依赖库。因此,无论在哪个操作系统,安装Scrapy就非常简单了。

3.3.1 使用pip安装Scrapy

  这里还是使用pip安装Scrapy框架,命令如下:
  
  >pip install scrapy

3.3.2 常见安装错误

  因为系统环境的差异,在安装Scrapy时,有时会出现各种意想不到的错误。例如,使用pip安装Scrapy时遇到Microsoft Visual C++14.0 is required错误,如图3-3所示。
image.png

图3-3 Scrapy安装时出现的错误

  解决方法1
  如果使用pip安装失败,可以试着使用Conda安装Scrapy,执行如下命令:
  
  >conda install -c scrapinghub scrapy
  
  安装过程中,可能会有升级Conda的提示,根据提示选择y就可以了,如图3-4所示。
image.png

图3-4 使用Conda安装Scrapy

  解决方法2
  根据提示可知,错误是由安装Twisted导致的,所以需要先安装Twisted。Twisted的下载地址为http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted,如图3-5所示。根据Python和操作系统的版本,选择对应的whl下载文件即可。其中,cp后面的数字是依赖的Python版本,amd64表示64位操作系统。下载完后,定位到Twisted安装包所在路径,执行以下命令安装Twisted。
  
  >pip install Twisted-19.2.0-cp35-cp35m-win_amd64.whl
image.png

图3-5 Twisted下载页


  成功安装Twisted后,就可以使用pip命令安装Scrapy了。

3.3.3 验证安装

  Scrapy安装完成后,需要验证安装是否成功。在Python解释器界面,输入如下代码:
  
  >import scrapy
  
  运行代码后,如果没有错误提示信息,说明Scrapy已经安装成功。

3.4 第一个网络爬虫

  正确安装Scrapy框架后,就可以创建Scrapy项目,实现第一个网络爬虫了。

3.4.1 需求分析

  现要获取起点中文网中小说热销榜的数据(网址为https://www.qidian.com/rank/ hotsales?style=1&page=1),如图3-6所示。每部小说提取内容为:小说名称、作者、类型和形式。
image.png

图3-6 起点中文网中24小时热销榜

3.4.2 创建项目

  首先,创建一个爬取起点中文网小说热销榜的Scrapy项目步骤如下:
  (1)通过命令行定位到存放项目的目录(如D盘的scrapyProject文件夹)。
  
  >d:
  >cd d:scrapyProject
  
  (2)创建一个名为qidian_hot的项目,命令如下:
  
  >scrapy startproject qidian_hot
  
  回车,得到如图3-7所示的创建成功信息。
image.png

图3-7 生成Scrapy项目

  (3)查看项目结构。
  在D盘的scrapyProject目录下,自动生成了qidian_hot项目。使用PyCharm打开项目,如图3-8所示为Scrapy项目的目录结构,它对应于图3-2中Scrapy的框架结构。
image.png

图3-8 Scrapy项目框架


  Scrapy中组件的本质是一个个Python源文件,只要在源文件中实现各自的功能,爬虫功能就能自动实现了。

3.4.3 分析页面

  通过Chrome浏览器的“开发者工具”,分析页面的HTML代码,确定数据解析的XPath方法步骤如下:
  (1)在Chrome浏览器中,按F12键,显示“开发者工具”栏。
  (2)输入网址https://www.qidian.com/rank/hotsales?style=1&page=1,回车。
  (3)此时将显示24小时热销榜页面。选择“开发者工具”栏,单击最左边的元素选择按钮,将光标移动到任一部小说内容上并选中,对应的HTML代码

就会被高亮显示,具体操作如图3-9所示。
  (4)分析页面结构。
  不难发现,每部小说都包裹在
元素中,逐层展开,就能定位到小说名称、作者、类型和形式。
  • 小说名称:div(class=" book-mid-info ") → h4 → a → 文本。
  • 作者:div(class=" book-mid-info ") → p(第1个)→ a(第1个)→ 文本。
  • 类型:div(class=" book-mid-info ") → p(第1个)→ a(第2个)→ 文本。
  • 形式:div(class=" book-mid-info ") → p(第1个)→ span → 文本。
      使用XPath获取小说内容,语法如下:
  • 小说名称:div[@class=" book-mid-info "]/ h4/a/text()。
  • 作者:div[@class=" book-mid-info "]/ p[1]/a[1]/text()。
  • 类型:div[@class=" book-mid-info "]/ p[1]/a[2]/text()。
  • 形式:div[@class=" book-mid-info "]/ p[1]/span/text()。
    image.png

图3-9 获取小说内容对应的HTML代码

3.4.4 实现Spider爬虫功能

  下面实现爬虫功能。由图3-8得知,爬虫功能是在spiders目录下实现的。实现的步骤如下:
  (1)在spiders目录下新建爬虫源文件qidian_hot_spider.py。
  (2)在qidian_hot_spider.py文件中定义HotSalesSpider类,实现爬虫功能。
  实现代码如下:
  
  #--coding:utf-8--
  from scrapy import Request
  from scrapy.spiders import Spider
  class HotSalesSpider(Spider):
   #定义爬虫名称
   name = 'hot'
   #起始的URL列表
   start_urls = ["https://www.qidian.com/rank/hotsales?style=1"]
   #解析函数
   def parse(self, response):
   #使用xpath定位到小说内容的div元素,保存到列表中
   list_selector = response.xpath("//div[@class='book-mid-info']")
   #依次读取每部小说的元素,从中获取名称、作者、类型和形式
   for one_selector in list_selector:
   #获取小说名称
   name = one_selector.xpath("h4/a/text()").extract()[0]
   #获取作者
   author = one_selector.xpath("p[1]/a[1]/text()").extract()[0]
   #获取类型
   type = one_selector.xpath("p[1]/a[2]/text()").extract()[0]
   #获取形式(连载/完本)
   form = one_selector.xpath("p[1]/span/text()").extract()[0]
   #将爬取到的一部小说保存到字典中
   hot_dict = {"name":name, #小说名称
   "author":author, #作者
   "type":type, #类型
   "form":form} #形式
   #使用yield返回字典
   yield hot_dict
  
  以上代码虽然添加了不少注释,但相信大家理解起来还是有点困难。不用担心,下一章将会详细讲解,这里先成功运行一个爬虫,建立信心和整体认识即可。
  下面简单说明HotSalesSpider的实现方法。

  • 爬虫所有的功能都是在类HotSalesSpider中实现的,它的基类为Spider。
  • 类中定义了两个属性:name和start_urls。其中,name为爬虫名称,运行爬虫时需要用到;start_urls中存储的是目标网址的列表。如想要爬取两页热销榜的小说信息,可以将start_urls修改为:
      

  start_urls = ["https://www.qidian.com/rank/hotsales?style=1",
   "https://www.qidian.com/rank/hotsales?style=1&page=3"]
  
  类中定义了一个方法parse(),这是爬虫的核心方法,通常完成两个任务:

  • 提取页面中的数据。
  • 提取页面中的链接,并产生对链接页面的下载请求。

3.4.5 运行爬虫

  代码完成后,就可以使用命令执行爬虫了。
  (1)通过命令行定位到qidian_hot项目目录下(很重要)。
  >d:
  >cd D:scrapyProjectqidian_hot
  
  (2)输入爬虫执行命令(hot为爬虫名,hot.csv为保存数据的文件名)。
  
  >scrapy crawl hot -o hot.csv
  
  回车,爬虫程序开始执行,命令提示符中会不断显示爬虫执行时的信息。爬虫执行完后,数据会自动保存于hot.csv文件中。打开hot.csv文件查看数据,如图3-10所示。
image.png

图3-10 生成的CSV文件

 需要特别注意的是,爬虫程序不能频繁执行。因为网站一般都有反爬虫措施,如频繁执行会被认定是爬虫程序,网站就会封掉你的IP,禁止访问。关于这个问题,下一章会给出解决方案。

3.4.6 常见问题

  在生成的CSV文件中,有时会发现数据之间会有空行间隔,如图3-11所示。
image.png

图3-11 有空行的CSV文件


  原因:这是Scrapy框架默认的组织形式,即数据之间以空行间隔。
  解决方法:修改默认的组织形式。在Anaconda中找到exporters.py(笔者的是在C:Anaconda3Libsite-packagesscrapy目录下)。打开源文件,在类CsvItemExporter中添加一行代码,如图3-12所示。保存文件,重新运行爬虫程序。
image.png

图3-12 手动添加换行形式

3.5 本 章 小 结

  本章首先介绍了网络爬虫的原理;接着介绍了Scrapy框架结构、执行流程及安装过程;最后以爬取起点中文网小说24小时热销榜为例,实现了第一个Scrapy爬虫案例,让大家对Scrapy爬虫有个初步的认识。

相关文章
|
29天前
|
存储 分布式计算 监控
Hadoop【基础知识 01+02】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
76 2
|
2月前
|
数据采集 数据挖掘 调度
异步爬虫实践攻略:利用Python Aiohttp框架实现高效数据抓取
本文介绍了如何使用Python的Aiohttp框架构建异步爬虫,以提升数据抓取效率。异步爬虫利用异步IO和协程技术,在等待响应时执行其他任务,提高效率。Aiohttp是一个高效的异步HTTP客户端/服务器框架,适合构建此类爬虫。文中还展示了如何通过代理访问HTTPS网页的示例代码,并以爬取微信公众号文章为例,说明了实际应用中的步骤。
|
2天前
|
存储 网络协议 Linux
RTnet – 灵活的硬实时网络框架
本文介绍了开源项目 RTnet。RTnet 为以太网和其他传输媒体上的硬实时通信提供了一个可定制和可扩展的框架。 本文描述了 RTnet 的架构、核心组件和协议。
10 0
RTnet – 灵活的硬实时网络框架
|
3天前
|
数据采集 NoSQL 中间件
python-scrapy框架(四)settings.py文件的用法详解实例
python-scrapy框架(四)settings.py文件的用法详解实例
8 0
|
3天前
|
存储 数据采集 数据库
python-scrapy框架(三)Pipeline文件的用法讲解
python-scrapy框架(三)Pipeline文件的用法讲解
6 0
|
3天前
|
存储 数据采集 JSON
python-scrapy框架(二)items文件夹的用法讲解
python-scrapy框架(二)items文件夹的用法讲解
10 0
|
3天前
|
数据采集 前端开发 中间件
python-scrapy框架(一)Spider文件夹的用法讲解
python-scrapy框架(一)Spider文件夹的用法讲解
9 0
|
14天前
|
数据采集 存储 中间件
【专栏】随着技术发展,Scrapy将在网络爬虫领域持续发挥关键作用
【4月更文挑战第27天】Scrapy是Python的高效爬虫框架,以其异步处理、多线程和中间件机制提升爬取效率。它的灵活性体现在可定制化组件、支持多种数据库存储及与Selenium、BeautifulSoup等工具集成。Scrapy易于扩展,允许自定义下载器和解析器。在实践中,涉及项目配置、Spider类编写、数据抓取、存储与分析。面对动态网页和反爬机制,Scrapy可通过Selenium等工具应对,但需注意法规与道德规范。随着技术发展,Scrapy将在网络爬虫领域持续发挥关键作用。
|
19天前
|
数据采集 存储 JSON
Python爬虫面试:requests、BeautifulSoup与Scrapy详解
【4月更文挑战第19天】本文聚焦于Python爬虫面试中的核心库——requests、BeautifulSoup和Scrapy。讲解了它们的常见问题、易错点及应对策略。对于requests,强调了异常处理、代理设置和请求重试;BeautifulSoup部分提到选择器使用、动态内容处理和解析效率优化;而Scrapy则关注项目架构、数据存储和分布式爬虫。通过实例代码,帮助读者深化理解并提升面试表现。
22 0
|
29天前
|
网络协议 Java API
Python网络编程基础(Socket编程)Twisted框架简介
【4月更文挑战第12天】在网络编程的实践中,除了使用基本的Socket API之外,还有许多高级的网络编程库可以帮助我们更高效地构建复杂和健壮的网络应用。这些库通常提供了异步IO、事件驱动、协议实现等高级功能,使得开发者能够专注于业务逻辑的实现,而不用过多关注底层的网络细节。