Python网络爬虫2 ---- scrapy爬虫架构介绍和初试

本文涉及的产品
.cn 域名,1个 12个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
简介: 原文出处:http://my.oschina.net/dragonblog/blog/173290 上一篇文章的环境搭建是相对于手动操作的过程,而大家可能对这个疑问是什么是scrapy?为什么要用scrapy?下面主要是对这两个问题的简要回答。

原文出处:http://my.oschina.net/dragonblog/blog/173290


上一篇文章的环境搭建是相对于手动操作的过程,而大家可能对这个疑问是什么是scrapy?为什么要用scrapy?下面主要是对这两个问题的简要回答。

请尊重作者的工作,转载请注明出处http://my.oschina.net/dragonblog/blog/173545

相信大家在百度或google上一搜索scrapy都能够找到一大堆的结果,由于我本人对scrapy没有太了解,因此这里我也是引用了网络上的说法对scrapy进行说明,也希望各位能够多指点一下小弟。

========================华丽的分割线========================

Scrapy 是一套基于Twisted的异步处理框架,是纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容或者各种图片。下图显示了Scrapy的大体架构,其中包含了scheduler、item pipeline、downloader、spider以及engine这几个组件模块,而其中的绿色箭头则说明了整套系统的数据处理流程。


下面就来一个个解释每个组件的作用及数据的处理过程。

一、组件说明:

    1、Scrapy Engine(Scrapy引擎)

    Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程。

    2、Scheduler(调度)

    调度程序从Scrapy引擎接受请求并排序列入队列,并在Scrapy引擎发出请求后返还给他们。

    3、Downloader(下载器)

    下载器的主要职责是抓取网页并将网页内容返还给蜘蛛( Spiders)。

    4、Spiders(蜘蛛)

    蜘蛛是有Scrapy用户自己定义用来解析网页并抓取制定URL返回的内容的类,每个蜘蛛都能处理一个域名或一组域名。换句话说就是用来定义特定网站的抓取和解析规则。

    蜘蛛的整个抓取流程(周期)是这样的:

    (1)首先获取第一个URL的初始请求,当请求返回后调取一个回调函数。第一个请求是通过调用start_requests()方法。该方法默认从start_urls中的Url中生成请求,并执行解析来调用回调函数。

    (2)在回调函数中,你可以解析网页响应并返回项目对象和请求对象或两者的迭代。这些请求也将包含一个回调,然后被Scrapy下载,然后有指定的回调处理。

    (3)在回调函数中,你解析网站的内容,同程使用的是Xpath选择器(但是你也可以使用BeautifuSoup, lxml或其他任何你喜欢的程序),并生成解析的数据项。

    (4)最后,从蜘蛛返回的项目通常会进驻到项目管道。

5、Item Pipeline(项目管道)

    项目管道的主要责任是负责处理有蜘蛛从网页中抽取的项目,他的主要任务是清晰、验证和存储数据。当页面被蜘蛛解析后,将被发送到项目管道,并经过几个特定的次序处理数据。每个项目管道的组件都是有一个简单的方法组成的Python类。他们获取了项目并执行他们的方法,同时他们还需要确定的是是否需要在项目管道中继续执行下一步或是直接丢弃掉不处理。

项目管道通常执行的过程有:

  1. 清洗HTML数据
  2. 验证解析到的数据(检查项目是否包含必要的字段)
  3. 检查是否是重复数据(如果重复就删除)
  4. 将解析到的数据存储到数据库中

6、Downloader middlewares(下载器中间件)

    下载中间件是位于Scrapy引擎和下载器之间的钩子框架,主要是处理Scrapy引擎与下载器之间的请求及响应。它提供了一个自定义的代码的方式来拓展 Scrapy的功能。下载中间器是一个处理请求和响应的钩子框架。他是轻量级的,对Scrapy尽享全局控制的底层的系统。

7、Spider middlewares(蜘蛛中间件)

    蜘蛛中间件是介于Scrapy引擎和蜘蛛之间的钩子框架,主要工作是处理蜘蛛的响应输入和请求输出。它提供一个自定义代码的方式来拓展Scrapy的功能。蛛中间件是一个挂接到Scrapy的蜘蛛处理机制的框架,你可以插入自定义的代码来处理发送给蜘蛛的请求和返回蜘蛛获取的响应内容和项目。

8、Scheduler middlewares(调度中间件)

    调度中间件是介于Scrapy引擎和调度之间的中间件,主要工作是处从Scrapy引擎发送到调度的请求和响应。他提供了一个自定义的代码来拓展Scrapy的功能。

二、数据处理流程

Scrapy的整个数据处理流程由Scrapy引擎进行控制,其主要的运行方式为:

  1. 引擎打开一个域名,时蜘蛛处理这个域名,并让蜘蛛获取第一个爬取的URL。
  2. 引擎从蜘蛛那获取第一个需要爬取的URL,然后作为请求在调度中进行调度。
  3. 引擎从调度那获取接下来进行爬取的页面。
  4. 调度将下一个爬取的URL返回给引擎,引擎将他们通过下载中间件发送到下载器。
  5. 当网页被下载器下载完成以后,响应内容通过下载中间件被发送到引擎。
  6. 引擎收到下载器的响应并将它通过蜘蛛中间件发送到蜘蛛进行处理。
  7. 蜘蛛处理响应并返回爬取到的项目,然后给引擎发送新的请求。
  8. 引擎将抓取到的项目项目管道,并向调度发送请求。
  9. 系统重复第二部后面的操作,直到调度中没有请求,然后断开引擎与域之间的联系。

========================华丽的分割线========================

以上部分是属于网上抄过来的,谁是第一手就无可考究了,对于大家是否能看明白就没有保证了,我本还还算能够明白七成吧。

上面两个分割线中的内容也算得是回答了第一个问题了,那么为什么要用scrapy呢?我有一个习惯,在提出问题的时候都会先再找一个问题,对于这个问题而提出的问题是:我自己写一个不行吗?

刚开始的时候我也是这样想的,于是就自己开始找python怎么抓网页数据之类的了,后来还弄了一个不堪入目的一段代码,用于从一个根网页中找到所有的链接,然后将这些链接都放到一个列表中,然后弄个循环从这个列表中一个个去抓。下面就是我之前第一次接触python时写的代码(不堪入目,不喜勿喷。。。)

001 #encoding=utf-8
002
003 __author__ = 'dragon'
004
005 import urllib2
006 import os
007 import pymongo
008 import time
009 import hashlib
010
011 def myspider(startweb, keyword):
012     list = [startweb]
013     curindex = 0
014     Keyword = keyword
015
016     #网络上MongoHQ
017     #con = pymongo.Connection("paulo.mongohq.com", 10042)
018     #db = con.mytest
019     #db.authenticate("dragon", "dragon")
020     #db.urllist.drop()
021
022     #本地数据库
023     con = pymongo.Connection("localhost"27017)
024     db = con.mytest
025
026     while curindex < len(list):
027         url = list[curindex]
028         print "list count ="len(list), "  curcheck ", curindex
029         print "try to visit ", url
030
031         headers = ('User-Agent''Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36')
032
033         try:
034             opener = urllib2.build_opener()
035             opener.addheaders = [headers]
036             openness = opener.open(url, None30)
037             data = openness.read()
038             opener.close()
039         except:
040             print "some error ..."
041             curindex += 1
042             continue
043
044         print "finish get data..."
045
046         os.remove("d:/test.txt")
047         file = open("d:/test.txt""a")
048         print >> file, data
049         file.close()
050
051         myfile      = open("d:/test.txt""r")
052         mystring    = myfile.read()
053         myfile.close()
054
055         #找到标题
056         title       = ""
057         headstart   = mystring.find("<head>")
058         headend     = mystring.find("</head>")
059         if headstart < 0:
060             headstart   = mystring.find("<HEAD>")
061             headend     = mystring.find("</HEAD>")
062
063         if headstart > 0:
064             titlestart  = mystring.find("<title>")
065             titleend    = mystring.find("</title>")
066             if titlestart < 0:
067                 titlestart  = mystring.find("<TITLE>")
068                 titleend    = mystring.find("</TITLE>")
069
070             if titleend > titlestart and titlestart < headend and titleend < headend:
071                 title = mystring[titlestart+len("<title>"):titleend]
072
073         dbdata = {"title":"", "url":"", "time":""}
074
075         try:
076             title = title.decode("utf-8").encode("utf-8")
077         except:
078             try:
079                 title = title.decode("gbk").encode("utf-8")
080             except:
081                 pass
082
083
084         dbdata["title"= title
085         dbdata["url"= url
086         dbdata["time"= time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time()))
087         try:
088             db.urllist.insert(dbdata)
089         except:
090             print "insert error"
091
092         if len(mystring) > 0:
093             while len(mystring) > 0:
094                 start = mystring.find("href=\"")
095                 if start <= 0:
096                     break
097
098                 substring = mystring[start+6:]
099                 end = substring.find("\"")
100                 weblink = substring[:end]
101                 if Keyword != "":
102                     if weblink.find(Keyword) >= 0 and list.count(weblink) <= 0:
103                         list.append(weblink)
104                 elif 0 > weblink.find("video.sina.com.cn") \
105                     and 0 > weblink.find("video.baidu.com") \
106                     and 0 <= weblink.find("http:") \
107                     and 0 >= list.count(weblink):
108
109                     list.append(weblink)
110
111                 mystring = mystring[start+6:]
112
113         curindex += 1
114
115 if __name__ == '__main__':
116     myspider("http://www.hao123.com""hao123")

处理的流程是:

    1. 将一个开始的网页url存放到list中

    2. 不断从list中取出url进行数据获取

    3. 在获取到的网页数据中的链接都存放到list里面

    4. 不断重复2、3步骤

上面这段代码写得怎么样就不值得评论了,但是值得我们思考的是,上面的代码出发点是爬虫,并且还是漫无目的的爬虫,没有了终点,或者大家会想到很多退出循环的方法,但是我们还有很多问题需要考虑:如何提高爬虫的效率?如何最大限度利用网络带宽?如果提高抓取回来数据的处理?最重要一点是:我们都不会想着去做google或百度,而是针对一些特定的需求来实现一个爬虫,那么我们如何简单而又快速的去实现我们的定制功能呢?

上面的几个问题就是我们最终都会遇到的问题,也是scrapy能够很好的处理的问题,它通过几个组件完成不同的部分,将类似下载网页数据的这些通用操作封装起来,减少了我们编写爬虫时的难度,并且各个部件之间通过异步来处理,能够最大限度利用了网络带宽。我们只需要按照它的要求来实现几个模块就可以了。

最后,讲讲使用如何生成一个scrapy工程。

打开cmd,cd到你要创建工程的目录,然后使用以下命令创建工程test:

    scrapy startproject test

如下图所示,我们看到创建了一个test文件夹,里面包含了其他一些文件

根据上图可以对照第一幅图,找到一些组件的对应文件,我们可以在spider下面创建一个py文件(例如:spider.py),然后写上以下代码:

1 from scrapy.spider import BaseSpider
2
3 class test(BaseSpider):
4     name = "test"
5     allowed_domains = ["hao123.com"]
6     start_urls = ["http://www.hao123.com"]
7
8     def parse(self, response):
9         print response.url
在cmd中,cd进入刚才创建的test目录,使用以下命令运行这个爬虫,我们可以最后看到一些debug输出

这篇文章到此为止,写得比较粗糙。可能大家对于spider.py中的一些变量和函数名称,以及该模块什么时候被调用存在疑问,大家可以上网找找资料学习,我将在下一篇文件中说明,并且以获取百度文库中的图书信息作为例子,完成相关的代码并提供源码。


目录
相关文章
|
2月前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
147 6
|
3月前
|
数据采集 存储 JavaScript
构建你的第一个Python网络爬虫
【9月更文挑战第34天】在数字信息泛滥的时代,快速有效地获取和处理数据成为一项重要技能。本文将引导读者通过Python编写一个简易的网络爬虫,实现自动化地从网页上抓取数据。我们将一步步走过代码的编写过程,并探讨如何避免常见陷阱。无论你是编程新手还是想扩展你的技术工具箱,这篇文章都将为你提供有价值的指导。
112 18
|
3月前
|
运维 负载均衡 安全
深度解析:Python Web前后端分离架构中WebSocket的选型与实现策略
深度解析:Python Web前后端分离架构中WebSocket的选型与实现策略
148 0
|
3月前
|
数据采集 存储 数据挖掘
深入探索 Python 爬虫:高级技术与实战应用
本文介绍了Python爬虫的高级技术,涵盖并发处理、反爬虫策略(如验证码识别与模拟登录)及数据存储与处理方法。通过asyncio库实现异步爬虫,提升效率;利用tesseract和requests库应对反爬措施;借助SQLAlchemy和pandas进行数据存储与分析。实战部分展示了如何爬取电商网站的商品信息及新闻网站的文章内容。提醒读者在实际应用中需遵守法律法规。
227 66
|
2月前
|
数据采集 XML 存储
构建高效的Python网络爬虫:从入门到实践
本文旨在通过深入浅出的方式,引导读者从零开始构建一个高效的Python网络爬虫。我们将探索爬虫的基本原理、核心组件以及如何利用Python的强大库进行数据抓取和处理。文章不仅提供理论指导,还结合实战案例,让读者能够快速掌握爬虫技术,并应用于实际项目中。无论你是编程新手还是有一定基础的开发者,都能在这篇文章中找到有价值的内容。
|
2月前
|
数据采集 Web App开发 JavaScript
爬虫策略规避:Python爬虫的浏览器自动化
爬虫策略规避:Python爬虫的浏览器自动化
|
2月前
|
数据采集 存储 XML
Python实现网络爬虫自动化:从基础到实践
本文将介绍如何使用Python编写网络爬虫,从最基础的请求与解析,到自动化爬取并处理复杂数据。我们将通过实例展示如何抓取网页内容、解析数据、处理图片文件等常用爬虫任务。
547 1
|
2月前
|
数据采集 前端开发 中间件
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第26天】Python是一种强大的编程语言,在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架,为开发者提供了强大的工具集。本文通过实战案例,详细解析Scrapy框架的应用与技巧,并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。
122 4
|
2月前
|
数据采集 存储 机器学习/深度学习
构建高效的Python网络爬虫
【10月更文挑战第25天】本文将引导你通过Python编程语言实现一个高效网络爬虫。我们将从基础的爬虫概念出发,逐步讲解如何利用Python强大的库和框架来爬取、解析网页数据,以及存储和管理这些数据。文章旨在为初学者提供一个清晰的爬虫开发路径,同时为有经验的开发者提供一些高级技巧。
32 1
|
3月前
|
数据采集 JavaScript 前端开发
JavaScript逆向爬虫——使用Python模拟执行JavaScript
JavaScript逆向爬虫——使用Python模拟执行JavaScript
71 2