Python爬虫从入门到放弃（十五）之 Scrapy框架中Spiders用法-阿里云开发者社区

Python爬虫从入门到放弃（十五）之 Scrapy框架中Spiders用法

2017-07-17 1490

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Spider类定义了如何爬去某个网站，包括爬取的动作以及如何从网页内容中提取结构化的数据，总的来说spider就是定义爬取的动作以及分析某个网页工作流程分析以初始的URL初始化Request，并设置回调函数，当该request下载完毕并返回时，将生成response，并作为参数传给回调函数. spider中初始的requesst是通过start_requests()来获取的。

Spider类定义了如何爬去某个网站，包括爬取的动作以及如何从网页内容中提取结构化的数据，总的来说spider就是定义爬取的动作以及分析某个网页

工作流程分析

以初始的URL初始化Request，并设置回调函数，当该request下载完毕并返回时，将生成response，并作为参数传给回调函数. spider中初始的requesst是通过start_requests()来获取的。start_requests()获取 start_urls中的URL，并以parse以回调函数生成Request
在回调函数内分析返回的网页内容，可以返回Item对象，或者Dict，或者Request，以及是一个包含三者的可迭代的容器，返回的Request对象之后会经过Scrapy处理，下载相应的内容，并调用设置的callback函数
在回调函数内，可以通过lxml，bs4，xpath,css等方法获取我们想要的内容生成item
最后将item传递给Pipeline处理

我们以通过简单的分析源码来理解
我通常在写spiders下写爬虫的时候，我们并没有写start_requests来处理start_urls中的url，这是因为我们在继承的scrapy.Spider中已经写过了，我们可以点开scrapy.Spider查看分析

通过上述代码我们可以看到在父类里这里实现了start_requests方法，通过make_requests_from_url做了Request请求
如下图所示的一个例子，parse回调函数中的response就是父类列start_requests方法调用make_requests_from_url返回的结果，并且在parse回调函数中我们可以继续返回Request,如下属代码中yield Request()并设置回调函数。

spider内的一些常用属性

我们所有自己写的爬虫都是继承与spider.Spider这个类

name

定义爬虫名字，我们通过命令启动的时候用的就是这个名字，这个名字必须是唯一的

allowed_domains

包含了spider允许爬取的域名列表。当offsiteMiddleware启用时，域名不在列表中URL不会被访问
所以在爬虫文件中，每次生成Request请求时都会进行和这里的域名进行判断

start_urls

起始的url列表
这里会通过spider.Spider方法中会调用start_request循环请求这个列表中每个地址。

custom_settings

自定义配置，可以覆盖settings的配置，主要用于当我们对爬虫有特定需求设置的时候

设置的是以字典的方式设置:custom_settings = {}

from_crawler

这是一个类方法，我们定义这样一个类方法，可以通过crawler.settings.get()这种方式获取settings配置文件中的信息，同时这个也可以在pipeline中使用

start_requests()
这个方法必须返回一个可迭代对象，该对象包含了spider用于爬取的第一个Request请求
这个方法是在被继承的父类中spider.Spider中写的，默认是通过get请求，如果我们需要修改最开始的这个请求，可以重写这个方法，如我们想通过post请求

make_requests_from_url(url)
这个也是在父类中start_requests调用的，当然这个方法我们也可以重写

parse(response)
这个其实默认的回调函数
负责处理response并返回处理的数据以及跟进的url
该方法以及其他的Request回调函数必须返回一个包含Request或Item的可迭代对象

所有的努力都值得期许，每一份梦想都应该灌溉！

Python爬虫从入门到放弃（十五）之 Scrapy框架中Spiders用法

工作流程分析

spider内的一些常用属性

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Python爬虫从入门到放弃（十五）之 Scrapy框架中Spiders用法

工作流程分析

spider内的一些常用属性

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像