Scrapy框架 -- 中间件介绍

简介: Scrapy框架 -- 中间件介绍

一、创建Scrapy项目zhongjj,进入zhongjj项目,创建爬虫文件zhongjjpc

scrapy startproject zhongjj
cd zhongjj
scrapy genspider zhongjjpc www.xxx.com

二、修改配置文件

ROBOTSTXT_OBEY = False
LOG_LEVEL = 'ERROR'

三、添加三个目标地址,其中最后一个地址是错误的url

start_urls = ["https://www.baidu.com/","https://www.sina.com.cn/","https://wwwwww.sohu.com/"]

四、修改中间件文件

1、删除爬虫中间件类ZhongjjSpiderMiddleware

2、修改拦截内容响应内容及异常内容

def process_request(self, request, spider):
        print(request.url+"我是requests")
        return None
    def process_response(self, request, response, spider):
        print(request.url+"我是response")
        return response
    def process_exception(self, request, exception, spider):
        print(request.url+"我是异常信息")
        pass

3、在settings文件里面开启中间件

DOWNLOADER_MIDDLEWARES = {
   "zhongjj.middlewares.ZhongjjDownloaderMiddleware": 543,
}

五、运行结果,三个函数都被调用

六、开发中间件

1、代理中间件

request.meta['proxy'] = 'https://ip:port'

2、UA中间件

request.headers['User-Agent'] = 'Mozilla/5.0 (Windows ......'

3、Cookies中间件

request.headers['cookie'] = 'xxx'
第二种方法
request.cookies = 'xxx'

 

目录
相关文章
|
1月前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
97 6
|
2月前
|
数据采集 中间件 开发者
Scrapy爬虫框架-自定义中间件
Scrapy爬虫框架-自定义中间件
58 1
|
2月前
|
数据采集 中间件 Python
Scrapy爬虫框架-通过Cookies模拟自动登录
Scrapy爬虫框架-通过Cookies模拟自动登录
107 0
|
5月前
|
数据采集 存储 中间件
高效数据抓取:Scrapy框架详解
高效数据抓取:Scrapy框架详解
|
1月前
|
数据采集 前端开发 中间件
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第26天】Python是一种强大的编程语言,在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架,为开发者提供了强大的工具集。本文通过实战案例,详细解析Scrapy框架的应用与技巧,并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。
66 4
|
1月前
|
消息中间件 NoSQL Java
springboot整合常用中间件框架案例
该项目是Spring Boot集成整合案例,涵盖多种中间件的使用示例,每个案例项目使用最小依赖,便于直接应用到自己的项目中。包括MyBatis、Redis、MongoDB、MQ、ES等的整合示例。
102 1
|
2月前
|
数据采集 中间件 数据挖掘
Scrapy 爬虫框架(一)
Scrapy 爬虫框架(一)
53 0
|
2月前
|
数据采集 XML 前端开发
Scrapy 爬虫框架(二)
Scrapy 爬虫框架(二)
50 0
|
4月前
|
数据采集 存储 XML
Scrapy框架实现数据采集的详细步骤
本文介绍了使用Scrapy框架从宁波大学经济学院网站爬取新闻或公告详情页内容的过程,包括创建Scrapy项目、编写爬虫规则、提取所需信息,并最终将数据存储到Excel文件中的方法和步骤。
Scrapy框架实现数据采集的详细步骤
|
4月前
|
数据采集 中间件 调度
Scrapy 爬虫框架的基本使用
Scrapy 爬虫框架的基本使用