Scrapy框架 -- 中间件介绍

简介: Scrapy框架 -- 中间件介绍

一、创建Scrapy项目zhongjj,进入zhongjj项目,创建爬虫文件zhongjjpc

scrapy startproject zhongjj
cd zhongjj
scrapy genspider zhongjjpc www.xxx.com

二、修改配置文件

ROBOTSTXT_OBEY = False
LOG_LEVEL = 'ERROR'

三、添加三个目标地址,其中最后一个地址是错误的url

start_urls = ["https://www.baidu.com/","https://www.sina.com.cn/","https://wwwwww.sohu.com/"]

四、修改中间件文件

1、删除爬虫中间件类ZhongjjSpiderMiddleware

2、修改拦截内容响应内容及异常内容

def process_request(self, request, spider):
        print(request.url+"我是requests")
        return None
    def process_response(self, request, response, spider):
        print(request.url+"我是response")
        return response
    def process_exception(self, request, exception, spider):
        print(request.url+"我是异常信息")
        pass

3、在settings文件里面开启中间件

DOWNLOADER_MIDDLEWARES = {
   "zhongjj.middlewares.ZhongjjDownloaderMiddleware": 543,
}

五、运行结果,三个函数都被调用

六、开发中间件

1、代理中间件

request.meta['proxy'] = 'https://ip:port'

2、UA中间件

request.headers['User-Agent'] = 'Mozilla/5.0 (Windows ......'

3、Cookies中间件

request.headers['cookie'] = 'xxx'
第二种方法
request.cookies = 'xxx'

 

目录
相关文章
|
26天前
|
数据采集 中间件 开发者
Scrapy爬虫框架-自定义中间件
Scrapy爬虫框架-自定义中间件
45 1
|
26天前
|
数据采集 中间件 Python
Scrapy爬虫框架-通过Cookies模拟自动登录
Scrapy爬虫框架-通过Cookies模拟自动登录
49 0
|
4月前
|
数据采集 存储 中间件
高效数据抓取:Scrapy框架详解
高效数据抓取:Scrapy框架详解
|
26天前
|
数据采集 中间件 数据挖掘
Scrapy 爬虫框架(一)
Scrapy 爬虫框架(一)
39 0
|
26天前
|
数据采集 XML 前端开发
Scrapy 爬虫框架(二)
Scrapy 爬虫框架(二)
38 0
|
3月前
|
数据采集 存储 XML
Scrapy框架实现数据采集的详细步骤
本文介绍了使用Scrapy框架从宁波大学经济学院网站爬取新闻或公告详情页内容的过程,包括创建Scrapy项目、编写爬虫规则、提取所需信息,并最终将数据存储到Excel文件中的方法和步骤。
Scrapy框架实现数据采集的详细步骤
|
3月前
|
数据采集 中间件 调度
Scrapy 爬虫框架的基本使用
Scrapy 爬虫框架的基本使用
|
3月前
|
数据采集 存储 中间件
Python进行网络爬虫:Scrapy框架的实践
【8月更文挑战第17天】网络爬虫是自动化程序,用于从互联网收集信息。Python凭借其丰富的库和框架成为构建爬虫的首选语言。Scrapy作为一款流行的开源框架,简化了爬虫开发过程。本文介绍如何使用Python和Scrapy构建简单爬虫:首先安装Scrapy,接着创建新项目并定义爬虫,指定起始URL和解析逻辑。运行爬虫可将数据保存为JSON文件或存储到数据库。此外,Scrapy支持高级功能如中间件定制、分布式爬取、动态页面渲染等。在实践中需遵循最佳规范,如尊重robots.txt协议、合理设置爬取速度等。通过本文,读者将掌握Scrapy基础并了解如何高效地进行网络数据采集。
191 6
|
3月前
|
存储 中间件 数据处理
深入解读 Scrapy 框架原理与源码
深入解读 Scrapy 框架原理与源码
49 1
|
4月前
|
数据采集 中间件 调度
当当网数据采集:Scrapy框架的异步处理能力
当当网数据采集:Scrapy框架的异步处理能力