scrapy中使用senlenium

简介: scrapy中使用senlenium

在爬虫文件中

 def __init__(self):
        self.bro = Chrome() # 默认路径为python.exe所在文件夹

中间件文件,在类中

    def process_response(self, request, response, spider): #spider便是爬虫文件中的类
        bro = spider.bro # 获取爬虫文件中定义的浏览器对象
        new_url = spider.start_urls[0]  # 需要的url
        bro.get(new_url)
        time.sleep(3)
        page_text = bro.page_source # 包含动态加载的数据
        new_response = HtmlResponse(url=new_url,body=page_text,encoding='utf-8',request=request)
        return new_response

在setting中开启中间件

DOWNLOADER_MIDDLEWARES = {
   'servant_pic.middlewares.ServantPicDownloaderMiddleware': 543,
}
目录
相关文章
|
7天前
|
存储 数据采集 中间件
scrapy实战2586个小姐姐带回家
scrapy实战2586个小姐姐带回家
23 3
scrapy实战2586个小姐姐带回家
|
5天前
|
数据采集 JSON Shell
Scrapy
【8月更文挑战第15天】
15 2
|
3月前
|
数据采集 存储 数据可视化
介绍一下常见的爬虫框架或库,如`Scrapy`。
【2月更文挑战第22天】【2月更文挑战第70篇】介绍一下常见的爬虫框架或库,如`Scrapy`。
59 0
|
10月前
|
数据采集 Web App开发 中间件
Scrapy爬虫框架
Scrapy爬虫框架
103 1
Scrapy爬虫框架
|
9月前
|
数据采集 存储 数据挖掘
scrapy介绍
scrapy介绍
78 0
|
数据采集 JSON 前端开发
Scrapy 的初步认识
Scrapy 是一个高级的 Python 爬虫框架,它不仅包含了爬虫的特性,还可以方便的将爬虫获取的数据保存到 csv、json 等文件中。 Scrapy 使用了 Twisted 作为框架,Twisted 是事件驱动的,对于会阻塞线程的操作(访问文件、数据库等),比较适合异步的代码。
|
数据采集 存储 中间件
Scrapy基础详解
Scrapy基础详解
233 0
Scrapy基础详解
|
数据采集 中间件 调度
强大的爬虫框架 Scrapy
本节来介绍一个强大的爬虫框架 Scrapy。Scrapy 是一个基于 Twisted 的异步处理框架,是纯 Python 实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以灵活完成各种需求。
114 0
|
数据采集 存储 JSON
scrapy学习
scrapy学习
179 0
|
XML Ubuntu 安全
二、安装 Scrapy
二、安装 Scrapy
198 0