在爬虫文件中
def __init__(self):
self.bro = Chrome() # 默认路径为python.exe所在文件夹
中间件文件,在类中
def process_response(self, request, response, spider): #spider便是爬虫文件中的类
bro = spider.bro # 获取爬虫文件中定义的浏览器对象
new_url = spider.start_urls[0] # 需要的url
bro.get(new_url)
time.sleep(3)
page_text = bro.page_source # 包含动态加载的数据
new_response = HtmlResponse(url=new_url,body=page_text,encoding='utf-8',request=request)
return new_response
在setting中开启中间件
DOWNLOADER_MIDDLEWARES = {
'servant_pic.middlewares.ServantPicDownloaderMiddleware': 543,
}