scrapy爬虫抓到的网页内容有时为空的
1、抓取 https 建议直接用 requests 库,如下所示: import requestsurl = 'https://www.url'values = {}values['username'] = 'username'values['password'] = 'password'response = requests.post(url,values,verify=False)print response.text将 verify 设置为 False,Requests 也能忽略对 SSL 证书的验证,当然你可以为 verify 传入 CA_BUNDLE 文件的路径,或者包含可信任 CA 证书文件的文件夹路径。2、这种类型的网站一般很少有高级的反爬取策略,你可以尝试维护一个代理IP池(自己爬取免费代理IP网站即可),每次都随机从中选取一个代理IP来做跳板访问。
赞0
踩0