伪装浏览器
- 对与一些需要登录的网站,如果不是从六七发出的请求,则得不到响应。所以,我们需要将爬虫程序法出请求伪装成浏览器正规军
- 具体实现:自定义网页请求报头(详细介绍)
使用Fiddle查看请求和响应报头
打开下载好的工具Fiddler,然后在浏览器访问“https://www.douban.com/”,在Fiddle左侧访问记录中,找到“200 HTTP www.douban.com”这一条,点击查看对应的请求和响应报头的具体内容,截图如下:
访问豆瓣
通过自定义请求报头与上图的Request Headers相同内容:
import urllib.request #定义保存文件的函数 def saveFile(data): path="E:\\python\\douban.out" f=open(path,'wb') f.write(data) f.colse() #网址 url="https://www.douban.com/" headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/62.0.3202.62 Safari/537.36'} req=urllib.request.Request(url=url,headers=headers) res=urllib.request.urlopen(req) data=res.read() #把爬去的内容保存到文件中 saveFile(data) data=data.decode('utf-8') #打印出抓取的内容 print(data) #打印各类信息 print(type(res)) print(res.geturl()) print(res.info()) print(res.getcode())