Python 爬虫基础 - 浏览器伪装-阿里云开发者社区

Python 爬虫基础 - 浏览器伪装

2017-11-15 1552

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

前面学习了Urllib模块里面最最基本的GET和POST操作。现在做个简单的例子，比如我打算爬http://www.oschina.net/ 的页面
如果使用一样的方法

import urllib.request
url = "http://www.oschina.net/"
data = urllib.request.urlopen(url).read()

他会抛出以下异常

raise HTTPError(req.full_url, code, msg, hdrs, fp)
urllib.error.HTTPError: HTTP Error 403: Forbidden

这是因为这个网站做了一个反爬的设置，禁止非浏览器访问。绕过这个限制很容易，我们自己加工一个Header让服务器认为我们是通过浏览器访问的就好了。

按F12，选择network，刷新页面，然后看看Request Header里面的User-Agent

Python 爬虫基础 - 浏览器伪装

把这段内容拷贝下来，我们就可以自己编辑了。

Urllib里面有2个方法可以自己添加header。

<strong>Method 1：通过build_opener()实现</strong>

import urllib.request
url = "http://www.oschina.net/"

header=("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36")

opener=urllib.request.build_opener()
opener.addheaders=[header]
data=opener.open(url).read()

fp=open('c:\\temp\\tt.html','wb')
fp.write(data)
fp.close()

<strong>Method 2: 通过 Request()实现</strong>

import urllib.request
url = "http://www.oschina.net/"
r=urllib.request.Request(url)
r.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36")
data=urllib.request.urlopen(r).read()

fp=open('c:\\temp\\tt.html','wb')
fp.write(data)
fp.close()

两种方法都可以实现浏览器伪装。执行一下，就可以成功地爬取这个网站的页面了。

本文转自 beanxyz 51CTO博客，原文链接：http://blog.51cto.com/beanxyz/2043484，如需转载请自行联系原作者

Python 爬虫基础 - 浏览器伪装

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Python 爬虫基础 - 浏览器伪装

热门文章

最新文章

相关课程

相关电子书

推荐镜像