备案控制台

开发者社区大数据文章正文

Python网络爬虫之urllib2的使用细节与抓站技巧

2018-01-14 944

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 某些网站反感爬虫的到访，于是对爬虫一律拒绝请求,这时候我们需要伪装成浏览器，这可以通过修改http包中的header来实现一、伪装成浏览器访问+表单data的处理示例1二、获取访问Cookie的值示例2三、Proxy的设置及Timeout 设置urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。

某些网站反感爬虫的到访，于是对爬虫一律拒绝请求,这时候我们需要伪装成浏览器，这可以通过修改http包中的header来实现

一、伪装成浏览器访问+表单data的处理

示例1

二、获取访问Cookie的值

示例2

三、Proxy的设置及Timeout 设置

urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响，那么可以使用如下代理操作

示例3

四、使用 urllib2时打开Debug Log模式

debug Log 的打开，这样收发包的内容就会在屏幕上打印出来，方便调试，有时可以省去抓包的工作，这样就可以看到传输的数据包内容了。

示例4

五、对付"反盗链"

某些站点有所谓的反盗链设置，其实说穿了很简单，就是检查你发送请求的header里面，referer站点是不是他自己，所以我们只需要像把headers的referer改成该网站即可，以cnbeta为例：headers是一个dict数据结构，你可以放入任何想要的header，来做一些伪装。例如，有些网站喜欢读取header中的X-Forwarded-For来看看人家的真实IP，可以直接把X-Forwarde-For改了

示例5

资料来源：感谢汪童鞋的分享

文章标签：

Python

数据采集

关键词：

Python爬虫

Python网络

Python网络爬虫

爬虫python

Python urllib

keitwotest

目录

相关文章

子午s

|

8天前

|

机器学习/深度学习人工智能算法

基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法

眼疾识别系统，本系统使用Python作为主要开发语言，基于TensorFlow搭建卷积神经网络算法，并收集了4种常见的眼疾图像数据集（白内障、糖尿病性视网膜病变、青光眼和正常眼睛）再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型，然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面，实现用户上传一张眼疾图片识别其名称。

子午s

26 4 5

基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法

子午s

|

30天前

|

机器学习/深度学习人工智能算法

猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法

宠物识别系统使用Python和TensorFlow搭建卷积神经网络，基于37种常见猫狗数据集训练高精度模型，并保存为h5格式。通过Django框架搭建Web平台，用户上传宠物图片即可识别其名称，提供便捷的宠物识别服务。

子午s

262 55 55

爱专研的技术土狗

|

1月前

|

数据采集存储 XML

Python爬虫：深入探索1688关键词接口获取之道

在数字化经济中，数据尤其在电商领域的价值日益凸显。1688作为中国领先的B2B平台，其关键词接口对商家至关重要。本文介绍如何通过Python爬虫技术，合法合规地获取1688关键词接口，助力商家洞察市场趋势，优化营销策略。

爱专研的技术土狗

83 3 4

子午s

|

1月前

|

机器学习/深度学习人工智能算法

【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别

宠物识别系统，本系统使用Python作为主要开发语言，基于TensorFlow搭建卷积神经网络算法，并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫（Abyssinian）', '孟加拉猫（Bengal）', '暹罗猫（Birman）', '孟买猫（Bombay）', '英国短毛猫（British Shorthair）', '埃及猫（Egyptian Mau）', '缅因猫（Maine Coon）', '波斯猫（Persian）', '布偶猫（Ragdoll）', '俄罗斯蓝猫（Russian Blue）', '暹罗猫（Siamese）', '斯芬克斯猫（Sphynx）', '美国斗牛犬

子午s

177 29 29

【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别

API小知识

|

7天前

|

数据采集供应链 API

Python爬虫与1688图片搜索API接口：深度解析与显著收益

在电子商务领域，数据是驱动业务决策的核心。阿里巴巴旗下的1688平台作为全球领先的B2B市场，提供了丰富的API接口，特别是图片搜索API（`item_search_img`），允许开发者通过上传图片搜索相似商品。本文介绍如何结合Python爬虫技术高效利用该接口，提升搜索效率和用户体验，助力企业实现自动化商品搜索、库存管理优化、竞品监控与定价策略调整等，显著提高运营效率和市场竞争力。

API小知识

32 3 3

游客akle7anmklvj6

|

15天前

|

算法网络协议 Python

探秘Win11共享文件夹之Python网络通信算法实现

本文探讨了Win11共享文件夹背后的网络通信算法，重点介绍基于TCP的文件传输机制，并提供Python代码示例。Win11共享文件夹利用SMB协议实现局域网内的文件共享，通过TCP协议确保文件传输的完整性和可靠性。服务器端监听客户端连接请求，接收文件请求并分块发送文件内容；客户端则连接服务器、接收数据并保存为本地文件。文中通过Python代码详细展示了这一过程，帮助读者理解并优化文件共享系统。

游客akle7anmklvj6

32 4 4

小白学大数据

|

18天前

|

数据采集存储缓存

如何使用缓存技术提升Python爬虫效率

如何使用缓存技术提升Python爬虫效率

小白学大数据

42 2 2

小白学大数据

|

19天前

|

数据采集 Web App开发监控

Python爬虫：爱奇艺榜单数据的实时监控

Python爬虫：爱奇艺榜单数据的实时监控

小白学大数据

65 3 3

爱专研的技术土狗

|

28天前

|

数据采集 JSON API

如何利用Python爬虫淘宝商品详情高级版（item_get_pro）API接口及返回值解析说明

本文介绍了如何利用Python爬虫技术调用淘宝商品详情高级版API接口（item_get_pro），获取商品的详细信息，包括标题、价格、销量等。文章涵盖了环境准备、API权限申请、请求构建和返回值解析等内容，强调了数据获取的合规性和安全性。

爱专研的技术土狗

83 13 13

爱专研的技术土狗

|

1月前

|

数据采集存储 API

利用Python爬虫获取1688关键词接口全攻略

本文介绍如何使用Python爬虫技术合法合规地获取1688关键词接口数据，包括环境准备、注册1688开发者账号、获取Access Token、构建请求URL、发送API请求、解析HTML及数据处理存储等步骤，强调遵守法律法规和合理使用爬虫技术的重要性。

爱专研的技术土狗

99 5 5

热门文章

最新文章

python——面向对象

　　好程序员Python教程系列第5讲-分支结构

python中if __name__ == '__main__': 介绍

【循序渐进学Python】6.Python中的函数

Python文件操作

Python3简单实现多任务(多进程篇)

Head First Python 7 web开发

深度学习多进程GPU部署（一）- python多进程多线程

吐血总结！50道Python面试题集锦

Lua vs. Python：哪个更适合构建稳定可靠的长期运行爬虫？

揭秘豆瓣网站爬虫：利用lua-resty-request库获取图片链接

网络爬虫实战演练

Python 爬虫：Spring Boot 反爬虫的成功案例

使用Python实现简单的Web爬虫

Node.js爬虫在租房信息监测与分析中的应用

如何利用Python构建高效的Web爬虫

Python爬虫技术与数据可视化：Numpy、pandas、Matplotlib的黄金组合

静态代理IP对反爬虫策略的应对，以及静态ip对爬虫的助力

Python爬虫：数据获取与解析的艺术

相关课程

更多

Python Web开发基础

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

相关实验场景

更多

用Python画圣诞树

Python选择及循环结构

云端Python及基本操作

Python网络通信程序典型应用

容器的自定义网络

容器的共享网络模型

推荐镜像

更多

python-release

nodejs-release

libreoffice

下一篇

DataWorks智能交互式数据开发与分析之旅