Python爬虫在学习中整理的一些小技巧

简介: 如果你对工作不满意或对生活不满意,请不用抱怨,因为毫无用处,你只有努力提升技能,努力的完善自己,不断地向前奔跑,才会越来越好的!

使用代理IP

开发爬虫过程中经常会遇到IP被封掉的情况,这时就需要用到代理IP;
在urllib2包中有个ProxyHandler类,通过此类可以设置代理访问网页。

Cookies处理

cookies是某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密),python提供了cookielib模块用于处理cookies,cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源。

伪装成浏览器

某些网站反感爬虫的到访,于是对爬虫一律拒绝请求。所以用urllib2直接访问网站经常会出现HTTP Error 403: Forbidden的情况对有些 header 要特别留意,服务端会针对这些 header 做检查。

  1. User-Agent 有些服务端或 Proxy 会检查该值,用来判断是否是浏览器发起的 Request;
  2. Content-Type 在使用 REST 接口时,服务端会检查该值,用来确定 HTTP Body 中的内容该怎样解析。

页面解析

对于页面解析最强大的当然是正则表达式。其次就是解析库了,常用的有两个 lxml 和 BeautifulSoup,对于这两个库,我的评价是,都是HTML/XML的处理库。

  1. Beautifulsoup是纯python实现的,效率虽然低一些,但是功能实用,比如:它可以通过结果搜索获得某个HTML节点的源码这样的;
  2. lxml 底层是由C语言编码的,比较高效,支持Xpath。

验证码的处理

对于一些简单的验证码,可以进行简单的识别。本人也只进行过一些简单的验证码识别。但是有些反人类的验证码,比如12306,可以通过打码平台进行人工打码,当然这是要付费的。

gzip压缩

大家有没有遇到过某些网页,不论你怎么转码都是一团乱码。
如果你遇到了,说明你还不知道目前许多web服务具有发送压缩数据的能力,这可以将网络线路上传输的大量数据消减 60% 以上。尤其适用于 XML web 服务,因为 XML 数据的压缩率可以很高。但是一般服务器不会为你发送压缩数据,除非你告诉服务器你可以处理压缩数据。

相关文章
|
1天前
|
数据采集 数据处理 开发者
Python爬虫技术在数据收集与分析中的应用
随着互联网信息的爆炸式增长,数据收集与分析变得愈发重要。本文将介绍Python爬虫技术在实际项目中的应用,探讨其在数据收集、清洗和分析过程中的作用,以及如何利用Python相关库提高爬虫效率。
|
2天前
|
Web App开发 数据采集 前端开发
Python Selenium 爬虫淘宝案例
本文基于Selenium + MongoDB + ChromeDriver + Pyquery实现爬虫淘宝案例。
33 1
|
2天前
|
数据采集 JSON JavaScript
Python爬虫案例:抓取猫眼电影排行榜
python爬取猫眼电影排行榜数据分析,实战。(正则表达式,xpath,beautifulsoup)
25 2
|
2天前
|
机器学习/深度学习 数据采集 JSON
Python爬虫requests库详解#3
摘要:python requests库基用法,高级用法
21 0
|
2天前
|
数据采集 应用服务中间件 数据安全/隐私保护
Python爬虫urllib详解#3
摘要:urllib深度解析与高级用法、robots协议分析
32 1
Python爬虫urllib详解#3
|
2天前
|
数据采集 存储 前端开发
Python爬虫的基本原理#2
摘要:爬虫基本原理、会话和Cookie详解
24 1
|
9天前
|
数据采集 JSON 安全
Python爬虫之http基本原理#2
http基本原理,http报文解析,http请求过程
26 0
|
11天前
|
存储 数据采集 NoSQL
Python爬虫存储库安装#1
摘要:PyMySQL安装、PyMongo安装、redis-py安装、RedisDump安装
42 4
|
11天前
|
数据采集 文字识别 Linux
Python爬虫解析库安装#1
摘要:python解析库 lxml安装、beautiful soup 安装、pyquery安装、tesserocr安装
44 3
|
11天前
|
Web App开发 数据采集 Linux
Python爬虫请求库安装#1
摘要:requests安装、selenium安装、aiohttp安装
57 3

相关产品

  • 云迁移中心