二次封装requests,构造通用的请求函数

简介: 本章将告诉你该如何去对request模块进行二次封装,暂时并不会告诉你HTTP协议及原理、URL等相关。当然你会使用然后在来阅读此文章一定会另有所获。我已经迫不及待要告诉你这个小秘密,以及想与你交流了。没时间解释了,快来一起和我一起探讨相关的内容吧

官方文档对requests的定义为:Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。


使用Python写做爬虫的小伙伴一定使用过requests这个模块,初入爬虫的小伙伴也一定写过N个重复的requests,这是你的疑问。当然也一直伴随着我,最近在想对requests如何进行封装一下,让他支持支持通用的函数。若需要使用,直接调用即可。


那么问题来了,如果要写个供自己使用通用的请求函数将会有几个问题


  • requests的请求方式(GET\POST\INPUT等等)


  • 智能识别网站的编码,避免出现乱码


  • 支持文本、二进制(图片、视频等为二进制内容)


  • 以及还需要傻瓜一点,那就是网站的Ua(Ua:User-Agent,基本上网站都会验证接受到请求的Ua。


来初步判断是爬虫还是用户)


那么咱们就针对以上问题开干吧


Requests的安装


在确保python环境搭建完成后直接使用pip或者conda命令进行安装,安装命令如下:


pip install requests
conda install requests# 或者下载过慢点话,可以使用国内的pip镜像源,例如:pip install requests -i  https://pypi.tuna.tsinghua.edu.cn/simple/


安装完成后,效果图如下:


640 (1).jpg


初探requests基本使用


HTTP 中最常见的请求之一就是 GET 请求,下面我们来详细了解利用 requests 库构建 GET 请求的方法。


import requests
response = requests.get('http://httpbin.org/get')# 响应状态码print("response.status_code:", response.status_code)# 响应头print("response.headers:", response.headers)# 响应请求头print("response.request.headers:", response.request.headers)# 响应二进制内容print("response.content:", response.content)# 响应文本print("response.text", response.text)# 返回如下response.status_code: 200response.headers: {'Date': 'Thu, 12 Nov 2020 13:38:05 GMT', 'Content-Type': 'application/json', 'Content-Length': '306', 'Connection': 'keep-alive', 'Server': 'gunicorn/19.9.0', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Credentials': 'true'}
response.request.headers: {'User-Agent': 'python-requests/2.24.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
response.content: b'{\n  "args": {}, \n  "headers": {\n    "Accept": "*/*", \n    "Accept-Encoding": "gzip, deflate", \n    "Host": "httpbin.org", \n    "User-Agent": "python-requests/2.24.0", \n    "X-Amzn-Trace-Id": "Root=1-5fad3abd-7516d60b3e951824687a50d8"\n  }, \n  "origin": "116.162.2.166", \n  "url": "http://httpbin.org/get"\n}\n'{  "args": {}, 
  "headers": {    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.24.0", 
    "X-Amzn-Trace-Id": "Root=1-5fad3abd-7516d60b3e951824687a50d8"
  }, 
  "origin": "116.162.2.166", 
  "url": "http://httpbin.org/get"}


requests基本使用已经经过简单的测试了,是否有一点点feel呢?接下来我们直接将它封装为一个函数以供随时调用


示例如下


import requests
urls = 'http://httpbin.org/get'def downloader(url, headers=None):
    response = requests.get(url, headers=headers)    return response
print("downloader.status_code:", downloader(url=urls).status_code)
print("downloader.headers:", downloader(url=urls).headers)
print("downloader.request.headers:", downloader(url=urls).request.headers)
print("downloader.content:", downloader(url=urls).content)
print("downloader.text", downloader(url=urls).text)# 返回效果如上所示,此处省略


以上我们就把,请求方法封装成了一个函数。将基本的url,headers以形参的方式暴露出来,我们只需传入需要请求的url即可发起请求,至此一个简单可复用的请求方法咱们就完成啦。


完~~~


以上照顾新手的就基本完成了,接下来我们搞点真家伙。


二次封装


请求函数的封装


由于请求方式并不一定(有可能是GET也有可能是POST),所以我们并不能智能的确定它是什么方式发送请求的。


Requests中request方法以及帮我们实现了这个方法。我们将他的请求方式暴露出来,写法如下:


urls = 'http://httpbin.org/get'def downloader(url, method=None, headers=None):
    _method = "GET" if not method else method
    response = requests.request(url, method=_method, headers=headers)    return response
print("downloader.status_code:", downloader(url=urls).status_code)
print("downloader.headers:", downloader(url=urls).headers)
print("downloader.request.headers:", downloader(url=urls).request.headers)
print("downloader.content:", downloader(url=urls).content)
print("downloader.text", downloader(url=urls).text)


由于大部分都是GET方法,所以我们定义了一个默认的请求方式。如果需要修改请求方式,只需在调用时传入相对应的方法即可。例如我们可以这样


downloader(urls, method="POST")


文本编码问题


解决由于request的误差判断而造成解码错误,而得到乱码。


此误差造成的原因是可能是响应头的Accept-Encoding,另一个是识别错误


# 查看响应编码response.encoding


此时我们需要借用Python中C语言编写的cchardet这个包来识别响应文本的编码。安装它


pip install cchardet -i  https://pypi.tuna.tsinghua.edu.cn/simple/# 如果pip直接安装失败的话,直接用清华源的镜像。


# 实现智能版的解码:如下encoding = cchardet.detect(response.content)['encoding']def downloader(url, method=None, headers=None):
    _method = "GET" if not method else method
    response = requests.request(url, method=_method, headers=headers)
    encoding = cchardet.detect(response.content)['encoding']    return response.content.decode(encoding)


区分二进制与文本的解析


在下载图片、视频等需获取到其二进制内容。而下载网页文本需要进行encode。


同理,我们只需要将一个标志传进去,从而达到分辨的的效果。例如这样


def downloader(url, method=None, headers=None, binary=False):
    _method = "GET" if not method else method
    response = requests.request(url, method=_method, headers=headers)
    encoding = cchardet.detect(response.content)['encoding']    return response.content if binary else response.content.decode(encoding)


默认Ua


在很多时候,我们拿ua又是复制。又是加引号构建key-value格式。这样有时候仅仅用requests做个测试。就搞的麻烦的很。而且请求过多了,直接就被封IP了。没有自己的ip代理,没有钱有时候还真有点感觉玩不起爬虫。


为了减少被封禁IP的概率什么的,我们添加个自己的Ua池。Ua池的原理很简单,内部就是采用随机的Ua,从而减少被发现的概率.至于为什么可以达到这这样的效果,在这里仅作简单介绍。详细可能要从计算机网络原理说起。


结论就是你一个公司里大多采用的都是同一个外网ip去访问目标网址。那么就意味着可能你们公司有N个人同一个ip去访问目标网址。而封禁做区分的一般由ip访问频率和浏览器的指纹和在一起的什么鬼东东。简单理解为Ua+ip访问频率达到峰值,你IP就对方关小黑屋了。


构建自己的ua池,去添加默认的请求头,

Ua有很多,这里就不放出来了,如果有兴趣可以直接去源码里面拿。直接说原理:构造很多个Ua,然后随机取用。从而降低这个同一访问频率:同时也暴露端口方便你自己传入header


from powerspider.tools.Ua import uaimport requestsdef downloader(url, method=None, header=None, binary=False):
    _headers = header if header else {'User-Agent': ua()}
    _method = "GET" if not method else method
    response = requests.request(url, method=_method, headers=_headers)
    encoding = cchardet.detect(response.content)['encoding']    return response.content if binary else response.content.decode(encoding)


那么基本的文件都已经解决了,不过还不完美。异常处理,错误重试,日志什么都没。这怎么行呢。活既然干了,那就干的漂漂亮亮的。


来让我们加入进来这些东西


import cchardetfrom retrying import retryfrom powerspider import loggerfrom powerspider.tools.Ua import uafrom requests import request, RequestException@retry(stop_max_attempt_number=3, retry_on_result=lambda x: x is None, wait_fixed=2000)def downloader(url, method=None, header=None, timeout=None, binary=False, **kwargs):
    logger.info(f'Scraping {url}')
    _header = {'User-Agent': ua()}
    _maxTimeout = timeout if timeout else 5
    _headers = header if header else _header
    _method = "GET" if not method else method    try:
        response = request(method=_method, url=url, headers=_headers, **kwargs)
        encoding = cchardet.detect(response.content)['encoding']        if response.status_code == 200:            return response.content if binary else response.content.decode(encoding)        elif 200 < response.status_code < 400:
            logger.info(f"Redirect_URL: {response.url}")
        logger.error('Get invalid status code %s while scraping %s', response.status_code, url)    except RequestException as e:
        logger.error(f'Error occurred while scraping {url}, Msg: {e}', exc_info=True)if __name__ == '__main__':
    print(downloader("https://www.baidu.com/", "GET"))


至此,我们的对Requests二次封装,构造通用的请求函数就已经完成了。


源码地址:https://github.com/PowerSpider/PowerSpider/tree/dev


目录
相关文章
|
弹性计算 NoSQL 关系型数据库
ECS迁移问题之ECS往本地迁移如何解决
ECS(Elastic Compute Service,弹性计算服务)是云计算服务提供商提供的一种基础云服务,允许用户在云端获取和配置虚拟服务器。以下是ECS服务使用中的一些常见问题及其解答的合集:
|
机器学习/深度学习 存储 人工智能
英特尔AMX助力阿里云提升推荐模型性能
本文详细介绍阿里云人工智能平台PAI团队研发的PAI-REC以白盒化的方式快速构建推荐全链路方案,帮助用户更好的落地深度学习推荐算法。
|
Rust API Python
Python Requests 库中的重试策略实践
在网络请求中,由于网络波动或服务暂时不可达等原因,请求可能失败。为增强客户端健壮性,自动重试机制变得尤为重要。本文介绍如何在 Python 的 `requests` 库中实现请求自动重试,通过 `urllib3` 的 `Retry` 类配置重试策略,并提供了一个具体示例,展示了如何设置重试次数、状态码集合及异常类型等参数,从而提高系统的可靠性和容错能力。
556 3
|
数据可视化 Python
pycallgraph,一个好用的 Python 代码可视化库!
pycallgraph,一个好用的 Python 代码可视化库!
1066 7
|
Linux 调度 数据库
Django使用django-apscheduler实现定时任务
【7月更文挑战第8天】定时任务可以在后台定时执行指定的代码,避免了很多人为操作。下面是在Django项目中如何使用定时任务的具体操作流程
1129 1
无缝构建与部署:GitLab CI/CD首秀的实战攻略
无缝构建与部署:GitLab CI/CD首秀的实战攻略
342 0
无缝构建与部署:GitLab CI/CD首秀的实战攻略
|
Linux 数据安全/隐私保护
Linux系统忘记密码的三种解决办法
这篇博客介绍了三种在Linux忘记密码时重置登录密码的方法:1) 使用恢复模式,通过控制台界面以管理员权限更改密码;2) 利用Linux Live CD/USB启动,挂载硬盘分区并使用终端更改密码;3) 进入单用户模式,自动以管理员身份登录后重置密码。每个方法都提供了详细步骤,提醒用户在操作前备份重要数据。
|
存储 JSON 测试技术
全栈自动化第四期—接口自动化requests详解与进阶封装
本文主要通过源码分析,介绍requests请求类封装,以及数据读取(Yaml)封装,yaml数据源热加载,接口参数关联等,帮助大家更好的由浅入深的理解python接口自动化,希望对大家的python接口自动化学习有所帮助
898 0
全栈自动化第四期—接口自动化requests详解与进阶封装
|
JSON 数据格式
14-Python-对比校验神器-deepdiff库
14-Python-对比校验神器-deepdiff库
|
设计模式 JavaScript 数据库
表单防止重复提交的四种方式
表单防止重复提交的四种方式
654 0