请求模块requests(三)

简介: 请求模块requests(三)

复杂的网络请求
requests模块网络请求,不只有简单的GET与POST。还有复杂的请求头、Cookies以及网络超时等。不过,requests模块将这一系列复杂的请求方式进行了简化,只要在发送请求时设置对应的参数即可实现复杂的网络请求。

1、添加请求头headers
有时候请求一个网页内容时,会发现无论通过GET、POST以及其他请求方式,都会出现403错误。这种现象多数为服务器拒绝了您的访问,那是因为这些网页为了防止恶意采集信息,所使用的反爬虫设置。此时可以通过模拟浏览器的头部信息来进行访问,这样就能解决以上反爬设置问题。下面介绍requests模块添加请求头的方式,示例代码如下:

# 导入网络请求模块requests
import requests

# 创建需要爬取网页的地址
url = 'https://www.baidu.com'

# 创建头部信息
headers = {
   
  "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36"
}

# 发送网络请求
resp = requests.get(url, headers=headers)

# 打印响应状态码
print(resp.status_code)

运行结果如下:

200

2、验证Coookies
有时候爬取网页数据,需要进行网页的登录,才可以进行数据的抓取工作。Cookies登录就像很多网页中的自动登录功能一样,可以让用户第二次登录时在不需要验证账号和密码的情况下进行登录。在使用requests模块实现Cookies登录时,首先需要在浏览器的开发者工具页面中找到可以实现登录的Cookies信息,然后将Cookies处理并添加RequestsCookieJar的对象中,最后将RequestsCookieJar对象作为网络请求的Cookies参数发送网络请求即可。以豆瓣网登录为例,具体步骤如下:

§ 首先通过Chrome浏览器开发工具找到Cookie,如图:

image.png

§ 导入相应模块,将‘找到的登录后网页中的Cookie信息’以字符串形式保存,然后创建RequestsCookieJar()对象并对Cookie信息进行处理,最后将处理后的RequestsCookieJar()对象作为网络请求参数,代码如下:

#_*_coding:utf-8_*_
# 作者      :liuxiaowei
# 创建时间   :1/28/22 6:46 PM
# 文件      :验证cookie登录豆瓣网.py
# IDE      :PyCharm

import requests  # 导入网络请求模块
from lxml import etree  # 导入lxml模块

# 此处填写登录后网页中的cookie信息
cookies = 'll="118144"; bid=j6NSQkV1r_Y; _pk_ses.100001.8cb4=*; __utma=30149280.579477142.1643366325.1643366325.1643366325.1; __utmc=30149280; __utmz=30149280.1643366325.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utmt=1; dbcl2="253305871:xciB+TYVVkg"; ck=ABZW; ap_v=0,6.0; push_noty_num=0; push_doumail_num=0; __utmv=30149280.25330; _pk_id.100001.8cb4=8fd22890377e5e62.1643366324.1.1643366564.1643366324.; __utmb=30149280.7.10.1643366325'
headers = {
   'Host': 'www.douban.com',
           "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36" }
# 创建RequestsCookieJar对象,用于设置cookies信息
cookies_jar = requests.cookies.RequestsCookieJar()
for cookie in cookies.split(';'):
      # .split('=', 1) 这个‘1’代表分割一次
    key, value = cookie.split('=', 1)
    cookies_jar.set(key, value)  # 将cookies保存RequestsCookieJar当中
# 发送网络请求
response = requests.get('https://www.douban.com/',
headers=headers, cookies=cookies_jar)
if response.status_code == 200:  # 请求成功时
    html = etree.HTML(response.text)  # 解析html代码
    # 获取用户名
    name = html.xpath('//*[@id="db-global-nav"]/div/div[1]/ul/li[2]/a/span[1]/text()')
    print(name[0])  # 打印用户名

程序结果如下:

bruce_liu的帐号

3、会话请求
在实现获取某个登录后页面的信息时,可以使用设置Cookies的方式先实现模拟登录,然后在获取登录后页面的信息内容。这样虽然可以成功滴获取页面中的信息,但是比较烦琐。

其实requests模块中提供了Session对象,通过该对象可以实现在同一会话内发送多次网络请求的功能,相当于在浏览器中打开了一个新的选项卡,此时再获取登录后页面中的数据时,可以发送两次请求,第一次发送登录请求,而第二次请求就可以在不设置Cookies的情况下获取登录后的页面数据。示例代码如下:

#_*_coding:utf-8_*_
# 作者      :liuxiaowei
# 创建时间   :1/28/22 7:58 PM
# 文件      :通过session对象实现会话请求.py
# IDE      :PyCharm

import requests        # 导入requests模块
s = requests.Session()  # 创建会话对象
data={
   'username': 'bruce_liu', 'password': '2008_lxw'}  # 创建用户名、密码的表单数据
# 发送登录请求
response =s.post('http://site2.rjkflm.com:666/index/index/chklogin.html',data=data)
response2=s.get('http://site2.rjkflm.com:666')   # 发送登录后页面请求
print('登录信息:',response.text)                # 打印登录信息
print('登录后页面信息如下:\n',response2.text)    # 打印登录后的页面信息

程序运行结果如下:

登录信息: {
   "status":true,"msg":"登录成功!"}
登录后页面信息如下:
 <!DOCTYPE html>
<html lang="en">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">    
<meta name="keywords" content="明日科技,thinkphp5.0,编程e学网" />
<meta name="description" content="明日科技,thinkphp5.0,编程e学网" />
<title>编程e学网</title>
<link rel="shortcut icon" href="favicon.ico">
<link rel="stylesheet" type="text/css" href="/public/static/index/css/public.css" />
<link rel="stylesheet" type="text/css" href="/public/static/index/css/index.css" />
</head>
相关文章
|
10天前
请求模块requests(五)
请求模块requests(五)
40 15
|
10天前
|
JSON 数据格式
请求模块requests(二)
请求模块requests(二)
37 12
|
10天前
|
数据安全/隐私保护
请求模块requests(四)
请求模块requests(四)
30 9
|
10天前
|
网络安全 Python
请求模块requests(一)
请求模块requests(一)
32 9
|
15天前
|
数据采集 Python
Flask获取post,get参数,以及 爬虫 requests的get,post参数详解
Flask获取post,get参数,以及 爬虫 requests的get,post参数详解
|
2月前
|
JSON API 数据格式
Python网络编程:HTTP请求(requests模块)
在现代编程中,HTTP请求几乎无处不在。无论是数据抓取、API调用还是与远程服务器进行交互,HTTP请求都是不可或缺的一部分。在Python中,requests模块被广泛认为是发送HTTP请求的最简便和强大的工具之一。本文将详细介绍requests模块的功能,并通过一个综合示例展示其应用。
|
3月前
|
存储 运维 Java
函数计算产品使用问题之如何使用Python的requests库向HTTP服务器发送GET请求
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
101 8
|
4月前
|
JSON API 数据格式
Requests库:轻松实现Python中的HTTP请求
Requests是Python的第三方HTTP库,简化了HTTP请求的发送,支持GET、POST等方法。要安装,使用`pip install requests`。Requests以其简洁API和强大功能成为网络编程首选工具,为开发者提供高效稳定的网络交互体验。
124 5
|
5月前
|
数据采集 网络协议 Python
requests和aiohttp中代理IP的使用
requests和aiohttp中代理IP的使用
416 3
|
5月前
|
JSON API 数据格式
使用Python的`requests`库进行HTTP请求
【4月更文挑战第12天】在Python中,`requests`库是发送HTTP请求的一个非常流行的工具。它提供了简单且强大的API,使得开发者能够轻松地与RESTful API或其他网络服务进行交互。本文将介绍如何使用`requests`库进行基本的HTTP请求,包括GET、POST等请求方法,以及如何处理响应和异常。