requests是相对于urllib跟简单的请求库,完成请求的步骤简单,能加快开发效率
安装模块
pip install requests
GET请求
使用 .get() 发送get请求,同理,也有 .post() ,.put(),.delete(),.head(),.options()这些请求类型
import requests url = "http://www.baidu.com" response = requests.get(url) print(response.content.decode('utf-8'))
使用headers添加请求头
我们在使用urllib是添加请求头需要去构建request对象,但在这里,我们不需要去构建,直接传递一个headers参数就ok了,cookie也不需要使用cookiejar了,是不是感觉很方便?
url = "https://www.baidu.com/s?" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36", "cookie": "cookie" } response = requests.get(url, headers) print(response.content.decode('utf8'))
使用params传递URL参数
当我们需要为URL的查询字符串(query string)传递某种数据时,我们就需要用键值对的方式放在URL跟一个问号后面。而get()函数有那么一个参数(params)让我们不需要自己去构建URL
观察百度时的url,查询参数键为wd
import requests url = "https://www.baidu.com/s" params = { "wd": "奥特曼" } response = requests.get(url=url, params=params)
响应内容的处理
函数text会自动帮你解码,但有时候出错
函数content会得到二进制数据,如果是视频,图片这些二进制文件就使用content就ok了,但如果是文本的话,就需要使用decode()解码
import requests picture_url = 'https://img-home.csdnimg.cn/images/20210129020554.jpg' url = 'https://www.csdn.net/' response1 = requests.get(picture_url) with open("1.jpg", "wb") as f: f.write(response1.content) response2 = requests.get(url) print(response2.encoding) # 响应对象自动识别的编码属性,可更改 print(response2.text)
POST请求
post请求需要传递的数据也是用一个字典包裹的,但不需要编码
import requests def spider(url): data = { "表单": "数据", "键": "值" } response = requests.post(url, data=data) print(response.text) if __name__ == "__main__": url = "http://httpbin.org/post" spider(url)
Session回话维持
这个就跟http.cookiejar的功能相似,也可以自动管理cookie,保持当前的会话。比如我们在模拟登录后,登录的信息会保存在cookie里,如果我们使用session的方式,我们下一次访问另一个网页时会默认使用该cookie,这样我们就不需要自己手动去使用cookie。
import requests session = requests.Session() session.get("http://httpbin.org/cookies/set/sessioncookie/123456789") response = session.get("http://httpbin.org/cookies") print(response.text)
代理
使用proxies参数来传递代理,同理,代理也是要用字典包裹,键是请求的协议(http/https),值有两部分,地址+端口
import requests proxies = { "http": "http://10.10.1.10:3128", "https": "http://10.10.1.10:1080", } headers = { "User-agent": "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50" } response = requests.get("http://python.org", headers=headers, proxies=proxies)
其他
- 状态码(status_code)
import requests res = request.get("https://www.baidu.com") print(res.status_code)
超时设置(timeout)
import requests response = requests.get("http://www.baidu.com", timeout=0.5s) print(response)