Python网络数据抓取(2):HTTP Headers

简介: Python网络数据抓取(2):HTTP Headers

简介

接下来,本文会向大家阐述 HTTP 请求中的“请求头”(headers)的概念,并通过实例来帮助大家理解。让本文直接进入主题。

想必大家都知道,在进行 API 调用的过程中,本文实际上是在通过一个“信封”传递信息。可以把这个“信封”想象成一个客户端和服务器之间的交流媒介,客户端是发件人,服务器是收件人。

在这个“信封”里面装的,就是本文要从客户端发送到服务器的数据。但就像本文平时寄信一样,在信封上除了写明收件人的地址,还会有一个退件地址,以防信件无法送达时使用。

这个比喻是为了帮助大家理解请求头(headers)的作用。在网络通信中,请求头就相当于信封上的地址标签,它告诉服务器数据要发送到哪里,同时也提供了一些额外的信息,以便在数据无法正常送达时能够找到正确的处理方式。

为了更好地理解请求头,本文可以将其分为四大类。

  • Request Headers
  • Response Headers
  • Payload Headers
  • Representation Headers

请求头和响应头之间并没有绝对的界限,它们可以相互转换。接下来,本文将深入了解每一种头具体代表的意义。

Request Headers

它就像其他头部一样,是一个键值对,由请求数据的客户端发送。发送它的目的是让服务器理解如何发送响应。它还有助于服务器识别请求的发送者。

以下是一些请求头的示例:

  • Host(主机): www.medium.com
  • User-Agent(用户代理): Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko)Chrome/74.0.3729.169 Safari/537.36 Referer
  • (引荐页): https://medium.com
  • Connection(连接): close(关闭)
  • Accept-Language(接受语言): en-us(英语美国)
  • Accept-Encoding(接受编码): gzip(压缩格式)

需要注意的是,Content-Type 并不是请求头,而是一种表示头。这一点可能会引起混淆,但了解这一点对理解 HTTP 通信非常重要。

通过上述示例,本文可以看到 Host 和 User-Agent 头包含了发起请求的客户端信息。

Accept-Language 头则是用来告诉服务器,客户端能够理解响应内容的语言,例如这里的 en-us 表示英语(美国)。而 Accept-Encoding 头则表明,即使服务器发送的是经过 gzip 压缩的数据,客户端也能够正确解析和理解。

Response Headers

它们就像请求头部一样,只不过传输的方向相反。实际上,这些头部是服务器发送给客户端的。它向客户端解释了如何处理响应。它提供了有关发送的数据的额外信息。

响应头部的示例:

  • Connection: keep-alive
  • Date: Mon, 08 Nov 2022
  • Server: nginx
  • Content-Type: text/html
  • Transfer-Encoding: chunked
  • Etag: W/"0815"

Etag 用于版本控制和缓存。Date 告诉客户端响应从服务器发送到客户端的日期。但是 Content-Type 或 Content-Encoding 是本文稍后将要讨论的表示头部。

Representation Headers

Representation headers 表示已传输数据的类型。从服务器发送到客户端的数据可以是任何格式,比如 JSON、HTML、XML、分块(如果数据量很大)等。服务器还告诉客户端有关内容的范围。

表示头部的示例:

  • Content-Type: text/html
  • Content-Encoding: gzip
  • Content-Length: 3523
  • Content-Range: bytes 50–1000/*
  • Content-Location: /docs/fo.xml

Content-Location 告诉客户端有关资源或数据的备用位置,客户端可以从中检索信息。它可以是存储特定资源的 URL。

除了这些头部之外,还可以有不同的头部,比如 Trailer、Transfer-Encoding、Etag、if-Not-Match、Authorizations 等。

现在,如果您正在编写 API,并且想要定义自己的自定义头部呢?您可以完全做到。就像您定义 API 的请求和响应结构的方式一样,您也可以实现服务器接受的自定义头部,或者您自己定义的自定义头部。

自定义头部的一个示例可能是 Authorization 头部。该头部可以具有任何值。此外,服务器可以使用该值来识别客户端,或者用于任何其他逻辑操作。

相关文章
|
9天前
|
数据采集 缓存 定位技术
网络延迟对Python爬虫速度的影响分析
网络延迟对Python爬虫速度的影响分析
|
10天前
|
Python
Python中的异步编程:使用asyncio和aiohttp实现高效网络请求
【10月更文挑战第34天】在Python的世界里,异步编程是提高效率的利器。本文将带你了解如何使用asyncio和aiohttp库来编写高效的网络请求代码。我们将通过一个简单的示例来展示如何利用这些工具来并发地处理多个网络请求,从而提高程序的整体性能。准备好让你的Python代码飞起来吧!
28 2
|
17天前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
60 6
|
5天前
|
网络协议 网络安全 网络虚拟化
本文介绍了十个重要的网络技术术语,包括IP地址、子网掩码、域名系统(DNS)、防火墙、虚拟专用网络(VPN)、路由器、交换机、超文本传输协议(HTTP)、传输控制协议/网际协议(TCP/IP)和云计算
本文介绍了十个重要的网络技术术语,包括IP地址、子网掩码、域名系统(DNS)、防火墙、虚拟专用网络(VPN)、路由器、交换机、超文本传输协议(HTTP)、传输控制协议/网际协议(TCP/IP)和云计算。通过这些术语的详细解释,帮助读者更好地理解和应用网络技术,应对数字化时代的挑战和机遇。
30 3
|
6天前
|
JSON API 数据格式
Python中获取HTTP请求响应体的详解
本文介绍了如何使用Python的`requests`和`urllib`库发送HTTP请求并处理响应体。`requests`库简化了HTTP请求过程,适合快速开发;`urllib`库则更为底层,适用于性能要求较高的场景。文章详细演示了发送GET请求、处理JSON响应等常见操作。
|
16天前
|
网络协议 安全 Go
Go语言进行网络编程可以通过**使用TCP/IP协议栈、并发模型、HTTP协议等**方式
【10月更文挑战第28天】Go语言进行网络编程可以通过**使用TCP/IP协议栈、并发模型、HTTP协议等**方式
44 13
|
5天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
26 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
10天前
|
机器学习/深度学习 TensorFlow 算法框架/工具
利用Python和TensorFlow构建简单神经网络进行图像分类
利用Python和TensorFlow构建简单神经网络进行图像分类
29 3
|
15天前
|
数据采集 存储 XML
Python实现网络爬虫自动化:从基础到实践
本文将介绍如何使用Python编写网络爬虫,从最基础的请求与解析,到自动化爬取并处理复杂数据。我们将通过实例展示如何抓取网页内容、解析数据、处理图片文件等常用爬虫任务。
|
16天前
|
存储 缓存 网络协议
计算机网络常见面试题(二):浏览器中输入URL返回页面过程、HTTP协议特点,GET、POST的区别,Cookie与Session
计算机网络常见面试题(二):浏览器中输入URL返回页面过程、HTTP协议特点、状态码、报文格式,GET、POST的区别,DNS的解析过程、数字证书、Cookie与Session,对称加密和非对称加密