HTTP协议压缩格式和URL编码介绍

简介: HTTP压缩是指web服务器和浏览器之间压缩传输请求响应结果的方法,通过采用通用的压缩算法,将数据包压缩后进行传输,从而提升页面加载速度,给用户一个更好的体验。

HTTP压缩是指web服务器和浏览器之间压缩传输请求响应结果的方法,通过采用通用的压缩算法,将数据包压缩后进行传输,从而提升页面加载速度,给用户一个更好的体验。

1

HTTP压缩过程


数据包压缩的过程,其实就是客户端发请求的时候先告诉服务器,我能支持某种算法的压缩,服务端获取到这个参数后,按照特定的格式将原有的响应结果压缩后返回客户端,客户端再进行解码。大致有几下几个步骤:

1、客户端发请求给服务端,在请求中的Header中,在Accept-Encoding中告诉服务端自己支持那种格式压缩

2、服务端收到请求后,得到原始响应结果,通过压缩算法(比如gzip)对响应结果进行编码,然后在响应Header中加入Content-Encoding:gzip,把结果返回给客户端

3、客户端接收到响应结果后,根据Content-Encoding的内容对结果进行解码,获得解压后的内容,然后呈现在页面。




2

HTTP内容编码类型介绍


HTTP定义了一些表中的内容编码类型,主要有以下几种:

  • gzip:表明实体采用GNU zip编码
  • compress:表明实体采用UNIX的文件压缩程序
  • deflate:表明实体是用zlib的格式压缩的
  • identify:表明没有对实体进行编码,Header中默认选项就是identify


gzip是如何压缩的?

简单来说,gzip就是在一个文本文件中找出类似的字符串,然后临时替换他们,从而使整个文件变小,比较适合压缩hrml、css、js等文件,对图片类的压缩效果不明显。

gzip在工作中运用的还是挺多的,比如手机上访问的H5轻应用报表,如果采用在线的方式加载的话,每次点击的时候都要去请求相关的js之类的,弱网的时候容易白屏,这个时候就可以把相关需要的js资源文件用gzip压缩打包,采用离线加载的方式进行页面加载,同时也提升了用户体验,避免了一些由于网络不稳定带来的体验性问题。



3

URL Encode介绍


相信大家平常在访问网页的时候,url地址栏中的地址总会出现一些类似“%20”之类的字符,这其实就是url地址被编码显示了。url地址只能用字母、数字和某些标点符号组成,不能使用中文等。Url Encoding就是把所有的非字母、数字符号的都替换成对应的编码。


使用python脚本对某个字符串进行url编码解码:

import urllib
str='%E4%BD%A0%E5%A5%BD'
print(urllib.unquote(str))  #你好
print(urllib.quote("你好")) #%E4%BD%A0%E5%A5%BD

微信图片_20220113225535.png


使用fiddler工具栏Tools下的TextWizard小工具进行字符串编码转换:


微信图片_20220113225539.png

相关文章
|
10月前
|
数据采集 数据可视化 API
QUIC协议优化:HTTP/3环境下的超高速异步抓取方案
本文介绍了一种基于QUIC和HTTP/3的异步爬虫方案,用于抓取知乎热榜数据并生成趋势图。通过HTTPX与aioquic结合实现高性能连接复用,配合代理IP绕过反爬限制,提取标题、热度等信息。利用Python代码示例展示了异步抓取流程,并借助Matplotlib绘制话题热度变化图表。分析显示突发热点生命周期短,而深度话题热度更稳定。此方案可优化内容运营策略,快速捕捉潜在爆款话题。
436 4
QUIC协议优化:HTTP/3环境下的超高速异步抓取方案
|
5月前
|
缓存 负载均衡 网络协议
HTTP 与 SOCKS5 代理协议:企业级选型指南与工程化实践
面向企业网络与数据团队的代理协议选型与治理指南,基于流量特征选择HTTP或SOCKS5协议,通过多协议网关统一出站,结合托管网络降低复杂度,实现稳定吞吐、可预测时延与合规落地。
|
8月前
|
缓存 监控 搜索推荐
301重定向实现原理全面解析:从HTTP协议到SEO最佳实践
301重定向是HTTP协议中的永久重定向状态码,用于告知客户端请求的资源已永久移至新URL。它在SEO中具有重要作用,能传递页面权重、更新索引并提升用户体验。本文详解其工作原理、服务器配置方法(如Apache、Nginx)、对搜索引擎的影响及最佳实践,帮助实现网站平稳迁移与优化。
817 68
|
7月前
HTTP协议中请求方式GET 与 POST 什么区别 ?
GET和POST的主要区别在于参数传递方式、安全性和应用场景。GET通过URL传递参数,长度受限且安全性较低,适合获取数据;而POST通过请求体传递参数,安全性更高,适合提交数据。
684 2
|
7月前
|
应用服务中间件
HTTP协议中常见的状态码
HTTP协议状态码分为1xx、2xx、3xx、4xx、5xx五类,常见状态码包括:101(请求已接受)、200(请求成功)、302(重定向)、400(请求错误)、401(未认证)、403(无权限)、404(资源不存在),以及500(服务器错误)、502(网关错误)、503(服务不可用)、504(网关超时)等。
396 0
|
7月前
|
网络协议 安全 网络安全
什么是HTTP协议
HTTP协议是超文本传输协议,基于TCP,规定了客户端与服务器端通信规则,但数据以明文传输,安全性低。HTTPS则通过SSL加密保障数据安全。两者默认端口不同,HTTP为80,HTTPS为443。HTTPS安全性更高,但消耗更多服务器资源。
257 0
|
7月前
|
数据采集 Web App开发 JSON
Python爬虫基本原理与HTTP协议详解:从入门到实践
本文介绍了Python爬虫的核心知识,涵盖HTTP协议基础、请求与响应流程、常用库(如requests、BeautifulSoup)、反爬应对策略及实战案例(如爬取豆瓣电影Top250),帮助读者系统掌握数据采集技能。
632 0
|
8月前
|
存储 网络协议 安全
HTTP 协议及会话跟踪机制详解
本文详解了 HTTP 协议的核心知识,包括其定义(超文本传输协议,基于 TCP,规定客户端与服务器通信规则)及与 HTTPS 的区别(安全性、端口、资源消耗)。 介绍了 GET 与 POST 请求的差异(参数限制、安全性、应用场景),以及 Restful 风格(通过 URL 定位资源,请求方式决定操作)。列举了常见 HTTP 状态码(如 200 成功、404 资源未找到),对比了转发与重定向的区别(服务器端一次请求 vs 客户端两次请求)。 还阐述了会话跟踪机制:Cookie 基于客户端存储,通过Set-Cookie和Cookie头实现,安全性较低;Session 基于服务端存储,依赖 C
698 1
|
9月前
|
缓存
HTTP协议深度剖析:常见请求头信息讲解
这就是HTTP请求头背后的工作原理,希望通过比作“邮差”和“标签”,可以让你对这个繁琐技术更有感触,更得心应手。尽管这些信息可能很琐碎,但了解了它们的含义和工作方式,就等于揭开了HTTP协议神秘的面纱,掌控了网络交流的核心。你还等什么,赶快动手尝试一下吧!
289 17