网络原理(4)HTTP协议(上)

简介: 网络原理(4)HTTP协议

💕"Echo"💕

作者:Mylvzi

文章主要内容:网络原理(4)HTTP协议

HTTP协议是应用层协议中非常重要的一个协议,诞生于1991年,迄今为止发展出很多的http版本,但是目前仍在大规模使用的诞生于1999年的1.1版本

一.HTTP协议简介

http协议主要应用在两个方面:

  1. 浏览器打开网站
  2. 通过手机app访问服务器

上述两种场景基本上都需要通过http协议来进行访问.和之前学习过的协议不同的是,http协议是一个理论 + 实践的协议,实践性更强.同时学习http最重要还是学习http协议的报文格式

http协议的报文格式和之前学习过的协议还有所不同,准确的说http协议的报文格式有两种:

  1. 请求报文格式(request)
  2. 响应报文格式(response)

这两种报文格式并不是完全相同的,在结构和内容上有所区别.http是一种一问一答结构模型的协议,除了一问一答这种结构,还有一问多答(下载文件),多问一答(上传文件),多问多答(串流/远程桌面)

补充:浏览器打开网站的全过程:

  1. 浏览器先向对应的服务器发送请求
  2. 服务器根据请求返回一个html数据的响应
  3. 浏览器下载好这个数据,就能打开网站
  4. 每次打开网站都要重复上述过程,所以打开网站就会占用网络带宽

二.HTTP协议报文格式

想要获取http协议的报文格式,可以通过抓包来实现,所谓抓包,就是获取通过网卡的数据,网卡又被称为网络接口,客户端的请求和服务器的响应在传输的过程中都要通过网卡,抓包可以通过各种专业的抓包工具实现,如fiddler,wireshark等,以下介绍fiddler的具体使用

首先我们去fidder的官网进行软件的下载:https://www.telerik.com/fiddler

下载完毕之后就可以直接打开,打开之后我们先进行https协议的认证(都打上勾)

fiddler界面各个部分介绍:

在查看具体的报文格式时,需要点击右侧栏的RAW选项(原生)

直接在fiddler中查看不太方便的话,还可以点击VIEW IN NOTEPAD在记事本中进行查看:

下面就可以开始进行抓包了,以下通过抓包工具fiddler演示http请求和响应的报文格式

补充:fiddler本质上是一个正向代理软件(客户端的代理软件),客户端的请求发送给服务器时会先通过fiddler,服务器的响应传输回来时也会先通过fiddler,所以fiddler既可以获取到请求报文格式和响应报文格式/要注意,fiddler可能会和其他的代理软件发生冲突,在使用时最好关闭其他的代理软件(如vpn)

1.请求报文

利用记事本查看请求报文

以上就是一个完整的请求报文,具体来说,请求报文可以分为四部分:

1.首行

  1. GET:http方法(method) 表示客户端"想干什么"
  2. 中间部分:中间的一长串字符串都是URL 表示资源唯一定位符 描述用户访问资源的具体位置
  3. HTTP/1.1:http的版本号

2.请求头(header)

以一系列的键值对组成,键和值之间通过:空格来连接,键和值是早已被规定好的

3.空行

请求头的结束标志,一个行空行作为结束,空行下面就是主体

4.主体(body)

请求的具体内容,有的请求可能没有主体,有的请求有主体

2.响应报文

利用记事本查看响应报文

以上就是一个完整的响应报文,具体来说,响应报文也可以分为四部分:

1.首行

  1. HTTP/1.1:版本号
  2. 200:http的状态码 描述http的状态
  3. OK:状态码描述 OK代表"好,可以,允许"

HTTP状态码是在客户端发起请求后,由服务器返回的一个三位数字的代码,用于表示服务器对请求的处理结果。每个结果都对应着不同的含义,用于指示请求的成功(2xx)、重定向(3xx)、客户端错误(4xx)或者服务器错误(5xx)等情况。

对于不同的状态码,也有不同的解决方案:例如,对于2xx状态码,客户端可以继续处理响应结果;对于4xx状态码,客户端通常需要采取一些纠正行动,例如修正URL、检查权限等(往往是属于域名错误);对于5xx状态码,客户端通常需要等待服务器修复问题或者采取备用方案。

2.响应头(header)

以一系列的键值对组成,键和值之间通过:空格来连接,键和值是早已被规定好的

3.空行

响应头的结束标志,一个行空行作为结束,空行下面就是主体

4.主体(body)

响应的主体非常复杂,有时候需要通过压缩的方式来减少对网络带宽的占用,正文中内容也十分复杂,且有多种格式,如:html,json等

总的来说,请求报文和响应报文的格式虽然有所差别,但是大致上的组成是相同的,下面进行详细的介绍

三.报文格式的详细介绍

1.URL

URL(Uniform Resource Locator),统一资源定位符

URL也可以叫做资源唯一定位符,用于描述资源在网络中的位置,URL是计算机中重要的一个概念,不仅仅在http中使用,之前学习过的mysql在设置数据源时也了解过,如

URL由多部分组成,以下是一个URL示例:

  1. http:协议方案名 描述URL采用的协议方案名称 此处表示采用的方案是http 上述的jdbc:mysql 也是一种方案名
  2. user:pass:登录信息(认证) 这个字段现在不经常使用了,尤其是面向用户使用的网站更没有这样的要求 程序员自己设定的一些网站可以添加 在访问此URL时只能有特定信息才能访问
  3. www.example.ip:服务器地址,可以使ip地址,也可以是域名,一般是通过域名来描述服务器的位置(更加易于理解记忆)
  4. 80:服务器端口号:ip地址是计算机设备的地址,但是一个计算机中可能有多个服务器,此处的端口号就是确定要访问的是哪一个服务器
  5. /dir/index.htm:带层次的文件路径,描述要访问资源在服务器中的具体位置 虽然这里通过目录这种结构表示资源的具体位置,但资源实际的存储位置可能不是目录(硬盘/内存/cpu计算等)
  6. uid = 1:查询字符串(query string):对 请求的补充说明 query string是键值对结构的字符串,以?开头,键值对之间通过&连接,键和值之间通过=相连,这里的键值对结构程序猿是可以自定义进行设定的(和http报文的请求头部分的键值对不同),例如 ?id=123&name=example表示向服务器传递了两个参数id和name。
  7. #ch1:片段标识符:显示界面的特定部分,#符号开头,常用于指示HTML页面中的锚点位置,如#ch1就是界面的ch1部分(这个部分也是可有可无的~)

URL格式看似很长很复杂,实际上 是对要访问资源的一步步地详细描述,比如你要去餐厅买馋嘴饼,首先你就要确定买黄焖鸡米饭的具体位置(URL),URL可以这样写:

补充:

URL中的端口号不是必须要有的,如果不写就是默认的端口号,对于http版本的URL来说,默认端口号是80,https的默认端口号是443,这些默认端口号是浏览器提供的

在URL中,有些特定的字符是有特殊作用的,不能直接作为字符串中的内容,URL中使用%作为特殊字符的转移符号,进行urlencode(url解析的工作)如:

(+ ? : / 都是URL中的特殊字符),对于输入的中文也有相同的urlencode的过程,转化为汉字对应的utf8码表

查询字符串是由一个一个的键值对组成,这些键值对的结构,内容,组成都是可以由程序员自定义实现的~

2.方法

方法(method)

用于描述本次请求的具体操作,常见的http方法中的方法有:

这里面最常用的两种方法是GETPOST方法,实际开发中也是经常使用到这两个方法

需要说明的一点是,上述的各种方法最开始被发明出来是为了实现不同的语义,但是随着历史的发展,这些方法可能都不在遵守初心,实际上现在程序员对这些方法的使用可能更加的随意,方法之间也没有比较明显的区别(比如POST的方法和PUT方法,双方的适用场景基本相同),但是有一些使用上的习惯作为一种约定俗成的东西保存了下来,在使用的过程中就要遵守上述的约定

GET:用于请求数据

大多数的请求报文中都是GET方法,表示尝试向服务器索要数据

现在尝试打开必应网站,通过抓包工具fiddler工具获取到的请求报文如下:

此处就是使用GET方法

POST:用于提交数据

POST的出现场景比GET要少一些,经常用于向服务器提交数据时,如:

  1. 登录
  2. 上传文件

现在在edge中尝试打开microsoft账户

此时显示的就是POST方法,其他使用POST方法的场景还有:提交图片/上传视频等(你尝试上传一个b站视频时就是向b站的服务器POST了一个数据)

GET方法和POST方法的主要区别:

  1. GET方法通常将要传输的数据放在URL的query string之中,POST方法通常放在报文的主体

这其实就是一种约定俗成的习惯,GET方法也可以将传输的数据放在body之中,POST方法也可以将数据放到URL之中,但是接收和发送双发的格式要是相同的,不能是发送方的GET方法的数据放在URL之中,接收方的GET方法的数据放在body之中,所以一般还是采用约定俗成的这种习惯

  1. 语义上的差距:GET方法适用于请求数据,POST方法适用于提交数据

以下是几种常见的错误理解:

1.GET方法可以传输的数据是有限的,POST可以传输的数据没有大小约束

这种说法其实是一个历史遗留问题,在早期的浏览器中,因为硬件资源的匮乏,可以传输的数据有限,所以对URL的长度做出了限制,但是发展到现在,在RFC标准文档中并没有明确规定URL的长度,实际上URL的长度可以很长,甚至可以传输像图片这样的数据

注:RFC(Request for Comments)标准文档是由互联网工程任务组(IETF)发布的一系列文档,用于描述互联网的各种协议、技术和相关主题。(其中就规定了http协议相关的规范)

2.GET方法传输是不安全的,POST的传输是安全的

这里的误解在于对安全一词的理解,错误想法认为:GET方法的数据存储在URL中,可以很容易的看到,所以不安全,POST方法的数据存储在body之中,不容易被看到,所以安全.但是对于一个黑客来说,数据的位置并不会影响他获取你要的传输数据,也不会影响对数据的篡改,真正的安全应该是让黑客更不容易获取到数据,更不容易篡改数据,仅仅通过数据的位置来判断安全性是不科学的(采用https协议就是一种更加安全的方法)

3,GET方法只能传输文本数据,POST方法可以传输文本数据和二进制数据

实际上,GET方法也可以传输二进制数据,比如;

  1. 将要传输的二进制数据放在body之中
  2. 将要传输的二进制数据进行base64转码,转化为全是字符串的数据,存储在query string之中

Base64转码是一种将二进制数据编码为ASCII字符集的方法,以便在网络传输或存储中使用。比如在传输图片时(图片是二进制的数据),就会将图片进行Base64转码,存储在报文之中

为什么一定要进行转码呢?实际上http协议是基于文本的协议,二进制数据中的某些数据可能是http协议中不存在,无法识别的(如控制字符非ascii码字符),如果直接传输二进制数据可能会导致接收方解析错误

4.GET请求是幂等的,POST请求是不幂等的

幂等是高等数学中的一个概念,表示输入相同的内容,输出内容的稳定性

GET请求通常是幂等的,常用于请求获取服务器资源,不会对服务器的资源进行改变,所以对同一资源进行多次GET请求,得到的结果都是相同的

POST请求通常是不幂等的,常用于提交数据(如提交表单等),通常会导致服务器资源状态的改变,因此对同一个资源进行多次POST请求得到的结果可能是不同的

举一个简单的例子,你尝试获取你B站的头像,进行多次GET操作,得到的头像都是相同的,但如果你尝试多次POST操作,其中有一次POST操作提交了新的头像,那么获得数据就出现了不同

其实,GET请求的幂等还是非幂等是取决于具体的代码实现的,只不过是RFC标准文档中建议GET请求是幂等的

5.缓存处理

GET请求的数据通常可以被浏览器进行缓存,因为他不会改变服务器的状态

POST请求的数据通常不可以被浏览器进行缓存,因为可能会改变服务器的状态

网络原理(4)HTTP协议(下)https://developer.aliyun.com/article/1480754?spm=a2c6h.13148508.setting.28.361f4f0eyTL4lb


目录
相关文章
|
19小时前
|
网络协议 数据格式 Python
Python进阶---HTTP协议和Web服务器
Python进阶---HTTP协议和Web服务器
15 4
|
4天前
|
安全 网络协议 网络安全
OWASP Top 10 网络安全10大漏洞——A01,源码+原理+手写框架
OWASP Top 10 网络安全10大漏洞——A01,源码+原理+手写框架
http协议 报文 给你讲明白咯,web开发基础
http协议 报文 给你讲明白咯,web开发基础
|
5天前
|
缓存 安全 前端开发
探索HTTP协议:网络通信的基石
探索HTTP协议:网络通信的基石
|
5天前
|
缓存 自然语言处理 前端开发
第一章 引言-HTTP协议基础概念和前后端分离架构请求交互概述
第一章 引言-HTTP协议基础概念和前后端分离架构请求交互概述
|
6天前
状态码对于理解HTTP请求和响应的流程,以及调试网络问题非常重要
【5月更文挑战第15天】HTTP状态码由三位数字表示,分为1xx-5xx五类。1xx为信息响应,2xx表示成功,如200(请求成功)、201(创建成功)。3xx是重定向,如301(永久移动)、302(临时重定向)。4xx表示客户端错误,如400(坏请求)、404(未找到)。5xx是服务器错误,包括500(内部服务器错误)和503(服务不可用)。这些状态码用于理解请求响应流程和调试网络问题。
12 1
|
6天前
|
运维 监控 安全
网络管理(包括网络管理的功能,管理系统及相关协议:SNMP,CMIS/CMIP)
网络管理(包括网络管理的功能,管理系统及相关协议:SNMP,CMIS/CMIP)
15 1
|
SQL Web App开发 前端开发
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> <html><head><meta http-equiv="Cont
在运行一个group by的sql时,抛出以下错误信息: Task with the most failures(4):  -----Task ID:  task_201411191723_723592_m_000004URL:  http://DDS0204.
925 0
|
Web App开发 前端开发 Java
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> <html><head><meta http-equiv="Cont
线程的状态有:new、runnable、running、waiting、timed_waiting、blocked、dead 当执行new Thread(Runnabler)后,新创建出来的线程处于new状态,这种线程不可能执行 当执行thread.start()后,线程处于runnable状态,这种情况下只要得到CPU,就可以开始执行了。
695 0