六、HTTP协议概述
6.1 HTTP协议简介
HTTP(超文本传输协议HyperText
TransferProtocol)协议是互联网上应用最为广泛的一种网络协议,它是基于TCP协议的应用层传输协议,简单来说就是客户端和服务端进行数据传输的一种规则。
HTTP/HTTPS是应用层上的协议,建立在传输层TCP之上,客户端通过与服务端进行TCP连接(三次握手),之后发送HTTP请求与接收HTTP响应都是通过访问Socket接口来调用TCP协议实现
HTTP 是一种无状态 (stateless)
协议,HTTP协议本身不会对发送过的请求和相应的通信状态进行持久化处理(存储,保存)。这样做的目的是为了保持HTTP协议的简单性,从而能够快速处理大量的事务,提高效率。然而,在许多应用场景中,我们需要保持用户登录的状态或记录用户购物车中的商品。由于HTTP是无状态协议,所以必须引入一些技术来记录管理状态,例如Cookie。
cookie和session都为了实现的是http的短期的持久化(内存/缓存方式,查询快、效率比较高),cookie是缓存在用户端(client)浏览器中的(默认缓存一天),当下次客户端通过同一个浏览器访问客户端的时候,会优先读取cookie中的缓存信息,向服务端进行请求,同时服务端收到客户端请求的时候,读取到cookie文件,知道客户端之前找的是服务器A处理的任务,为了省事儿,省资源,干脆直接讲请求直接再交给服务器A处理。
两者对比:
cookie 省服务器性能,session 更安全
HTTP 0.9已过时 HTTP 1.0(完善的请求、响应模型 并且协议补充(完整) get post head方法) HTTP 1.1(新增五种请求方式:OPTIONS PUT DELETE TRACE CONNECT) HTTP 2.0
6.2 HTTP1.0和HTTP1.1之间的区别
6.2.1 缓存处理
在HTTP1.0中主要使用header里的If-Modified-Since,Expires来做为缓存判断的标准,HTTP1.1则引入了更多的缓存控制策略例如Entity tag,If-Unmodified-Since, If-Match, If-None-Match等更多可供选择的缓存头来控制缓存策略。
6.2.2 带宽优化及网络连接的使用
HTTP1.0中,存在一些浪费带宽的现象,例如客户端只是需要某个对象的一部分,而服务器却将整个对象送过来了,并且不支持断点续传功能,HTTP1.1则在请求头引入了range头域,它允许只请求资源的某个部分,即返回码是206(Partial Content),这样就方便了开发者自由的选择以便于充分利用带宽和连接
6.2.3 错误通知的管理
在HTTP1.1中新增了24个错误状态响应码,如409(Conflict)表示请求的资源与资源的当前状态发生冲突;410(Gone)表示服务器上的某个资源被永久性的删除
6.2.4 Host头处理
在HTTP1.0中认为每台服务器都绑定一个唯一的IP地址,因此,请求消息中的URL并没有传递主机名(hostname)。但随着虚拟主机技术的发展,在一台物理服务器上可以存在多个虚拟主机(Multi-homed Web Servers),并且它们共享一个IP地址。HTTP1.1的请求消息和响应消息都应支持Host头域,且请求消息中如果没有Host头域会报告一个错误(400 Bad Request)
6.2.5 长连接
HTTP 1.1支持长连接(PersistentConnection)和请求的流水线(Pipelining)处理,在一个TCP连接上可以传送多个HTTP请求和响应,减少了建立和关闭连接的消耗和延迟,在HTTP1.1中默认开启Connection: keep-alive,一定程度上弥补了HTTP1.0每次请求都要创建连接的缺点。
6.3HTTP 请求格式( GET / POST 方式 )
HTTP 支持几种不同的请求命令,这些命令被称为 HTTP 方法,每条 HTTP 请求报文都包含一个方法,告诉服务器要执行什么动作,包括获取一个页面、允许一个网关程序、删除一个文件等。
其中,最常用的方法是 GET、POST,如下:
6.3.1 GET 方式
请求行
请求的方式 请求的资源路径 请求的版本协议号
请求头(描述信息/标准化信息)
Accept:客户端可以接受的数据类型 Accept-Language:客户端可以接受的语言类型 User-Agent:浏览器的信息 Accpect-Encoding:客户端可以接受的编码格式 Host:表示请求的ip和端口号 Connection:告诉服务器请求连接如何处理 Keep-Alive:通知服务器回传数据不要马上关闭,保持一小段的连接 Closed:马上关闭
6.3.2 POST 请求方式
请求行 请求的方式 请求的资源路径 请求的协议的版本号
请求头
Accept:客户端可以接受的数据类型 Accept-Language:客户端可以接受的语言类型 Referer:表示请求发起时,浏览器地址栏中的地址 User-Agent:浏览器的信息 Content-Type:发送的数据类型 Content-Length:发送的数据长度
请求体
就是发送给服务器的数据
6.3.3 GET 与POST 区别
GET方法 POST方法
对数据长度的限制 URL的长度是受限制的(URL的最大长度是2048个字符)的限制 无限制
缓存 能被缓存 不能被缓存
安全性 与POST相比, CET的安全性较差,因为所发送的数据是URL的一部分。在发送密码或其他敏感信息时绝不要使用GET POST比GET更安全.因为参数不会被保存在浏览器历史或Web服务器日志中
历史 参数保留在浏览器历史中 参数不会保存在浏览器历史中
后退按钮/刷新 无害 数据会被重新提交(浏览器应该告知用户数据会被重新提交)
书签 可收藏为书签 不可收藏为书签
区别一:语义上的区别
Get向服务器请求数据,依照HTTP协议,get 是用来请求数据。 Post向服务器发数据,依照HTTP协议,Post的语义是向服务器添加数据,也就是说按照Post的语义,该操作是会修改服务器上的数据
区别二:服务器请求的区别
Get请求是可以被缓存,示例:访问百度,访问的方式就是GET,此时访问后的内容会缓被存在浏览器中,短时间再次访问,其实是拿到的浏览器中的缓存内容另外Get请求只能接收ASCII码的回复
Post请求是不可以被缓存的。对于Post方式提交表单,刷新页面浏览器会弹出提示框“是否重新提交表单”,Post可以接收二进制等各种数据形式,所以如果要上传文件一般用Post请求
区别三:参数放请求头和请求体的差别
Get请求通常没有请求体(当然这也是可以由程序猿心情改变的),在TCP传输中只需传输一次(而不是一个包), 所以Get请求效率相对高。 Post请求将数据放在请求体中,而实际传输中,会先传输完请求头,再传输请求体,是分为两次传输的 (而不是两个包)。Post请求头会比Get更小(一般不带参数),请求头更容易在一个TCP包中完成传输, 更何况请求头中有Content-Length的标识,可以更好地保证Http包的完整性。
GET方法 | POST方法 |
从指定的服务器上获得数据 | 提交数据给指定服务器处理 |
GET请求能被缓存 | POST请求不能被缓存 |
GET请求会保存在浏览器的浏览纪录里(cookit) | POST请求不会保存在浏览器的浏览纪录里 |
GET请求有长度的限制 | POST请求没有长度限制 |
主要用于获取数据 | 查询的字符串不会显示在URL中,比较安全 |
查询的字符串会显示在URL中,不安全 |
6.4 三次握手与四次挥手
6.4.1 三次握手
SYN: Synchronize Sequence Numbers,同步序列编号,建立连接的信号。客户端在接受到 SYN 消息 时,就会在自己的段内生成一个随机值 X。 SYN-ACK:服务器收到 SYN 后,打开客户端连接,发送一个 SYN-ACK 作为答复。确认号设置为比接 收到的序列号多一个,即 X + 1,服务器为数据包选择的序列号是另一个随机数 Y。 ACK:Acknowledge character, 确认字符,表示发来的数据已确认接收无误。最后,客户端将 ACK 发送 给服务器。序列号被设置为所接收的确认值即 Y + 1。 FIN: 断开连接信号
第一次握手:PC1向PC2发送请求连接(同步已发送状态)
第二次握手:PC2收到PC1的请求连接的信息后,然后给PC1发送消息,表示自己已经收到了,并且同意连接。(同步收到)
第三次握手:PC1收到PC2的信息后,还要给PC2发消息确认自己已经收到了(已建立链接)
6.4.2 四次挥手
1、当客户端决定断开时,向服务端发送FIN信号,进入 FIN_WAIT_1 状态,等待来自服务器的 ACK 响应
2、 客户端收到服务器发送的 ACK 响应后,客户端就进入 FIN_WAIT_2 状态,然后等待来自服务器的 FIN 信号
3、服务器发送 ACK 确认消息后,一段时间(可以配置关闭)会发送 FIN 信号给客户端,告知客户端可以进行关闭。
4、客户端收到从服务端发送的 FIN 消息时,客户端就会由 FIN_WAIT_2 状态变为 TIME_WAIT 状态,在这里要注意这个时候客户端可以重新连接到服务端为了防止信息丢失,如果不进行连接,那么在一段时间连接关闭,客户端所有数据包括端口号缓存数据等全部释放
第一次挥手:PC1发送FIN/ACK给PC2,表示自己要断开连接。(终止等待-1)
第二次挥手:PC2收到PC1请求断开连接的消息后,要发送ACK报文给PC1,表示确认自己收到了信息。(关闭等待)
第三次挥手:PC2也要发送FIN/ACK给PC1,表示自己要断开连接.(终止等待-1)
第四次握手:PC1收到PC2请求断开连接的消息后,也要发送ACK报文给PC1,然后断开连接。(时间等待)
6.4.3 为什么是三次握手,而不是二次?
为了实现可靠数据传输, TCP 协议的通信双方, 都必须维护一个序列号, 以标识发送出去的数据包中, 哪些是已经被对方收到的。 三次握手的过程即是通信双方相互告知序列号起始值, 并确认对方已经收到了序列号起始值的必经步骤
如果只是两次握手, 至多只有连接发起方的起始序列号能被确认, 另一方选择的序列号则得不到确认
6.4.4 为什么是四次断开?
因为当 Server 端收到 Client 端的 SYN连 接请求报文后,可以直接发送SYN+ACK报文。其中ACK报文是用来应答的,SYN报文是用来同步的。但是关闭连接时,当Server端收到FIN报文时,很可能并不会立即关闭SOCKET,所以只能先回复一个ACK报文,告诉Client端,“你发的FIN报文我收到了”。只有等到我Server端所有的报文都发送完了,我才能发送FIN报文,因此不能一起发送。故需要四步握手。
七、HTTP协议请求
7.1工作原理
由HTTP客户端发起一个请求,建立一个到服务器指定端口(默认是80端口)的TCP连接。 连接
HTTP服务器则在那个端口监听客户端发送过来的请求。一旦收到请求, 请求
服务器(向客户端)发回一个状态行,比如"HTTP/1.1 200 OK",和(响应的)消息,消息的消息体可能是请求的文件、错误消息、或者其它一些信息。 响应
客户端接收服务器所返回的信息通过浏览器显示在用户的显示屏上,然后客 http工作流程图 http工作流程图 户机与服务器断开连接。
HTTP使用TCP而不是UDP的原因在于(打开)一个网页必须传送很多数据,而TCP协议提供传输控制,按顺序组织数据,和错误纠正
7.2http协议请求流程分析
用户输入URL(地址链接)(http://www.baidu.com:80/tools.html)客户端获取到端口及主机名后,客户端利用DNS解析域名,客户端的浏览器会先找自身的缓存,如果有解析结束,如果没有客户端会去找host文件,如果host文件没有的话,客户端会去本地的DNS缓存服务器。本地的DNS缓存服务器没有的话,缓存服务器会去找根域,根域没有,会返回一个.com,然后本地缓存器会去找顶级域,顶级域没有的话会返回baidu.com,然后本地缓存服务器会去找二级域,二级域解析完后会返回客户端。
客户端解析到IP地址后会通过TCP的三次握手与服务器建立连接。
八、访问百度全过程结合DNS和TCP/IP七层
DNS 域名解析
首先,需要将 www.baidu.com 通过 DNS 解析获得百度的 IP 地址。
DNS (域名系统):DNS 协议运行在 UDP 协议之上,使用端口为 53。
DNS 域名解析过程:
浏览器缓存 --> 系统 host 缓存 --> 本地域名服务器 --> 请求根服务器 --> 主(顶级)域名服务器 --> 网站注册的域名服务器 --> 本地域名服务器返回ip 地址
具体过程为:
浏览器首先查询浏览器的缓存,因为浏览器会按照一定的频率缓存 DNS 记录。
若浏览器无缓存,那么查询操作系统的 HOST 文件,查询是否有 DNS 记录。
若还没有命中域名,就请求本地域名服务器该服务器一般都会缓存域名查询结果,因此大部分域名解析都能在这里解析完成。
若本地域名服务器还没有命中,就地域名服务器请求根服务器,根服务器返回一个所查询域的主域名服务器(国际顶尖域名服务器,如.com,.cn,.org等),这里访问的是 www.baidu.com 百度,即返回 .com 的主域名服务器。
本地域名服务器 继续访问 主域名服务器,查找这个域名网站注册的域名服务器。
本地域名服务器 继续访问 本地域名服务器,根据映射关系表找到目标 IP 地址,返回给 本地域名服务器。
本地域名服务器拿到 IP 地址后,对这个域名和 IP 地址进行缓存,并将 IP 地址返回浏览器,至此,DNS 域名解析过程结束,拿到域名对应的 IP 地址
向服务器请求数据
拿到百度的服务器地址后,浏览器开始向该 IP 地址发起 HTTP/HTTPS 会话请求,而 HTTP/HTTPS 协议皆基于 TCP 协议,因此,在进行 HTTP 请求之前,浏览器还需要与百度服务器进行三次握手,建立 TCP 连接。因此,步骤如下:
与服务器进行三次握手,建立 TCP 连接。三次握手传送门
发出 HTTP/HTTPS 请求,由于我们访问的是 www.baidu.com ,因此请求的是百度首页。
服务器响应数据发送给客户端浏览器,即百度首页数据。
通过四次挥手,TCP 连接释放。四次挥手传送门
浏览器对首页数据进行解析渲染,将最终的页面效果展示给用户。
涉及的协议
应用层:
HTTP:客户端向服务器发起 HTTP 会话请求。
DNS:域名解析服务,解析服务器的 ip 地址。
传输层:
TCP:HTTP/HTTPS 基于 TCP 协议进行传输。
UDP:传输层,DNS 域名解析的传输通过 UDP 协议传输。
网络层:
IP:IP 数据包传输和路由选择。
网络层:
ICMP:提供网络传输过程中的差错检测。
ARP:网络层,将本机默认网关 ip 地址映射成物理 MAC 地址
九、总结
本文主要讲了
域名空间结构
HTML文档结构
网页基本标签
Web1.0和Web2.0区别
post和get方法区别
三次握手和四次挥手
HTTP协议报文格式