1 前言
今天一起来研究Http协议的一些事情,通过本文你将了解到以下内容:
- Http 协议各版本的对比和优缺点
- Http 2.0协议相关的SPDY协议、二进制分帧协议、多路复用、首部压缩、服务推送等基本原理
乘风破浪前往知识的海洋吧,大白船长要开船了!
2. Http 协议各版本的对比
Http 超文本传输协议同空气一般,感触不到它的存在但是又无处不在,笔者从维基百科摘录了一些Http协议的发展历程的简单信息,一起来看下吧:
超文本传输协议是分布式协作超媒体信息系统的应用协议。超文本传输协议是万维网数据通信的基础,在万维网中超文本文档包括到用户可以轻松访问的其他资源的超链接。
蒂姆·伯纳斯·李于1989年在欧洲核子研究中心发起了超文本传输协议的开发。早期的超文本传输协议征求意见(RFCs)的开发是由互联网工程任务组(IETF)和万维网联盟(W3C)共同努力的结果,其工作后来转移到IETF。
万维网之父蒂姆·伯纳斯·李简介
Tim Berners-Lee 是英国工程师和计算机科学家,最著名的是万维网的发明者。他是牛津大学计算机科学教授和麻省理工学院教授。
他于1989年3月12日提出了一种信息管理系统,然后在同年11月中旬通过 Internet 实现了超文本传输协议 HTTP 客户端和服务器之间的首次成功通信。
他是万维网联盟 W3C 的负责人,该联盟负责监督 Web 的持续发展,他还是万维网基金会的创始人,还是麻省理工学院计算机科学和人工智能实验室 CSAIL的 3Com 创始人主席和高级研究员,他也是网络科学研究计划 WSRI 的主任和MIT 集体智慧中心的顾问委员会成员,他也是开放数据研究所的创始人兼总裁,目前是社交网络 MeWe 的顾问。
2004年,伯纳斯·李因其开创性工作而被女王伊丽莎白二世封为爵士。在2009年4月,他当选为美国国家科学院外籍研究员,位列《时代》杂志的20世纪100位最重要人物名单被誉为“万维网发明者”获得了2016年图灵奖。
http 各个版本的基本情况
http 协议经过20多年的演进出现过0.9、1.0、1.1、2.0、3.0五个主要版本,笔者画了张图看下:
A.Http 0.9版本
0.9是鼻祖版本,它的主要特点包括:
- 请求方法支持有限
只支持 GET 请求方式,不支持其他请求方式 因此客户端向服务端传输信息的量非常有限,也就是现在常用的 Post 请求无法使用 - 不支持请求头 header
不能在请求中指定版本号,服务端只具有返回 HTML 字符串的能力响应即关闭
服务端响应之后,立即关闭 TCP 连接
B.Http 1.0版本
1.0版本主要是对0.9版本的强化,效果也比较明显,主要特性和缺点包括:
- 丰富请求方法
请求方式新增了 POST,DELETE,PUT,HEADER 等方式,提高了客户端向服务端发送信息的量级 - 增加请求头和响应头
增添了请求头和响应头的概念,可以在通信中指定了 HTTP 协议版本号,以及其他 header 信息,使得 C/S 交互更加灵活方便 - 丰富数据传输内容
扩充了传输内容格式包括:图片、音视频资源、二进制等都可以进行传输,相比0.9的只能传输 html 内容让 http 的应用场景更多 - 链接复用性差
1.0版本中每个 TCP 连接只能发送一个请求,数据发送完毕连接就关闭,如果还要请求其他资源,就必须重新建立连接。TCP 为了保证正确性和可靠性需要客户端和服务器三次握手和四次挥手,因此建立连接成本很高,基于拥塞控制开始时发送速率较慢,所以1.0版本的性能并不理想。 - 无状态无连接的弊端
1.0版本是无状态且无连接的,换句话说就是服务器不跟踪不记录请求过的状态,客户端每次请求都需要建立tcp连接不能复用,并且1.0规定在前一个请求响应到达之后下一个请求才能发送,如果前一个阻塞后面的请求就会被阻塞。丢包和乱序问题和高成本的链接过程让复用和队头阻塞产生很多问题,所以无连接无状态是1.0版本的一个弱肋。
C.Http 1.1版本
1.1版本在1.0版本发布后大约1年就推出了,是对1.0版本的优化和完善,1.1版本的主要特点包括:
- 增加长连接
新增 Connection 字段,可以设置 keep-alive 值保持连接不断开,即 TCP 连接默认不关闭,可以被多个请求复用,这也是1.1版本很重要的优化,但是在S端服务器只有处理完一个回应,才会进行下一个回应。要是前面的回应特别慢,后面就会有许多请求排队等着,仍然存在队头阻塞问题。 - 管道化
在长连接的基础上,管道化可以不等第一个请求响应继续发送后面的请求,但响应的顺序还是按照请求的顺序返回,即在同一个TCP连接中,客户端可以同时发送多个请求,进一步改进了HTTP协议的传输效率。 - 更多的请求方法
增加了 PUT、PATCH、OPTIONS、DELETE 等请求方式。 - host字段
Host字段用来指定服务器的域名,这样就可以将多种请求发往同一台服务器上的不同网站,提高了机器的复用,这个也是重要的优化
D.Http 2.0版本
2.0版本是个里程碑式的版本,相比1.x版本有了非常多的优化去适应当前的网络场景,其中几个重要功能点包括:
二进制格式
1.x是文本协议,然而2.0是以二进制帧为基本单位,可以说是一个二进制协议,将所有传输的信息分割为消息和帧,并采用二进制格式的编码,一帧中包含数据和标识符,使得网络传输变得高效而灵活。多路复用
这是一个非常重要的改进,1.x中建立多个连接的消耗以及效率都存在问题,2.0版本的多路复用多个请求共用一个连接,多个请求可以同时在一个 TCP 连接上并发,主要借助于二进制帧中的标识进行区分实现链路的复用。头部压缩
2.0版本使用使用 HPACK 算法对头部 header 数据进行压缩,从而减少请求的大小提高效率,这个非常好理解,之前每次发送都要带相同的 header,显得很冗余,2.0版本对头部信息进行增量更新有效减少了头部数据的传输。服务端推送
这个功能有点意思,之前1.x版本服务端都是收到请求后被动执行,在2.0版本允许服务器主动向客户端发送资源,这样在客户端可以起到加速的作用。
3 Http2.0 详解
前面对比了几个版本的演进和优化过程,接下来深入研究下2.0版本的一些特性及其基本实现原理。
从对比来看2.0版本并不是在1.1版本上的一些优化而是革新,因为2.0背负了更多的性能目标任务,1.1虽然增加了长连接和管道化,但是从根本上并没有实现真正的高性能。
2.0的设计目标是在兼容1.x语义和操作的基础上,给用户带来更快捷、更简单、更安全的体验高效地利用当前的网络带宽,为此2.0做了很多调整主要包括:二进制化分帧、多路复用、头部压缩等。
akamai 做了 http 2.0和 http1.1 在加载过程中的对比效果(实验中加载379个小片段 在笔者的电脑上的加载时间是0.99s VS 5.80s):
3.1 SPDY 协议
要说2.0版本标准和新特性就必须提谷歌的 SPDY 协议,看一下百度百科:
SPDY 是 Google 开发的基于 TCP 的会话层协议,用以最小化网络延迟,提升网络速度,优化用户的网络使用体验。SPDY 并不是一种用于替代 HTTP 的协议,而是对 HTTP 协议的增强。
新协议的功能包括数据流的多路复用、请求优先级以及 HTTP 报头压缩。谷歌表示引入 SPDY 协议后,在实验室测试中页面加载速度比原先快64%。
随后SPDY协议得到 Chrome、Firefox 等大型浏览器的支持,在一些大型网站和小型网站中部署,这个高效的协议引起了 HTTP 工作组的注意,在此基础上制定了官方 Http 2.0标准。
之后几年 SPDY 和 Http 2.0继续演进相互促进,Http 2.0让服务器、浏览器和网站开发者在新协议中获得更好的体验,很快被大众所认可。
3.2 二进制分帧层
二进制分帧层 binary framing layer 在不修改请求方法和语义的基础上,重新设计了编码机制,如图为 http 2.0分层结构(图片来自参考4):
二进制编码机制使得通信可以在单个 TCP 连接上进行,该连接在整个对话期间一直处于活跃状态。
二进制协议将通信数据分解为更小的帧,数据帧充斥在 C/S 之间的双向数据流中,就像双向多车道的高速路,来往如织川流不息:
要理解二进制分帧层需要知道四个概念:
链接 Link
就是指一条 C/S 之间的 TCP 链接,这是个基础的链路数据的高速公路数据流 Stream
已建立的 TCP 连接内的双向字节流,TCP 链接中可以承载一条或多条消息消息 Message
消息属于一个数据流,消息就是逻辑请求或响应消息对应的完整的一系列帧,也就是帧组成了消息帧 Frame
帧是通信的最小单位,每个帧都包含帧头和消息体,标识出当前帧所属的数据流
四者是一对多的包含关系,笔者画了一张图:
再来看一下HeadersFrame头部帧的结构:
再来看一下 HeadersFrame 头部帧的结构:从各个域可以看到长度、类型、标志位、流标识符、数据净荷等,感兴趣可以阅读rfc7540相关文档。
总之 2.0版本将通信数据分解为二进制编码帧进行交换,每个帧对应着特定数据流中的特定消息,所有帧和流都在一个 TCP 连接内复用,二进制分帧协议是2.0其他功能和性能优化的重要基础。