如何定位并修复 HttpCore5 中的 HTTP2 流量控制问题

本文涉及的产品
注册配置 MSE Nacos/ZooKeeper,118元/月
容器镜像服务 ACR,镜像仓库100个 不限时长
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 开篇吹一波阿里云性能测试服务 PTS,PTS 在 2021 年 5 月份已经上线了对 HTTP2 协议的支持(底层依赖 httpclient5),在压测时会通过与服务端协商的结果来决定使用 HTTP1.1 或者 HTTP2 协议。

作者:风起


开篇吹一波阿里云性能测试服务 PTS[1],PTS 在 2021 年 5 月份已经上线了对 HTTP2 协议的支持(底层依赖 httpclient5),在压测时会通过与服务端协商的结果来决定使用 HTTP1.1 或者 HTTP2 协议。


背景


写这篇文章的原因是某天某个客户找过来,问我们是不是不支持 HTTP2,因为他在 XX 云上购买了 2 个域名,其中一个开启了 HTTP2,而在 PTS 压测过程中,支持 HTTP2 的接口总是报错:


1.png


起初怀疑是 HTTP2 支持的问题,通过在本地强制使用 HTTP2 协议,访问淘宝主页,发现是没问题的,怀疑是用户在 XX 云上的配置问题,但紧接着通过在本地 Postman、curl 以及压测引擎强制使用 HTTP1.1 协议时都能够正常访问该网页,意识到大概率是 PTS 引擎侧的问题。


通过本地 debug,看到是因为请求 URL 时,客户端窗口大小被调整为大于 2^32 -1 导致的异常。


2.png


那正好借这个机会看下这里的窗口大小指的是什么。


HTTP2 流控


提到窗口,就要提到 HTTP2 相比于 HTTP1.1 支持的新特性:流控(Flow Control),其实 HTTP1.1 依赖于传输层 TCP 的滑动窗口一样可以实现流控,那么为什么 HTTP2 要在应用层再实现一个流控呢?原因在于 HTTP2 引入了流和多路复用,通过流控可以达到使多个流协同的效果。


一些流控的基本概念:


  1. 流控是针对连接而言的,不是针对端到端的,而是在两端中的每一跳;主要指有代理的情况下,代理与两端都存在流控
  2. 流控是基于WINDOW_UPDATE 帧的,接收者可以通过流控控制发送者的速度
  3. 流控既可以作用于 stream 也可以作用于 connection
  4. 对于连接与所有新开启的流而言,流控窗口大小默认都是 65535,且最大值为 2^32 - 1
  5. 流控无法禁用


为了便于理解,先简单列一下 HTTP2 帧的类型:


  • DATA:携带请求或响应中的数据
  • HEADERS:用于新建一个流(请求或响应),包含对应的 Headers
  • PRIORITY:用于配置流的优先级
  • RST_STREAM:强制结束某个流,仅用于某一端取消流,并不适用于正常流的结束
  • SETTINGS:H2 建联的一些配置
  • PUSH_PROMISE:服务端推送响应到客户端
  • PING:向远端发送一条 PING,远端必须返回该 PING
  • GOAWAY:用于某一端将要结束连接
  • WINDOW_UPDATE:更新流控窗口大小
  • CONTINUATION:如果 headers 过大,单个 HEADERS 帧难以携带,通过该帧发送额外的 headers


接下来,我们重点看下流控相关的帧,主要是 SETTING 与 WINDOW_UPDATE,在连接建立时会通过 SETTINGS 帧来调整对方的窗口大小,之后在传输过程中,窗口大小会随着数据的发送逐渐减小,直到收到对方发送的 WINDOW_UPDATE 帧,从而更新窗口大小。SETTINGS 帧主要包含以下内容:


  • SETTINGS_HEADER_TABLE_SIZE:HPACK(一种header压缩算法) header 表的最大长度,默认值 4096
  • SETTINGS_ENABLE_PUSH:客户端发向服务端的配置,若设置为 true,客户端将允许服务端推送响应,默认值 true
  • SETTINGS_MAX_CONCURRENT_STREAMS:同时打开的 stream 最大数量,通常意味着同一时刻能够同时响应的请求数量,默认无限
  • SETTINGS_INITIAL_WINDOW_SIZE:流控的初始窗口大小,默认值 65535
  • SETTINGS_MAX_FRAME_SIZE:对端能够接受帧的最大长度,默认值16384
  • SETTINGS_MAX_HEADER_LIST_SIZE:对端能够接受的 header 列表最大长度,默认不限制


流控的实现如上所述,每发送一批 DATA 帧,即将窗口大小减小。需要注意的是流控仅针对 DATA 帧。


3.png


前面提到流控既可以作用于 stream 又可以作用于 connection,那具体是怎么执行的呢?connection 的流控与 上述 stream 流控逻辑类似,每次发送 DATA 帧,connection 与 stream 窗口都会减小,但不同的是,WINDOW_UPDATE 要么单独作用于 stream,要么单独作用于 connection(streamid 为 0 时,表示作用于 connection)。


问题定位


那么回到开篇的问题,我们以 URL https://www.sysgeek.cn/ 为例,通过在本地做代码 debug 发现,最终抛异常的原因在于接收到 WINDOW_UPDATE 帧后,更新后窗口大小值大于 2^32 - 1 导致抛异常:


4.png


而从这里的代码可以看出,524288 是当前窗口大小,而delta是对方告知的 WINDOW_UPDATE 大小,通过分析,发现 524288 这个值不同于默认值 65535,那继续看这个值是什么时间改动的:


5.png

image.gifimage.gif

发现是接收 SETTINGS 指令后,初始化窗口大小时修改的,但这里与 RFC 7540 [2]的描述(connection 窗口大小仅在接收到 WINDOW_UPDATE 后才可能修改)是冲突的:


6.png


因此我们断定是 httpcore5 的源代码有 bug,在删除标记的这行代码后,请求可以正常执行了。


遗憾的是在准备给 httpcore5 提 PR 的过程中发现这个 bug 已经在 commit 中被修复了。


参考资料


[1] PTS:

https://help.aliyun.com/document_detail/145501.html


[2] RFC 7540:

https://datatracker.ietf.org/doc/html/rfc7540#section-6.9.2



点击此处,前往 PTS 官网查看更多~

相关实践学习
通过性能测试PTS对云服务器ECS进行规格选择与性能压测
本文为您介绍如何利用性能测试PTS对云服务器ECS进行规格选择与性能压测。
相关文章
|
7月前
|
移动开发 JSON 监控
网络协议解析:在员工上网监控软件中实现HTTP流量分析
随着企业对员工网络活动的监控需求不断增加,开发一套能够实现HTTP流量分析的网络协议解析系统变得愈发重要。本文将深入探讨如何在员工上网监控软件中实现HTTP流量分析,通过代码示例演示关键步骤。
289 0
|
6月前
|
运维 监控 Serverless
函数计算产品使用问题之HTTP触发器被恶意刷流量,该怎么办
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
2月前
|
安全 应用服务中间件 网络安全
修复HTTPS升级后出现 Mixed Content: The page at 'https://xxx' was loaded over HTTPS, but requested an insecure frame 'http://xxx'. This request has been blocked; the content must be served over HTTPS. 的问题
修复HTTPS升级后出现 Mixed Content: The page at 'https://xxx' was loaded over HTTPS, but requested an insecure frame 'http://xxx'. This request has been blocked; the content must be served over HTTPS. 的问题
|
6月前
|
中间件
流量回放工具之GoReplay output-http 源码分析
【6月更文挑战5天】流量回放工具之GoReplay output-http 源码分析
97 2
|
6月前
流量回放工具之 GoReplay output-http-stats(HTTP请求统计) 源码分析
【6月更文挑战4天】流量回放工具之 GoReplay output-http-stats(HTTP请求统计) 源码分析
89 4
http代理ip按流量划算还是个数划算?
http代理ip按流量划算还是个数划算?
|
7月前
|
JSON 应用服务中间件 API
同一端口同一方法提供grpc和http流量支持
以上方法可以让你在同一端口上同时支持gRPC和HTTP流量。具体的选择取决于你的项目需求和技术架构。 买CN2云服务器,免备案服务器,高防服务器,就选蓝易云。百度搜索:蓝易云
130 0
|
7月前
|
监控 搜索推荐 定位技术
HTTP状态码:如何修复 404 Not Found错误?
互联网上各种类型的网站非常多,无论用户还是网站运营者不可避免的会遇到404 Not Found错误,如果遇到404错误,我们应该如何解决呢?
152 1
|
前端开发 JavaScript 物联网
漏刻有时API接口实战开发系列(1):萤石云HTTP接口API开发获取直播接口和流量数据查询(ajax)
漏刻有时API接口实战开发系列(1):萤石云HTTP接口API开发获取直播接口和流量数据查询(ajax)
255 0
|
算法 Java Maven
【高并发】亿级流量场景下如何为HTTP接口限流?看完我懂了!!
在互联网应用中,高并发系统会面临一个重大的挑战,那就是大量流高并发访问,比如:天猫的双十一、京东618、秒杀、抢购促销等,这些都是典型的大流量高并发场景。关于秒杀,小伙伴们可以参见我的另一篇文章《【高并发】高并发秒杀系统架构解密,不是所有的秒杀都是秒杀!》 关于【冰河技术】微信公众号,解锁更多【高并发】专题文章。 注意:由于原文篇幅比较长,所以被拆分为:理论、算法、实战(HTTP接口实战+分布式限流实战)三大部分。 理论篇:《【高并发】如何实现亿级流量下的分布式限流?这些理论你必须掌握!!》 算法篇:《【高并发】如何实现亿级流量下的分布式限流?这些算法你必须掌握!!》 项目源码已提交
286 0
【高并发】亿级流量场景下如何为HTTP接口限流?看完我懂了!!