排查go开发的HttpClient读取Body超时

简介: 记一次go httpclient [读取响应Body超时]的排查过程。今年度解锁的第一个技能

01

故障现场


645c27d14ff90f443e81fd419b9d8728.png


本人负责的主备集群,发出的 HttpClient 请求有 30%概率超时, 报context deadline exceeded (Client.Timeout or context cancellation while reading body) 异常


Kibana 显示 Nginx 处理请求的耗时request_time在[5s-1min]区间波动, upstream_response_time在 2s 级别。


所以我们认定是 Nginx 向客户端回传 50M 的数据,发生了网络延迟。于是将 HttpClient Timeout 从 30s 调整到 60s, 上线之后明显改善。


But 昨天又出现了一次同样的超时异常


time="2022-01-05T22:28:59+08:00" ....
time="2022-01-05T22:30:02+08:00" level=error msg="service Run error" error="region: sz,first load self allIns error:context deadline exceeded (Client.Timeout or context cancellation while reading body)"


02

线下复盘


go的HttpClient Timeout包括连接、重定向(如果有)、从Response Body读取的时间,内置定时器会在Get,Head、Post、Do 方法之后继续运行,直到读取完Response.Body.、


Timeout specifies a time limit for requests made by this Client. The timeout includes connection time, any redirects, and reading the response body. The timer remains running after Get, Head, Post, or Do return and will interrupt reading of the Response.Body.


Kibana 显示 Nginx 处理请求的耗时request_time才 32s, 远不到我们对于 Http 客户端设置的 60s 超时阈值。


5f62200694da67bac082e656445817d6.png


这里有必要穿插 Nginx Access Log 的几个背景点


1.Nginx 写日志的时间 根据nginx access log[1]官方,NGINX writes information about client requests in the access log right after the request is processed. 也就是说 Nginx 是在端到端请求被处理完之后才写入日志。


2.Nginx Request_Time upstream_response_time


$upstream_response_time – The time between establishing a connection and receiving the last byte of the response body from the upstream server


从 Nginx 向后端建立连接开始到接受完数据然后关闭连接为止的时间


$request_time– The total time spent processing a request
Nginx 从接受用户请求的第一个字节到发送完响应数据的时间


从目前的信息看,Nginx 从接受请求到发送完响应流,总共耗时 32s。那剩下的 28s,是在哪里消耗的?


03

三省吾身


这是我抽离的 HttpClient 的实践, 常规的不能再常规。


package main
import (
    "bytes"
    "encoding/json"
    "io/ioutil"
    "log"
    "net/http"
    "time"
)
func main() {
      c := &http.Client{Timeout: 10 * time.Second}
      body := sendRequest(c, http.MethodPost)
      log.Println("response body length:", len(body))
}
func sendRequest(client *http.Client, method string) []byte {
      endpoint := "http://xxxxxx.com/table/instance?method=batch_query"
      expr := "idc in (logicidc_hd1,logicidc_hd2,officeidc_hd1)"
      jsonData, err := json.Marshal([]string{expr})
      response, err := client.Post(endpoint, "application/json", bytes.NewBuffer(jsonData))
      if err != nil {
          log.Fatalf("Error sending request to api endpoint, %+v", err)
      }
      defer response.Body.Close()
      body, err := ioutil.ReadAll(response.Body)
      if err != nil {
          log.Fatalf("Couldn't parse response body, %+v", err)
      }
      return body
}


核心就两个动作


调用Get、Post、Do方法发起 Http 请求, 如果无报错,则表示服务端已经处理了请求


iotil.ReadAll表示客户端准备从网卡读取 Response Body (流式数据), 超时异常正是从这里爆出来的


报错内容:"Client.Timeout or context cancellation while reading body" 读取 Response Body 超时,


潜台词是:服务器已经处理了请求,并且开始向客户端网卡写入数据。


根据我有限的网络原理/计算机原理,与此同时,客户端会异步从网卡读取 Response Body。


写入和读取互不干扰,但是时空有重叠


73d4b5e0fa601524a6c012b4cd4eb75c.png


所以[读取 Body 超时]位于图中的红框区域,这就有点意思了。


之前我们有 30%概率[读取 Body 超时],确实是因为 Nginx 回传 50M 数据超时,这在 Nginx request_time 上能体现。


本次 Nginx 显示 request_time=32s, 却再次超时,推断 Nginx 已经写完数据,而客户端还没有读取完 Body


至于为什么没读取完,这就得吐槽iotil.ReadAll的性能了。客户端使用 iotil.ReadAll 读取大的响应体,会不断申请内存(源码显示会从 512B->50M),耗时较长,性能较差、并且有内存泄漏的风险。客户端机器稍有差池,可能就会导致读大Body超时, 下一篇我会讲解针对大的响应体替换iotil.ReadAll的方案[2]


为了模拟这个偶发的情况,我们可在Postiotil.ReadAll前后加入时间日志。


$ go run main.go
2022/01/07 20:21:46 开始请求: 2022-01-07 20:21:46.010
2022/01/07 20:21:47 服务端处理结束: 2022-01-07 20:21:47.010
2022/01/07 20:21:52 客户端读取结束: 2022-01-07 20:21:52.010
2022/01/07 20:21:52 response body length: 50575756


可以看出,当读取大的响应体时候,客户端iotil.ReadAll的耗时并不算小,这块需要开发人员重视。


我们甚至可以iotil.ReadAll之前time.Sleep(xxx), 就能轻松模拟出生产环境的读取 Body 超时。


04

我的收获


1.Nginx Access Log 的时间含义


2.go 的 HttpClient Timeout 包含了连接、请求、读取 Body 的耗时


3.通过对[读取 Body 超时异常]的分析,我梳理了端到端的请求耗时、客户端的行为耗时的时空关系, 这个至关重要。

相关文章
|
4月前
|
缓存 弹性计算 API
用 Go 快速开发一个 RESTful API 服务
用 Go 快速开发一个 RESTful API 服务
|
25天前
|
开发框架 Go 计算机视觉
纯Go语言开发人脸检测、瞳孔/眼睛定位与面部特征检测插件-助力GoFly快速开发框架
开发纯go插件的原因是因为目前 Go 生态系统中几乎所有现有的人脸检测解决方案都是纯粹绑定到一些 C/C++ 库,如 OpenCV 或 dlib,但通过 cgo 调用 C 程序会引入巨大的延迟,并在性能方面产生显著的权衡。此外,在许多情况下,在各种平台上安装 OpenCV 是很麻烦的。使用纯Go开发的插件不仅在开发时方便,在项目部署和项目维护也能省很多时间精力。
|
13天前
|
Go 数据安全/隐私保护 UED
优化Go语言中的网络连接:设置代理超时参数
优化Go语言中的网络连接:设置代理超时参数
|
1月前
|
Go 数据安全/隐私保护 开发者
Go语言开发
【10月更文挑战第26天】Go语言开发
42 3
|
1月前
|
Java 程序员 Go
Go语言的开发
【10月更文挑战第25天】Go语言的开发
34 3
|
4月前
|
JSON 中间件 Go
go语言后端开发学习(四) —— 在go项目中使用Zap日志库
本文详细介绍了如何在Go项目中集成并配置Zap日志库。首先通过`go get -u go.uber.org/zap`命令安装Zap,接着展示了`Logger`与`Sugared Logger`两种日志记录器的基本用法。随后深入探讨了Zap的高级配置,包括如何将日志输出至文件、调整时间格式、记录调用者信息以及日志分割等。最后,文章演示了如何在gin框架中集成Zap,通过自定义中间件实现了日志记录和异常恢复功能。通过这些步骤,读者可以掌握Zap在实际项目中的应用与定制方法
158 1
go语言后端开发学习(四) —— 在go项目中使用Zap日志库
|
4月前
|
算法 NoSQL 中间件
go语言后端开发学习(六) ——基于雪花算法生成用户ID
本文介绍了分布式ID生成中的Snowflake(雪花)算法。为解决用户ID安全性与唯一性问题,Snowflake算法生成的ID具备全局唯一性、递增性、高可用性和高性能性等特点。64位ID由符号位(固定为0)、41位时间戳、10位标识位(含数据中心与机器ID)及12位序列号组成。面对ID重复风险,可通过预分配、动态或统一分配标识位解决。Go语言实现示例展示了如何使用第三方包`sonyflake`生成ID,确保不同节点产生的ID始终唯一。
128 0
go语言后端开发学习(六) ——基于雪花算法生成用户ID
|
4月前
|
JSON 缓存 监控
go语言后端开发学习(五)——如何在项目中使用Viper来配置环境
Viper 是一个强大的 Go 语言配置管理库,适用于各类应用,包括 Twelve-Factor Apps。相比仅支持 `.ini` 格式的 `go-ini`,Viper 支持更多配置格式如 JSON、TOML、YAML
100 0
go语言后端开发学习(五)——如何在项目中使用Viper来配置环境
|
4月前
|
JSON Go 数据格式
Go - httpclient 常用操作
Go - httpclient 常用操作
75 2
|
4月前
|
JSON 编解码 中间件
go-zero代码生成器助你高效开发
go-zero代码生成器助你高效开发