阿里云服务网格ASM会在工作负载中注入Sidecar以实现对流量劫持,并按照用户的配置对流量进行修改、路由。因此,Sidecar处理和转发带来的额外时间开销会导致请求的延迟有一定的增长。除延迟方面的影响外,在节点性能充足的情况下,Sidecar通常不会对并发能力有显著的影响。本文将介绍利用访问日志在服务网格ASM中排查耗时异常的通用方法和思路。
一、在请求路径上确定耗时异常的组件 查看访问日志中的duration字段确定该请求在该数据平面组件消耗的总时间(包括读取并转发请求至上游、等待上游响应,以及读取并转发上游响应至下游),如果该时间异常,则应当继续向上游方向排查调用路径上的下一个组件,如果调用路径上下一个组件的延迟正常,则可以确定耗时异常发生在当前组件上;反之则应当继续向上游排查,直至确定耗时异常的最上游组件。
二、确定耗时原因
网络传输耗时 通过观察访问日志,如果request_duration耗时长,说明当前数据面组件(Sidecar/网关)从下游读取请求消耗了较长时间;如果request_tx_duration耗时长则说明发送至上游消耗了较长时间。对于携带了Body的HTTP请求,由于Body是边读取边发送给上游(而不是读取完才发送),所以request_duration长会进一步导致request_tx_duration变长,而如果只有request_tx_duration长的情况,则说明读取请求较快,但发送给上游的速度较慢。如果response_tx_duration耗时长,则说明从上游读取response或是将response转发给下游的速度比较缓慢。
上游处理耗时 访问日志的response_duration字段可以表达从请求发生直到收到上游响应的首个字节所消耗的时间,response_duration减去request_tx_duration可以反映上游处理所消耗的时间,如果这个时间长,则说明上游处理缓慢或是上游连接网络延迟较高。