带你读《2022技术人的百宝黑皮书》——前端质量之灰度监控的有效实践(2) https://developer.aliyun.com/article/1242721?groupCode=taobaotech
api错误
因为api错误的统计标准与我们的实际需求有出入(见下图)我们主要看新增错误、同比环比数据
错误率:主要统计同比环比。为什么不看api成功率?成功率99.5%下降到99%(下降了0.5%)数据非常不明显,失败率0.5%提升到1%(上升100%)很明显,才更能发现问题。比如我们有个detail页接口成功率常年维持在99.5%,有次发布前端bug成功率仅仅掉到99.3%,但影响了1w+用户一天
错误数:(某api新增错误信息)错误数,1~2(每10分钟)是warn级别
影响用户数:(某api新增错误信息)影响用户数,
a.会结合错误数一起看,辅助分析大量错误是否集中在个别用户上,
b.影响用户数权重大于错误数,说明影响面更广
调用量:调用量异常也能反映前端bug,0一般是错误导致无调用,异常高一般是多次调用
案例:2020.12.01 - 异常日志排查到订单结果轮询的 bug
观察日志时发现有个接口突然调用量相对平日大涨,排查日志发现有同一个用户一直重复请求同一个接口,猜测可能是轮询逻辑有问题,通过排查代码发现一个取数逻辑有误引起的 bug
带你读《2022技术人的百宝黑皮书》——前端质量之灰度监控的有效实践(4) https://developer.aliyun.com/article/1242716?groupCode=taobaotech