《快递行业云上技术服务白皮书》——4. 快递行业技术服务最佳实践——4.2 大促保障最佳实践——4.2.3 大促保障的五大技术要素(上) https://developer.aliyun.com/article/1224040?groupCode=supportservice
4.2.3.3.1.10 单链路压测
验证所有接口在无干扰、无竞争的情况下的性能基线数据,确定所有接口的性能SLA。
4.2.3.3.1.11 全链路小流量试压
对生产环境进行小流量试压,暴露最表层的问题,保证流程的正确性。
4.2.3.3.1.12 全链路压测并验收
按生产环境流量配比进行复合场景全链路压测。探测相互干扰、竞争情况下的资源消耗水位和瓶颈。大致上分为以下5个阶段:
1.阶梯加压与容量规划。
定位性能瓶颈;拿到各应用的性能基线数据与容量,获取限流阈值。
2.瞬时加压。
验证系统预热是否合理,比如数据库连接、RPC连接、业务缓存、JIT预编译等。
3.稳定性测试。
验证系统资源使用是否合理,是否存在内存泄漏等情况。
4.故障演练。
通过人工注入故障,暴露架构的稳定性问题,提升系统的健壮性。
5.验证限流、降级、预案的有效性,产出最终的交付物。
图25:全链路压测核心流程图
如下是在某头部快递企业中的全链路压测真实截图:
图26:某头部快递企业全链路压测真实截图
4.2.3.4 容量规划,资源健康度检查
4.2.3.4.1 全链路评估风险巡检
基于护航业务视角,全方位地为客户整体资源使用情况,包含水位、安全风险、性能瓶颈、规格限制等,最大程度保障资源配置合理性。
在某头部公司双十一保障中,针对核心业务域共完成三轮全链路评估和风险巡检截图如下:
图27:某头部公司双十一保障全链路评估和风险巡检截图
4.2.3.4.2核心资源深度巡检
在某头部快递公司的双十一保障中,针对核心polardb和redis实例进行两轮深度巡检,共巡检风险项40项,优化&确认慢查询23条,并提前配置polardb强制走只读库,redis带宽弹性扩容,自动查杀慢查询脚本等预案8条。
图28:某头部快递公司的双十一保障深度巡检截图
4.2.3.5 流量防护
异常流量的防护,接入DDOS防护或者准备DDOS接入应急预案,接入应用防护产品WAF或准备WAF接入预案手册。
对正常业务峰值流量的限流保护,通过Nginx+LUA网关限流实现网关层保护,通过Sentinel(AHAS)实现微服务层面的接口限流保护。
以下是某快递公司双十一保障限流配置图:
图29:某快递公司双十一保障限流配置图