客户背景
云快充成立于2016年,以充电服务和能源管理为核心,业务涵盖九个方向。截止到2022年11月,业务覆盖370个城市,接入电桩运营商 7400人,接入充电终端31万家,与640个桩企达成合作。
客户痛点
为确保业务的稳定运行,自2019年起,云快充采用百分百容器化的技术路线。然而,在容器化改造的过程中,云快充遇到了两个挑战:
自建 Kubernetes 集群维护困难: Kubernetes 是一个大型复杂的分布式系统,云快充曾经遇到过节点异常、Pod 异常、网络不通、etcd 性能瓶颈等问题,解决这些问题非常耗费精力,尤其是遇到 Kubernetes 本身的 bug 时更是无能为力。
业务变更带来稳定性风险:随着微服务架构的不断演进,业务变更越来越频繁。由于应用上下线不够优雅以及缺少精细化和灰度策略,80%以上的线上业务故障都与版本发布有关。
方案亮点
高稳定性的托管版 Kubernetes 集群:容器服务 ACK 在确保 API 和标准完全兼容开源 Kubernetes 的前提下,提供了一系列稳定性提升手段,如 master 节点托管、智能巡检诊断、跨可用区的高可用等等。这些手段都经过阿里双十一大规模场景和阿里云大型客户的实战验证,升级集群版本也变得足够简单。
基于 eBPF 技术的应用诊断技术:一键开启应用诊断能力,不需要对应用进行任何修改。它提供全局视角的应用拓扑,并从请求数、错误数、延误三个黄金指标出发,发现异常的服务个体。
通过微服务治理实现应用稳定性提升:采用基于 Java-Agent 字节码增强的技术,实现无侵入式微服务治理增强,让微服务应用获得无损上下线和全链路灰度能力,从而将版本发布对正常业务的影响降到最低。
建设成功
生产事故率显著降低:云快充在一条业务线上落地了全链路灰度技术,将应用变更导致的生产事故降低了70%,后续还会将这项技术推广到整个企业。
业务高峰期系统稳定运行:从网关到微服务应用,到第三方依赖,每一层都配置流量防护规则,确保在业务高峰期不会有任何系统被用户流量所压垮。
研发效率提升:通过云原生稳定性建设,云快充接入的电桩数量完成了20万到30万的增长,平均需求迭代周期从7日降低到4日,极大地促进了业务的快速迭代。
客户证言
“在阿里云的帮助下,云快充通过全面容器化与稳定性建设,极大地促进了业务的快速迭代。希望新能源行业的其他技术团队可以和我们一起共同探索云原生稳定性方面的技术路径。”
相关产品
阿里云容器服务ACK(Alibaba Cloud Container Service for Kubernetes)
阿里云实时监控服务(ARMS)