客户简介
云快充成立于 2016 年,以充电服务和能源管理为核心,业务涵盖九个方向。截止到 2022 年 11 月,业务覆盖 370 个城市,接入电桩运营商 7400 人,接入充电终端 31 万家,与 640 个桩企达成合作。
客户痛点
为确保业务的稳定运行,自 2019 年起,云快充采用百分百容器化的技术路线。然而,在容器化改造的过程中,云快充遇到了两个挑战 :
自建 Kubernetes 集群维护困难 : Kubernetes 是一个大型复杂的分布式系统, 云快充曾经遇到过节点异常、Pod 异常、网络不通、etcd 性能瓶颈等问题,解决这些问题非常耗费精力,尤其是遇到 Kubernetes 本身的 bug 时更是无能为力。
业务变更带来稳定性风险 : 随着微服务架构的不断演进, 业务变更越来越频繁。由于应用上下线不够优雅以及缺少精细化和灰度策略,80% 以上的线上业务故障都与版本发布有关。
方案亮点
高 稳 定 性 的 托 管 版 Kubernetes 集 群 : 容 器 服 务 ACK 在 确 保 API 和 标 准 完 全 兼 容 开 源 Kubernetes 的前提下,提供了一系列稳定性提升手段,如 master 节点托管、智能巡检诊断、跨可用区的高可用等等。这些手段都经过阿里双十一大规模场景和阿里云大型客户的实战验证, 升级集群版本也变得足够简单。
基于 eBPF 技术的应用诊断技术 : 一键开启应用诊断能力, 不需要对应用进行任何修改。它提供全局视角的应用拓扑,并从请求数、错误数、延误三个黄金指标出发,发现异常的服务个体。
通过微服务治理实现应用稳定性提升 : 采用基于 Java-Agent 字节码增强的技术, 实现无侵入式微服务治理增强, 让微服务应用获得无损上下线和全链路灰度能力, 从而将版本发布对正常业务的影响降到最低。
建设成果
生产事故率显著降低 : 云快充在一条业务线上落地了全链路灰度技术,将应用变更导致的生产事故降低了 70%,后续还会将这项技术推广到整个企业。
业务高峰期系统稳定运行 : 从网关到微服务应用,到第三方依赖,每一层都配置流量防护规则,确保在业务高峰期不会有任何系统被用户流量所压垮。
研发效率提升 : 通过云原生稳定性建设, 云快充接入的电桩数量完成了 20 万到 30 万的增长,平均需求迭代周期从 7 日降低到 4 日,极大地促进了业务的快速迭代。
客户证言
“在阿里云的帮助下,云快充通过全面容器化与稳定性建设,极大地促进了业务的快速迭代。希望新能源行业的其他技术团队可以和我们一起共同探索云原生稳定性方面的技术路径。”
相关产品
1 容器服务 ACK
2 Prometheus 监控服务