10月12日云栖大会上,云上全链路健康检查服务惊艳亮相,阿里云专家现场解读如何通过服务,解决业务云化后的各项问题。从产品类型选择到容量规划的困惑、如何发现问题风险、到故障修复与重大事件保障,绝大多数云上问题都可以通过全链路检查规避。
云上稳定:风险监控与实施优化
该服务从业务架构到云产品资源层面,提供全链路健康检查的服务保障体系,着眼于用户最关注的稳定性问题。目前全链路检查已覆盖top10的云产品,通过190多项评估规则监控使用状况与数据,分析并帮助客户发现云上风险问题。目前系统内已实现150余种应急方案,可针对具体风险和问题,给出可实施的解决方案和优化建议。
阿里云平台的付费用户已超过100万,阿里云也一直在持续提升业务系统在云上运行的稳定性,以满足更多客户托付核心业务系统的信任与要求。
经验沉淀:双11历年保障总结
阿里云服务团队,拥有多年云上系统稳定性提升和服务保障的一线经验,吸收了阿里巴巴集团历次双11护航保障的宝贵经验,沉淀总结了基于全链路健康检查的云上服务保障体系,持续提升稳定性。
来自阿里云的技术专家周翰说道,“检查将会通过对客户核心业务系统进行相关调研、数据分析,发现业务系统在系统架构、产品选型、云资源使用、监控管理、故障应急恢复上存在的问题和风险。使用阿里云PTS压测产品模拟客户实际业务场景和压力,发现系统从云资源到应用层面的性能瓶颈点,确定业务系统的性能基线,产出业务系统的扩容方案与建议。”
周翰现场分享了一位客户曾经使用全链路检查时,发现CDN瓶颈导致业务不可用、实例性能不足、RDS资源争抢等问题,使客户能及时应对突发问题与故障。紧接着通过业务应急演练模拟从云资源层面到客户业务层面的各类问题故障,验证和完善业务架构的容错和自我保护能力,最终形成有针对性的、合理的解决方案和建议。最终阿里云帮助客户持续提升系统稳定性,为客户业务保驾护航。
将服务经验传递给更多伙伴和客户,将服务保障体系与所有生态合作伙伴一起不断完善,将更多更好的服务提供给阿里云客户,是阿里云服务团队的共同愿景。
了解更多请微博关注阿里云客户满意中心