在云原生环境下需要对多个容器、多个虚拟机、多个主机、多个可用区、甚至多个地域上 的信息进行关联,才可能回答清楚服务为什么宕机、为什么没有实现定义的 SLO、故障影响了 哪些用户和业务等这一系列问题,才可能基于运维数据和 AI 智能实现高效的“监控、变更、应 急、容量、容灾、演练”数智化运维管理。
云原生数智化运维主要包括七方面能力:
监控发现能力:指标、日志、链路全方位可观测性,全面覆盖业务、中间件和基础设施, 并且可层层下钻。
故障应急处置能力: 异常全面发现,快速定位和恢复的能力,确保业务 SLA。
变更风险防控能力: 业务全方位变更管控,严守“可灰度、可观测,可回滚”三板斧。
容量管理能力:从业务到基础设施提供全链路容量精准评估和风险提前识别能力,达到稳 定与成本的平衡。
容灾管理能力:平台化可编排容灾,支撑机房容灾,单元化容灾等场景,覆盖演练,切换 和大屏等能力。
演练评测能力: 通过混沌工程、红蓝攻防等方式,对业务风险保障能力进行探测和检验。
资金安全保障能力:基于资金安全核对规则,通过离线、实时、文件等方式对业务系统的 资金流进行监测。
云原生数智化运维主要具备三方面特征:
① 高效 : 通过运维工作的平台化来提高运维效率。如系统监控平台、变更管控平台、动态资 源管控平台、调度中心、注册中心等。
② 安全:基于自动业务验证平台和大数据运算规则,保障系统运行的稳定性与正确性。如数 据核对中心、依赖管控平台、容量检测管控平台等。
③ 智能:基于大数据的分析和规则计算, 进行智能化的运维管控。如自动故障分析处理系统、 容量自动探测扩容系统等。