实时感知风险态势,减少应用宕机损失 监控的目的是发现风险,在智能、互联时代,发现风险需要强大的监控系统的支持, 著名的监控系统——宙斯盾和彭博终端的核心价值都是在复杂态势中找到风险点。应用 运维也类似,在系统复杂度快速增加、接入用户终端设备多样化、系统间交互集成关系 更紧密的背景下,应用智能运维系统的全景监控和智能化态势感知能力对企业更加必要, 价值也更大。实现风险态势感知的前提是有全面、实时、丰富的监控数据。
提供专家经验指导,提高应用运维效率 智能化的关键支撑是经验和知识的积累,应用智能运维系统建设区别于其他监控运 维系统的关键一点是,在发生异常或出现潜在问题的情况下,其能够通过算法和积累的 专家经验来指导风险的发现、定位和处理,辅助决策支持。传统监控运维系统积累专家 经验主要依靠告警策略、监控运维仪表盘和报表。告警策略针对时间序列指标数据配置 自动探测异常的逻辑,出现问题自动生成告警;监控运维仪表盘和报表通过预定义模板 的方式对指定类型的资源、监控场景或故障最常用的指标进行统计分析,并生成对应的 可视化界面。开源监控数据可视化平台 Grafana1专注运维数据可视化,提供了大量根据 经验定义的可视化仪表盘模板。利用类 SQL 查询语句,Grafana 将常用指标聚合、统计 和展现策略固化为可下载的模板,并通过开源社区的方式让全球用户接入下载或分享自 己的仪表盘。除此之外,知识图谱与运维场景的结合也是解决运维专家经验积累和使用的可行途 径。知识图谱(Knowledge Graph)1是实现人工智能落地的重要基础,它以结构化的 形式描述客观世界中的概念、实体及其关系,将互联网的信息表达成更接近人类认知世 界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱不是 一种新的知识表示方法,而是知识表示在工业界的大规模知识应用,它将互联网上可以 识别的客观对象进行关联,从而形成客观世界实体和实体关系的知识库,其本质上是一 种语义网络。如图 3-7 所示,其中的节点代表实体(Entity)或概念(Concept),边代 表实体/概念之间的各种语义关系,如用户(User)拥有某站点(Site)的管理员权限, 在用户和站点两个实体之间,会有一条线标识拥有管理权限(has administrator)。
主动找出故障原因,提前预防和规避风险 有了积累的专家知识和经验,应用智能运维系统能够帮助我们利用这些知识和经验 管理风险。具体场景:①在未发生风险时,通过设定先验条件来推理和判断系统是否可 能出现性能瓶颈或故障,若可能,分析问题所在;②在已经发生了风险告警时,回溯数 据到故障点,结合知识和经验推理及分析原因。
辅助容量规划决策,节约资源采购成本 大多数企业在新应用上线或扩容规划时,对需要准备多少计算、存储、网络资源, 资源在应用系统中每个独立部署的节点之间如何分配,都缺少经验和有效的历史数据支 撑。建设应用智能运维系统后,企业就可以通过算法分析全量采集的应用历史数据,从而进行决策。区别于直接采集、分析应用性能管理监控数据和应用运行依赖的基础设施环境监控 数据做容量规划分析,应用智能运维系统需要首先将业务流程请求处理链路、应用节点 运行状态指标和对应的运行环境状态指标关联,从历史数据中筛选指标波动相关性。有 了这些信息,我们能分析出各业务流程的历史峰值,以及在峰值发生时其对哪些服务节 点和对应的运行环境状态指标有相关性影响。例如,计算密集型业务的并发量增加,对 应节点的 CPU 利用率会显著升高,因此,我们需要判断对应节点的 CPU 利用率增加是 否会使业务执行时间超时,以及使请求的数量超过服务质量目标的约束。如果通过算法 计算发现有指标波动相关性,那么就意味着需要扩充服务节点的计算能力。
掌控全局业务状态,赋能业务数字化运营 应用智能运维系统通过整合多种运维产品监控数据,利用人工智能算法代替人工来 挖掘数据中的信息。这种能力使得企业能够在未来智能、互联时代建设业务逻辑更加复 杂的数字信息系统,支撑产品和服务能力升级。全景监控能力对企业的价值主要体现在 用户数字体验保障和复杂应用系统的整体健康状态保障两方面。以上内容摘自《应用智能运维实践(试读版)》电子书,点击https://developer.aliyun.com/ebook/download/367 可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。