构建运维智能化的三大关键技术

本文涉及的产品
应用实时监控服务-用户体验监控,每月100OCU免费额度
应用实时监控服务-应用监控,每月50GB免费额度
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
简介: 落地智能化的运维算法难度较大,解决实际应用场景问题,要求应用运维团队不但要有应用性能工程、APM、应用链路追踪、日志分析等传统运维技术,还要有大数据存储、索引、清洗、统计等方面的经验,能够熟练使用机器学习和人工智能算法。企业需要在建设前期积累的三大关键技术能力。

应用智能运维是在现有的应用性能管理系统、日志分析系统等的基础上,围绕用户场景和业务目标自动融合数据、智能化提取信息的过程。其通过规则积累指定应用运维经验,通过算法替代运维专家的逻辑思考,为发现风险、定位风险和处理风险提供了决策支持。

落地智能化的运维算法难度较大,解决实际应用场景问题,要求应用运维团队不但要有应用性能工程、APM、应用链路追踪、日志分析等传统运维技术,还要有大数据存储、索引、清洗、统计等方面的经验,能够熟练使用机器学习和人工智能算法。企业需要在建设前期积累的关键技术能力有以下三部分。

1、数据采集

数据是实现精准预测、异常检测和根源问题定位分析算法的基础,没有覆盖全面、高质量、高精度的监控数据,再精妙的算法也很难发挥作用。围绕业务部门对服务质量目标保障的需求,要覆盖应用全链路的监控数据,就需要更丰富的监控数据采集手段。要达到监控范围涵盖应用从用户端到服务端的运行期状态、数据采集能力支持从基础设施到上层应用全栈软硬件的效果,需要解决用户数字体验与终端设备监控、业务流程及系统可用性检测、网络状态监控、代码执行链路追踪、日志分析及标准化协议/接口对接等技术问题。目前,常用的覆盖从用户端到服务端的软件及基础设施的数据采集技术主要有以下几种。

  • 用户数字体验与终端设备监控。采集B/S架构下的应用Web页面与用户交互的用户数字体验指标数据,主要利用页面植入JavaScript探针技术实现。对于移动终端应用,需要在开发阶段通过SDK代码埋点的方式,在关键代码执行链路上插入监控代码,监控用户的使用习惯和指定业务流程。目前,主流的APM产品和工具均能提供这种能力。
  • 业务流程及系统可用性检测。通过配置脚本定时或随机拨测关键业务流程、页面和接口的方式来主动检测应用的可用性。在系统没有用户使用或系统上线初期,这样做能够主动发现服务假死、应用或独立部署的服务节点意外宕机、接口调用性能异常等问题。常用工具有用于模拟用户操作以检测业务流程可用性的Selenium、拨测页面和接口的SaaS云服务“site 24x7”、开源项目Blackbox等。
  • 网络状态监控。这是一种基于旁路镜像网络流量、通过探针被动侦听网络包原理分析应用在网络层交互动作的监控方式。其通过拆包分析网络数据包,可以获得网络交互性能、网络协议类型和应用业务操作过程等信息。由于是被动侦听,当遇到应用异常或网络信道加密时,其很难拿到有用信息。这类工具和产品统称为网络性能管理工具。
  • 代码执行链路追踪。获取分布式事务执行过程和应用服务器的代码执行链路数据是APM平台的核心能力,其主要原理是采用独立于程序外的代理(Agent)来监听程序执行过程。对分布式系统的代码执行链路追踪监控的原理,来自Google大规模分布式系统的跟踪系统Dapper。
  • 日志分析。应用运行期日志是定位分析故障的重要信息来源相比之下,监听分析日志文件中的数据是获取应用运行期状态更简单、直接的方式。近几年,Splunk、Elastic、Sumologic等用于日志提取、分析的产品/服务厂商推动了海量日志采集、存储、分析及可视化技术的快速发展。
  • 标准先协议/接口对接。通过标准化协议/接口采集监控数据是最基本的监控数据获取方式,常用协议有面向Windows操作系统的WMI和JMX Java虚拟机的运行状态监控管理协议、简单网络管理协议(SNMP),以及网络监测导出协议sFlow、NetFlow等。
2、数据存储

常用的监控数据分析技术处理的数据量较小,类型单一。例如,对于时间序列指标数据,常用RRD数据库或时间序列数据库对数据进行统计计算。计算类型大多是求最大值、最小值,求平均,找标准差及多指标聚合等。

对于日志、用户操作行为等半结构化的文本数据,可以用ElasticSearch等文本索引工具对海量文本数据进行索引,利用类SQL语句提取关键信息字段。

对于代码调用链路,尤其是分布式事务处理的代码链路,需要对海量数据按预先注入的TraceID、SpanID进行关联,由于链路层级深度不确定,用关系数据库连接处理就是灾难。采用Apache Solr、ElasticSearch这类文本索引检索引擎,需要占用大量的内存来创建索引,对计算和内存的压力将非常大,也不合适。最适合的数据库是HBase、Cassandra等,其能够由指定ID快速检索出相关数据,并拼接出完整的链路。

不同数据存储方式的实现原理不同,核心能力也有差别。为了支撑上层多样化数据的统计分析、检索,需要综合利用各数据库的优势。

3、数据分析

海量运维大数据分析是实现应用智能运维的关键。如果把监控数据比作石油,数据分析就是从石油中提炼适用于不同应用场景的汽油、柴油、重油、沥青、润滑油的过程。需求不同,对石油提炼的过程和工艺大相径庭。同样,监控数据采集上来,未经加工,本着发现风险和异常的原则来看,这些数据大部分都是正常状态的无用数据,价值密度很低,可读性很差,因此称为“状态裸数据”。

数据采集层通过数据预处理和格式转换(通常预定义为XML Schema、JSON Schema等元数据格式)将这些数据转化为格式化数据,推送到数据存储平台存储。

集中存储的监控大数据经过清洗、过滤、预处理等操作进一步提升了价值密度,转换成信息输入数据,用于统计分析。常用的数据分析技术包括异常检测、指标关联分析、趋势预测、因果分析等,用这些技术对信息进行深度加工,可找出支持运维和运营决策及采取下一步动作的信息。

相关实践学习
通过云拨测对指定服务器进行Ping/DNS监测
本实验将通过云拨测对指定服务器进行Ping/DNS监测,评估网站服务质量和用户体验。
相关文章
|
21天前
|
机器学习/深度学习 人工智能 运维
人工智能在云计算中的运维优化:智能化的新时代
人工智能在云计算中的运维优化:智能化的新时代
118 49
|
15天前
|
存储 分布式计算 Hadoop
【产品升级】Dataphin V4.4重磅发布:开发运维提效、指标全生命周期管理、智能元数据生成再升级
Dataphin V4.4版本引入了多项核心升级,包括级联发布、元数据采集扩展、数据源指标上架、自定义属性管理等功能,大幅提升数据处理与资产管理效率。此外,还支持Hadoop集群管理、跨Schema数据读取、实时集成目标端支持Hudi及MaxCompute delta等技术,进一步优化用户体验。
308 3
【产品升级】Dataphin V4.4重磅发布:开发运维提效、指标全生命周期管理、智能元数据生成再升级
|
5天前
|
数据采集 机器学习/深度学习 人工智能
基于AI的网络流量分析:构建智能化运维体系
基于AI的网络流量分析:构建智能化运维体系
50 13
|
12天前
|
机器学习/深度学习 数据采集 运维
机器学习在运维中的实时分析应用:新时代的智能运维
机器学习在运维中的实时分析应用:新时代的智能运维
63 12
|
5天前
|
Prometheus 运维 监控
Prometheus+Grafana+NodeExporter:构建出色的Linux监控解决方案,让你的运维更轻松
本文介绍如何使用 Prometheus + Grafana + Node Exporter 搭建 Linux 主机监控系统。Prometheus 负责收集和存储指标数据,Grafana 用于可视化展示,Node Exporter 则采集主机的性能数据。通过 Docker 容器化部署,简化安装配置过程。完成安装后,配置 Prometheus 抓取节点数据,并在 Grafana 中添加数据源及导入仪表盘模板,实现对 Linux 主机的全面监控。整个过程简单易行,帮助运维人员轻松掌握系统状态。
49 3
|
23天前
|
人工智能 运维 自然语言处理
智能化运维:AI在IT运维领域的深度应用与实践####
本文探讨了人工智能(AI)技术在IT运维领域的深度融合与实践应用,通过分析AI驱动的自动化监控、故障预测与诊断、容量规划及智能决策支持等关键方面,揭示了AI如何赋能IT运维,提升效率、降低成本并增强系统稳定性。文章旨在为读者提供一个关于AI在现代IT运维中应用的全面视角,展示其实际价值与未来发展趋势。 ####
137 4
|
22天前
|
机器学习/深度学习 人工智能 运维
智能化运维在现代数据中心的应用与挑战####
本文深入探讨了智能化运维(AIOps)技术在现代数据中心管理中的实际应用,分析了其带来的效率提升、成本节约及潜在风险。通过具体案例,阐述了智能监控、自动化故障排查、容量规划等关键功能如何助力企业实现高效稳定的IT环境。同时,文章也指出了实施过程中面临的数据隐私、技术整合及人才短缺等挑战,并提出了相应的解决策略。 --- ####
42 1
|
2月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
69 4
|
29天前
|
机器学习/深度学习 运维 监控
智能化运维:从自动化到AIOps的演进之路####
本文深入探讨了IT运维领域如何由传统手工操作逐步迈向高度自动化,并进一步向智能化运维(AIOps)转型的过程。不同于常规摘要仅概述内容要点,本摘要将直接引入一个核心观点:随着云计算、大数据及人工智能技术的飞速发展,智能化运维已成为提升企业IT系统稳定性与效率的关键驱动力。文章详细阐述了自动化工具的应用现状、面临的挑战以及AIOps如何通过预测性分析和智能决策支持,实现运维工作的质变,引领读者思考未来运维模式的发展趋势。 ####
|
29天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的崛起背景,深入分析了其核心概念、关键技术、应用场景及面临的挑战,并对比了传统IT运维模式,揭示了AIOps如何引领运维管理向更高效、智能的方向迈进。通过实际案例分析,展示了AIOps在不同行业中的应用成效,为读者提供了对未来智能运维趋势的洞察与思考。 ####
75 1

热门文章

最新文章