一文读懂智能化运维监控如何赋能IT可观察性

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 近年来,互联网高速发展下的需求驱动、技术进步以及商业模式的转变,导致了企业各类业务趋向数字化,以此期望突破传统业务来找到新的利润增长点。为此,企业新建、重构了大量互联网类的业务系统,给企业基础设施、网络和应用各条线的运维管控带来了巨大的压力。如何利用已有的各类运行数据来更好地观测我们的系统,提升业务的连续性以及客户体验,是所有正处于数字化转型过程的企业都需要思考的重点。

本文由日志易安全技术专家梁志伟撰写,刊登于山西证券的《山证人》技术增刊:安全运维。


近年来,互联网高速发展下的需求驱动、技术进步以及商业模式的转变,导致了企业各类业务趋向数字化,以此期望突破传统业务来找到新的利润增长点。为此,企业新建、重构了大量互联网类的业务系统,给企业基础设施、网络和应用各条线的运维管控带来了巨大的压力。

目前,企业基本上都建设有系统监控、网络监控、存储监控、数据库监控、中间件监控、交易性能监控等基础设施或者基础指标的专项监控系统,这类监控系统的建设角度基本上都是以某一类基础支撑对象为出发点,来监控其运行态势。但是这些专业级别的监控系统现阶段基本上是孤立的,没有被整合在一起,所以当网络、数据库或中间件发生故障时,企业并不能迅速定位这些基础层面的故障会影响到哪些应用系统,当业务系统不能正常处理请求时,企业也无法快速准确定位到底哪一类对象的哪一个指标才是问题的根源。

现有的监控手段基本上是以“从下而上”的角度来构建监控系统,即从底层出发来感知上层的应用状况。而实际上,所有的运维管控,最终的服务对象是应用系统。应用性能的监控管理已经不是一个新的概念,很多企业已经建设有自身的基于网络抓包的、基于日志、甚至基于业务流水的性能分析系统。但本质上,它仍然是一个专项的监控系统,并不能做到关联性的故障分析定位,这也是基础类监控系统的最大痛点。

如何利用已有的各类运行数据来更好地观测我们的系统,提升业务的连续性以及客户体验,是所有正处于数字化转型过程的企业都需要思考的重点。


技术思路


早在2018年,“可观察性”(Observability)就已经被引入到了IT领域,其核心内容是整合监控数据、日志数据以及Tracing等数据,在监控系统之外重点关注应用,是对应用系统的一种自我审视,即站在应用系统的角度去探究、展现自身的状态。它与传统监控系统的不同之处是,一个由外向内,一个由内向外,二者站立的角度不同。

1.png

(可观察性概述)


一个可观察性系统往往包含三个关键词:应用、主动和关联。应用是指我们关注的重点是应用本身,而不是基础设施;主动是观测的核心,相对于监控系统被动的暴露异常,可观察性更多是关注系统发生异常的根源。

可以通过以下三个手段构建可观察性:

(1)Logging,就是运维人员常见的日志,是应用在运行过程中所产生的痕迹,日志最详细地记录了请求处理的过程,是应用系统日常排障的重要数据来源。

(2)Metrics,即指标,用来观察系统的状态和趋势,以便及时发现异常,但对于问题的定位缺乏细节支持。

(3)Tracing,面向请求以及路径,全路径展现请求链路以及整个IT系统的互联架构,从路径中分析异常。


2.png

可观察性的数据核心


关键技术

一、数据整合技术

数据整合是可观测性的数据支撑。

从基础能力方面来讲,系统必须具备对可观察性Metrics、Tracing、Logging的采集能力,即海量数据的实时采集能力。对于数据整合来讲,这一点毋庸置疑,同时市面上大部分的监控类产品具备该方面的能力。

另一方面,需要能对接现有的各类监控系统,支持接口级别的对接以及数据源级别的对接。在这方面,我们主要强调的是高效、快捷。从技术角度上讲,各类的存储介质的对接技术难度不大,但是面对“多源”,可能会产生较大的工作量。运维人员的工作重心是运维管理,而不是编码,所以在这里我们提出了工具化、图形化、流程化的数据对接能力,以可视化的方式来实现数据的整合处理。3.jpg

异构数据的交互难题


二、数据计算技术

Tracing数据,数据的关联以及根因分析的场景定义,都需要大量的数据处理来实现,根据不同的数据特性以及分析场景,我们的系统需要具有支持批量计算和流式计算的能力。

如同前面所述,不可能以代码化的方式来让运维人员处理这部分内容,所以我们提供了不同的处理机制。

(1)流式计算能力

流式计算,我们强调的是数据的实时性。需要支撑的计算场景相对固定,除了基本的数据处理之外,我们重点关注多源数据的合并、时间窗口统计、事务窗口合并等方面的能力,在这里我们以组件化、图形化的方式,加以流式大数据计算后台,来实现数据的计算过程。4.png

流式数据计算过程编排


针对Tracing的实时数据,我们则需要通过流式计算的能力,来实时统计链路关系数据以及链路节点的关键指标信息。

(2)离线计算能力

离线计算,关注的重点是场景。需要能够提供丰富的计算原子命令,通过命令的组装来灵活地以离线任务的方式实现数据处理。在这种情况下,我们面向的数据类型必须是多种多样的。在依托大数据架构的能力基础之上,集成大量的数据处理命令,可以帮助企业实现数据关联、分析等操作,其中包含了大量的历史统计、基线统计、计算、合并、连接等计算命令支撑。5.pngSPL离线计算能力)


针对日志的处理以及多数据关联的计算,尤其是针对于历史数据的计算,则非常依赖平台离线计算的能力。

三、数据检测技术

数据监测方面,我们重点关注非指标类运维数据的检测,例如Tracing以及日志数据。

依托于平台数据计算能力的支撑,企业能够实现:

(1)基于日志的交易过程监控,我们可以从日志中发现系统异常、交易异常以及业务异常等。这一方面来看,我们能够帮助企业构建一个专项的日志系统。

(2)基于Tracing,我们能够以可观察性的角度,观测链路的完整性、异常节点等。如此,若系统发生重大异常,或因版本变更而产生问题时,根因定位更为直观、快捷。

6.pngTracing下的全局监控

四、指标检测技术

现有的指标类监控系统,针对指标异常的监控,往往是采用阈值的方式来进行监控,普遍存在大量的误报,在重要节日或者系统异常波动时,某些阈值设置有失合理性,也会导致大量的误报或者漏报。

在AIOps理论基础下,我们将人工智能技术运用于运维领域,结合现已整合的运维数据,通过机器学习的算法实现自动化、无监督模式下的异常自动发现。

7.png基于机器学习进行指标异常检测


可观察性智能运维监控助您实现

通过平台各种高效的数据处理技术以及智能化的处理能力,从外部观测企业IT系统的运行情况,降低用户对应用系统理解的门槛,以用户体验的角度观测系统运行,同时提升故障分析的效率,这也是我们最终的目标。

项目实践

某万亿城商行从2019年开始建设以业务观测为视角的全链路追踪分析监控系统,整合基于应用系统的链路数据、性能数据以及日志数据。

一方面,该城商行实现了从整体上掌控整个IT系统的互联互通架构,为架构优化提供了数据支撑;另一方面,大幅提升监控以及故障排查的效率,进而提升了整个IT系统的用户使用体验。

整个系统的建设核心以及目的主要体现在以下几个方面:

一、数据治理方面

我们根据该用户自身的实际情况,定义了各方面的数据标准,为后续功能级别的实现夯实基础。

这些数据包含Tracing、Metrics以及Logging,而这其中Tracing的数据改造最为关键。受制于传统架构的模式,现有应用系统的互联互通并未进行明确的Tracing数据标准定义,所以需要多方进行改造适配,这部分适配工作也是前期准备工作的重点以及核心工作。

二、链路分析方面

以标准化的数据为基础,构建了全局的链路架构,并辅以黄金指标监控,构建单请求的追踪情况,快速展现异常节点、耗时节点等信息。

8.png全局视角看链路)9.png请求视角看故障10.png故障视角看线索


三、应用监控方面

与此同时,以Tracing进行统计计算,形成了体现业务能力的黄金指标,再结合机器学习算法进行自动检测,形成了业务的全局监控视图以及系统健康情况面板。11.png应用监控面板12.png

自动化检测面板

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
19天前
|
机器学习/深度学习 人工智能 运维
智能化运维####
本文深入探讨了智能化运维的前沿趋势与实践,通过融合大数据、人工智能等先进技术,重塑传统IT运维模式。我们分析了智能化运维的核心价值,包括提升效率、减少故障响应时间及增强系统稳定性,并通过具体案例展示了其在现代企业中的应用成效。对于追求高效、智能运维管理的组织而言,本文提供了宝贵的洞见和策略指导。 ####
|
1天前
|
机器学习/深度学习 人工智能 运维
智能化运维在现代IT系统中的应用与挑战####
本文探讨了智能化运维(AIOps)在现代IT系统中的关键作用及其面临的主要挑战。随着云计算、大数据和人工智能技术的飞速发展,传统的IT运维模式正逐渐向更加智能、自动化的方向转变。智能化运维通过集成机器学习算法、数据分析工具和自动化流程,显著提升了系统稳定性、故障响应速度和资源利用效率。然而,这一转型过程中也伴随着数据隐私、技术复杂性和人才短缺等问题。本文旨在为读者提供一个关于智能化运维的全面视角,分析其优势与挑战,并探讨未来的发展趋势。 ####
17 6
|
1天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在企业IT管理中的应用与实践####
本文深入探讨了智能化运维(AIOps)的核心技术原理,通过对比传统运维模式,揭示了AIOps如何利用大数据、机器学习等先进技术提升故障预测准确性、优化资源分配及自动化处理流程。同时,文章详细阐述了智能化运维平台的实施步骤,包括数据收集与分析、模型训练与部署、以及持续监控与优化,旨在为企业IT部门提供一套切实可行的智能化转型路径。最后,通过几个典型应用案例,如某大型电商平台的智能告警系统和金融企业的自动化故障排查流程,直观展示了智能化运维在实际业务场景中的显著成效,强调了其在提升运维效率、降低运营成本方面的关键作用。 ####
22 4
|
6天前
|
机器学习/深度学习 人工智能 运维
智能化运维:提升IT系统管理效率的新范式####
在数字化转型加速的今天,企业IT系统的复杂性日益增加,传统的运维模式已难以满足高效、稳定的业务需求。本文探讨了智能化运维(AIOps)如何通过融合人工智能、大数据分析和自动化工具,重塑IT运维流程,显著提升管理效率和服务质量,为企业带来前所未有的运营洞察力和响应速度。 ####
|
13天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:AI在IT运维中的应用与挑战###
本文探讨了人工智能(AI)技术在IT运维领域的应用现状、具体实现方式及其面临的挑战。通过分析AI如何优化故障预测、自动化处理和资源管理,文章旨在揭示AI赋能下运维工作的变革潜力与实践难题,为读者提供对智能化运维趋势的深刻理解。 ###
|
20天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在现代IT基础设施中的应用与价值####
本文探讨了智能化运维(AIOps)在现代IT基础设施管理中的实际应用、面临的挑战及其带来的深远影响。通过引入先进的算法和机器学习模型,智能化运维不仅提高了故障检测与响应的速度,还显著优化了资源配置,降低了运营成本,为企业数字化转型提供了强有力的技术支撑。 ####
|
19天前
|
机器学习/深度学习 人工智能 运维
智能运维在现代IT系统中的应用与挑战####
本文深入探讨了智能运维(AIOps)在现代IT系统中的关键作用,通过具体案例分析,揭示了其在提升系统稳定性、优化资源配置及自动化故障处理方面的显著优势。同时,文章也指出了实施智能运维过程中面临的数据安全、技术整合及人员技能转型等挑战,并提出了相应的解决策略,为读者提供了全面而深刻的见解。 ####
43 6
|
21天前
|
机器学习/深度学习 运维 监控
智能化运维:从被动响应到主动预防的转型之路####
本文深入探讨了智能化运维(AIOps)如何引领信息技术管理从传统的被动响应模式向主动预防机制转变,强调了大数据、人工智能算法与机器学习技术在提升系统稳定性和效率中的关键作用。通过分析智能化运维的核心价值、实施策略及面临的挑战,本文为读者揭示了一个更加智能、高效且灵活的IT运维未来蓝图。 ####
|
19天前
|
人工智能 运维 监控
智能运维在现代数据中心的应用与挑战
随着云计算和大数据技术的迅猛发展,现代数据中心的运维管理面临着前所未有的挑战。本文探讨了智能运维技术在数据中心中的应用,包括自动化监控、故障预测与诊断、资源优化等方面,并分析了当前面临的主要挑战,如数据安全、系统集成复杂性等。通过实际案例分析,展示了智能运维如何帮助数据中心提高效率、降低成本,并提出了未来发展趋势和建议。
|
19天前
|
机器学习/深度学习 数据采集 人工智能
运维新纪元:AIOps引领智能运维变革####
本文探讨了人工智能与运维管理深度融合的前沿趋势——AIOps(Artificial Intelligence for Operations),它通过机器学习、大数据分析等技术手段,为现代IT运维体系带来前所未有的智能化升级。不同于传统依赖人力的运维模式,AIOps能够实现故障预测、自动化修复、性能优化等功能,大幅提升系统稳定性和运营效率。文章将深入分析AIOps的核心价值、关键技术组件、实施路径以及面临的挑战,旨在为读者揭示这一新兴领域如何重塑运维行业的未来。 ####