优云蒋君伟:运维监控大数据的提取与分析

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

本文内容整理来自【敏捷运维大讲堂】蒋君伟老师的线上直播分享。分别从以下3个维度来分享:1、云时代监控分析的窘境;2、使用标签标记监控数据的维度;3、监控数据应用场景。

云时代监控分析的窘境

在虚拟化与容器技术广泛应用的情况下,运维对象大规模地增长,监控平台每天存储的指标都以亿计,所以监控数据如今已经成了大数据。传统的监控工具在这种场景下,对于数据的提取分析,已经力不从心,反而成为了运维的负担。

我们用一个典型的互联网档案分析应用举例说明:

121ba2a8b1b93fff85dc1adf47422fd126c5a5c4

这个应用支持容灾与负载均衡,它部署在三个数据中心,并同时提供服务;

应用按微服务思想设计,内部划分为多个技术组件,包括APIGateway、档案、登记、通知、支付及一些数据库服务

技术组件可弹性扩缩容

这样的应用目前很常见,它有这样一些特征:

变:架构变、实例变

由于研发每周都在迭代,可能随时都加增加新的技术组件种类,如增加一个MongoDB作为文档类数据存储;同时由于弹性扩缩容,每个技术组件的实例时刻也在变,比如下图,就减少了一个档案服务,增加了一个支付服务:

e85712dea6d312466e021a933e543ff4e1a2cd8a

这给监控带来了难题:如何监控经常变化的目标? 答案是:监控配置自动化,随基础架构扩展,并标记监控目标。

在Zabbix与UYUN Monitor产品中,都可以使用自动部署与发现来实现自动扩展监控。Zabbix主要使用标记与自动分组的方式,而Monitor则使用标签的方式:

d6eebe27dfff2dac3ee48a8190616ca10cbaa612

多:种类多、实例多

一个公司可能存在30多个这样的集群应用,它使用上百种技术组件,数千个虚拟机或容器实例。如此大的规模,带来了巨大的监控复杂度,新的难题是:我们变得更难预测的故障诊断场景!

我们举几个具体的场景来说明这点:

场景1:我想要知道所有的档案查询次数

档案查询次数是衡量整个应用业务量的一个重要指标,这个场景的难点是档案服务是多实例的,并且分布在多个数据中心。针对这个场景,我们的解题思路是:合计所有数据中心的所有档案服务的查询API调用次数,即下图中所有红色部份:

46e5f57d8e352b6907b3bd4c1df23fe08f85703a

使用Zabbix时,可以按如下步骤:

创建一个档案服务group,包含所有数据中心的所有档案服务

创建一个item,使用汇聚 groupfunc 合计 group 内的所有查询API调用次数

使用UYUM Monitor时,则配置如下字符串即可:

m=sum:查询API调用次数{技术组件=档案服务}

实现效果:

c380951e77bdbce09a7abcf3d1d43d40809e7694

场景2:我想知道APIGateway TCP连接数三个中心的各自占比

通过连接数占比,我们可以分析出各个数据中心的负载是否均衡。其解题思路是:独立合计每个数据中心的APIGateway TCP连接数,即如下红色部份:

d1bc4ef3723cc1c41545afb789fcbc658db410d7

使用Zabbix时,可以按如下步骤配置:

创建三个数据中心APIGateway group g1. 杭州东 APIGateway group g2. 杭州西 APIGateway group g3. 宁波 APIGateway group

创建对应item 分别统计其TCP连接数合计

使用UYUM Monitor时,还是配置如下字符串即可:

m=sum:TCP连接数{数据中心=*,技术组件=APIGateway}

实现效果:

011fee5e8dd530437b7015c0c24cc4543ab01132

场景3:我想知道各种服务的主机CPU平均利用率趋势

通过将一些技术组件的CPU利用率在一个趋势图中显示,我们可以利用指标间的正相关性,来分析组件间的影响,比如档案服务的CPU利用率升高时,提供其数据的Redis服务CPU使用率也在升高。其解题思路为:分别为每种服务求得其主机CPU平均利用率,并在一个趋势图中展示。

使用Zabbix时,可以按如下步骤配置:

创建各个技术组件对应的group,包含:是APIGateway、档案、登记、通知、支付、MySQL等等

创建对应item 分别统计其主机CPU利用率平均值

而使用UYUM Monitor时,依然是配置如下字符串:

起始时间=30分钟前&m=avg:主机CPU利用率{技术组件=*}

实现效果:

aa80bbad2c08f8f636589ad19766bc8d8fab087e

使用标签标记监控数据的维度

我们可以看出,Zabbix与Monitor针对一些数据的提取方式是不一样的。Zabbix更多的是使用Group分组的方式,来梳理某些维度同类型的信息,这种方式是我们过去惯用的,组织一棵树来抽象世界。

但是,世界其实是平的,各种事物实际上是平等存在的,只是它们有着各自的特性而已。所以,我们所需要的只是按需用这些特性标签来提取它们。举例来说,下图就可以看到两个主机的各种标签:

1e5d113c3e20f34691dae8f65a6f8e92acb0ce9d

使用UYUN Monitor时,可以按很多种不同的方式来建立标签,包括:

1、安装代理时指定

2、查看主机信息时指定

266c2ddbbde0a01dd6daefdbe9e50dca2ea08e42
c682508da57d24bff723e933d47785348f8df9c0

3、以及通过自定义脚本推送指标时指定 推送到本机代理:

198e5bb4c6143966b02d58db21a1c67495ae47ef

在为监控对象建立好这些标签后,我们就可以充分使用标签带来的便利,随需查询,不预设场景。

监控数据应用场景

新一代的监控系统,其本质实际上是一个监控大数据收集与分析平台,它不限定监控底层的数据来源以便全面覆盖运维对象,通过海量存储与灵活的数据提取能力,为上层的各种运维场景,提供如大屏可视化、报警、分析报表等功能。

98eaec598196c008b6618c0dd8acdedd53b0ee22

UYUN Monitor 也提供了多种上层的运维分析功能,包括:

1、个性丰富的仪表盘,能灵活提取各类监控数据按多种方式展现

e724965623986b577d371474836d70ac7b8d4d56

2、指标的阈值检查策略,能对集群指标进行综合汇聚与告警

01a6da208b5ceee48e09f1b4cb22c4fe635a2091

3、第三方数据查询OpenAPI,提供数据的二次消费入口

296b1d3bc657c808f98b0d8658d77575e743ebfd

可以看出,面对云时代,我们对监控系统的要求已经产生了变化,监控系统实际上已经转变 为一个监控大数据收集与分析平台,它不限定监控底层的数据来源以便全面覆盖运维对象, 通过海量存储与灵活的数据提取能力,为上层的各种运维场景,提供如大屏可视化、报警、 分析报表等功能。

本次主题《监控大数据的提取与分析》的分享希望对大家有所帮助,优云敏捷运维大讲堂面向运维领域的技术分享、最佳实践将不定期与大家见面,敬请期待。

讲师介绍

蒋君伟

•  IT运维领域资深专家,优云软件产品总监,拥有10年运维实战经验

•  先后研发了网络管理、系统管理、CMDB、ITSM等产品,并成功建设了多个全国性的网络运维管理项目

优云全线产品免费试用:https://www.uyun.cn

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
54 4
|
1月前
|
SQL 消息中间件 分布式计算
大数据-124 - Flink State 01篇 状态原理和原理剖析:状态类型 执行分析
大数据-124 - Flink State 01篇 状态原理和原理剖析:状态类型 执行分析
63 5
|
2月前
|
存储 大数据 测试技术
用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响
在大数据环境中,数据存储格式直接影响查询性能和成本。本文探讨了 Parquet、Avro 和 ORC 三种格式在 Google Cloud Platform (GCP) 上的表现。Parquet 和 ORC 作为列式存储格式,在压缩和读取效率方面表现优异,尤其适合分析工作负载;Avro 则适用于需要快速写入和架构演化的场景。通过对不同查询类型(如 SELECT、过滤、聚合和联接)的基准测试,本文提供了在各种使用案例中选择最优存储格式的建议。研究结果显示,Parquet 和 ORC 在读取密集型任务中更高效,而 Avro 更适合写入密集型任务。正确选择存储格式有助于显著降低成本并提升查询性能。
384 1
用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响
|
1天前
|
存储 监控 数据挖掘
【Clikhouse 探秘】ClickHouse 物化视图:加速大数据分析的新利器
ClickHouse 的物化视图是一种特殊表,通过预先计算并存储查询结果,显著提高查询性能,减少资源消耗,适用于实时报表、日志分析、用户行为分析、金融数据分析和物联网数据分析等场景。物化视图的创建、数据插入、更新和一致性保证通过事务机制实现。
25 14
|
8天前
|
数据采集 机器学习/深度学习 搜索推荐
大数据与社交媒体:用户行为分析
【10月更文挑战第31天】在数字化时代,社交媒体成为人们生活的重要部分,大数据技术的发展使其用户行为分析成为企业理解用户需求、优化产品设计和提升用户体验的关键手段。本文探讨了大数据在社交媒体用户行为分析中的应用,包括用户画像构建、情感分析、行为路径分析和社交网络分析,以及面临的挑战与机遇。
|
7天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
33 1
|
8天前
|
机器学习/深度学习 搜索推荐 大数据
大数据与教育:学生表现分析的工具
【10月更文挑战第31天】在数字化时代,大数据成为改善教育质量的重要工具。本文探讨了大数据在学生表现分析中的应用,介绍学习管理系统、智能评估系统、情感分析技术和学习路径优化等工具,帮助教育者更好地理解学生需求,制定个性化教学策略,提升教学效果。尽管面临数据隐私等挑战,大数据仍为教育创新带来巨大机遇。
|
14天前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
68 10
|
11天前
|
人工智能 供应链 搜索推荐
大数据分析:解锁商业智能的秘密武器
【10月更文挑战第31天】在信息爆炸时代,大数据分析成为企业解锁商业智能的关键工具。本文探讨了大数据分析在客户洞察、风险管理、供应链优化、产品开发和决策支持等方面的应用,强调了明确分析目标、选择合适工具、培养专业人才和持续优化的重要性,并展望了未来的发展趋势。
|
26天前
|
存储 SQL 分布式计算
湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
【10月更文挑战第7天】湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
41 1

热门文章

最新文章

下一篇
无影云桌面