道旅鬼谷子分享:如何打好业务监控的组合拳

本文涉及的产品
应用实时监控服务-用户体验监控,每月100OCU免费额度
日志服务 SLS,月写入数据量 50GB 1个月
应用实时监控服务-应用监控,每月50GB免费额度
简介: 公司由于业务迅速扩展,需要针对业务方面进行定制监控。通过选型最终采用了 ARMS 方案。以下篇幅简单介绍了方案的大致概要以及最终效果,以供读者参考。一套组合拳,在数据分析、实时计算、报警、API、持久化存储等方面给我们节省了不少时间,也提供了更多的可能性。所以,最终我们选择了 ARMS。

来自 道旅旅游科技股份有限公司 鬼谷子 的撰稿

业务背景

公司由于业务迅速扩展,需要针对业务方面进行定制监控。通过选型最终采用了 ARMS 方案。以下篇幅简单介绍了方案的大致概要以及最终效果,以供读者参考。

选择

以下是几个产品方案的对比。需要解释的是,以下三个产品在我们的架构中都有大量使用,但是只是在本监控方案中,由于一些业务场景的特殊性,我们使用了业务实时监控服务 ARMS,虽然这并不代表 ARMS 是一个银弹。

MaxCompute

我们以前用过 MaxCompute 作周期性的业务数据计算,缺点非常明显,就是延迟性太高,这对于实时监控来说是致命的直接被PASS。

流计算

参加深圳云栖大会的时候了解到流计算如获至宝,也回来尝试使用过一段时间,在实时监控的功能节点上是很重要的一环没错,但太过于细节,导致整条线过程冗长且繁杂,最后也放弃了。

业务实时监控服务 ARMS

一套组合拳,在数据分析、实时计算、报警、API、持久化存储等方面给我们节省了不少时间,也提供了更多的可能性。所以,最终我们选择了 ARMS。

架构

image

数据源

IIS日志

Windows ECS 安装 Logtail 对 IIS 产生的日志进行实时抓取

业务日志

使用日志服务 SDK 提交日志

实时数据分析

ARMS 的配置分为以下几个部分,由于篇幅原因,仅列出重点,详细内容不赘述。

日志切分

根据规则对日志进行切分、类型转换、字段重组等

数据集

将符合条件的数据进行汇总保存(留待后续分析和监控使用),按需设置报警(邮件、短信)

数据使用

对接 API

通过对接 API,可以对数据集内的数据进行查询,以便后续的业务分析和问题复查

业务分析

实时查询数据集内的结果,根据业务在内存中进行二次计算形成报表

监控

我们做了个 Monitoring 的项目,对接 Grafana 的 Datasource,这样便可以在 Grafana 实时看到数据集内的数据。

使用案例

供应商酒店请求分析 监控

该场景用于我们对供应商酒店请求数的业务监控和事后分析,主要使用方是业务人员。介绍如下:

  • 通过日志服务 SDK 在酒店请求接口中埋点日志
  • 在 ARMS 后台根据供应商 Id,酒店 Id,请求维度等参数配置数据集
  • 对接 ARMS 接口,通过下钻的方式获取到数据。
  • 在内存中根据业务进行二次计算
  • 生成报表

image

调用第三方接口的 Status Code 监控

该场景用于我们对供应商酒店请求的状态码分析,主要使用方是运维和开发。本方案实现了 ARMS 对 Grafana 的对接,基本介绍如下:

  • 通过 Logtail 实时抓取 IIS 日志
  • 在 ARMS 后台配置好数据集
  • 在 Monitoring 项目中对接 ARMS 接口,并根据 simpleJson 接口规则实现 Grafana Data Source 对接。
    image
  • 为 SimpleJson 的 Search 接口定义 target 规则,并生成 target 与配置对应关系
  • 使用 ARMS 的下钻功能为 SimpleJson 的 Search 接口支持 Templating 功能
    image
  • 在 Grafana 中使用 Moniroing 提供的 simpleJson 接口实现展示数据
    image

点击了解 业务实时监控服务 ARMS

相关实践学习
通过云拨测对指定服务器进行Ping/DNS监测
本实验将通过云拨测对指定服务器进行Ping/DNS监测,评估网站服务质量和用户体验。
目录
打赏
0
0
0
1
5448
分享
相关文章
监控与日志分析:运维的双剑合璧
【6月更文挑战第21天】监控与日志分析在IT运维中至关重要。监控守护系统健康,通过性能指标、服务状态和安全事件预警确保稳定性;日志分析则用于问题追踪,通过错误、访问和安全日志定位故障。监控工具如Prometheus与日志分析工具如ELK堆栈协同工作,统一平台、合理告警、定期分析和团队协作是高效运维的关键。这两者的结合助力运维人员迅速响应和解决问题,维护系统稳定。
ClkLog 实践中的挑战:如何设计和实施有效的埋点指标
前端数据埋点要怎么做才能获取到有用的数据并对运营产生积极的作用,对于首次实施埋点及数据分析的工程师来说确实是个难点。网上很多文章讲的都是方法论和理论知识,真正实践的内容比较少,我们从一个案例来描述一下埋点要如何做。
ClkLog 实践中的挑战:如何设计和实施有效的埋点指标
阿里云故障洞察提效 50%,全栈可观测建设有哪些技术要点
本文分享了阿里云可观测平台服务作为全球分布的超大业务系统,同时也作为服务全球企业用户的可观测平台提供方,在故障洞察提效中遇到的业务挑战,以及 6 个关键技术点和 2 个应用案例。
21616 65
阿里云故障洞察提效 50%,全栈可观测建设有哪些技术要点
python数据分析——业务指标分析
业务指标分析是企业运营中不可或缺的一环,通过对各项关键指标的深入剖析,我们能够更好地了解企业的运营状况,发现潜在问题,进而制定相应的策略来优化业务流程、提升经营效率。 在业务指标分析中,我们首先要明确分析的目的和范围。是为了评估整体业务健康状况,还是针对某一具体环节进行优化?明确了目的后,我们需要收集相关的数据,这些数据可能来源于不同的业务系统和数据库,因此数据的整合和清洗也是分析过程中的重要步骤。 接下来,我们要选择合适的分析方法。比如,对于销售数据,我们可以采用时间序列分析来观察销售趋势;对于用户行为数据,我们可以使用用户画像和路径分析来洞察用户需求和行为习惯。
250 1
如何保障业务稳定性?一文详解蚂蚁业务智能可观测平台BOS
本文将从可观测性视角出发,分析云上云下业务稳定性的难点,介绍蚂蚁集团的BOS平台是如何建设完善的解决方案来解决这些实际的痛点难点,并通过多个实践案例分享企业与机构如何利用BOS平台来实现云上云下全链路可观测性的需求。
414 0
如何保障业务稳定性?一文详解蚂蚁业务智能可观测平台BOS
业务系统故障率居高不下:有哪些非常有效的治理大招?
业务系统故障率居高不下:有哪些非常有效的治理大招?
384 0
拍卖前端质量之 基于业务驱动的前端性能监控的有效实践
前端的本质价值是什么? 我认为是 给用户创造良好的交互体验。 前端性能对用户体验、对业务跳失率的影响,在业界已有共识,不言而喻。 以下详述测试视角,前端性能优化的解法,简言之即:从发现、分析、验证3方面驱动推进页面性能优化 并通过实际案例更生动描述。
410 1
化工企业舆情工作实施方案
化工,由于行业本身的特殊性往往自带关注。