「DataFlux」关键事件,助你掌控IT监控的“蝴蝶效应”

简介:

DataFlux是上海驻云自研发的一套大数据统一分析平台,可以通过对任何来源、类型、规模的实时数据进行监控、分析和处理,释放数据价值。

DataFlux产品有一个功能点——关键事件,功能很强大,但是用户在实际使用的过程中对于其掌握不是很好。为此,专门以一篇文章的内容介绍下为什么设计这个关键事件功能以及关键事件的实际使用的一些举例。
image

DataFlux作为一个从各个机器,软件,系统,硬件中可以获取实时数据的平台,能够很好的帮助客户去计算,分析实时的各种数据,但是我们往往忽略了数据指标的变化可能是有原因的,而这些原因可能会因为信息不对称或者实际使用者的认知差异,使得我们在得出结论的时候忽略了关键事件,不管这个关键事件是内部的还是外部的。

举个例子来说,当一个运维工程师发现系统出现异常,如数据库出现了异常的IOPS,往往需要花非常多得时间去找到原因,但实际上的原因可能是开发工程师刚刚发布更新了一个错误的代码。所以当这个关键事件不被掌握的时候,信息的不对称使得我们会停留在自己所能看到的部分。一般情况下,IT系统在稳定运行过程中,没有一个外部的改变,通常是不会有问题的,90%的故障都是变更引起。
image

而传统ITIL为了解决这个问题的办法是通过流程管理控制,如引入一个概念叫做变更管理,但是这种行为对于执行者的要求非常高,并且实际上往往大部分企业无法做到有效的记录,使得这个例子导致的系统恢复时间非常长。那DataFlux的关键事件功能怎么解决这个问题呢?

很简单,只要同时收入代码Commit,或者代码集成发布Pipeline,甚至是容器镜像更新的行为,把这些事件作为关键事件,我们就能过从时间发生的先后顺序来快速定位这些关键事件,信息不对称解决了,一个运维工程师就能瞬间发现是某个程序员的代码导致了这次故障,就可以迅速联系解决。
image

DataFlux关键事件和变更管理最大的区别是,当我们将关键事件集成后,实际上记录的每个行为本身就会会自动形成这些关键事件,运维工程师可以快速的将指标异常的故障和这些关键事件以时间维度关联起来,迅速找到导致异常的原因。很多时候异常告警往往并不是最关键的,最关键的是发现导致异常的原因,很多传统的运维理念只是停留在发现异常,而没有上升到定位异常的原因,这就是这个关键事件功能在IT监控领域的价值。

实际上在不同的商业场景中我们会发现关键事件往往影响着很多事情,而很多商业领域的关键事件甚至要跟外部事件联系起来,比如你的店铺流量突增,可能是因为微博上你的产品关键字上了热搜;记录淘宝广告位的变化,可以让你发现淘宝是不是有效的投放了广告;某个岗位的人员变更,对于后期业务的影响等等。如果我们把可能影响我们业务的内外部关键事件都收集起来,那么就能更快的为这些事件做出反应,我们也许就能发现那些关键的“蝴蝶”,了解蝴蝶效应是如何发生的。

image

为了方便大家使用这个功能,关键事件本身也支持关联外部URL,以及增加详细描述,方便我们可以完善对整个关键事件的描述,让最终使用数据的各种岗位的人可以更全面的了解这些事件本身。详细关于关键事件的使用请参考DataFlux的帮助。

地址:
https://help.dataflux.cn/doc/50c55e9eb14fa5ec02b2f268f56019299834e5ae

相关文章
|
数据采集 安全 API
安全工具的无限联动——真香系列来啦~
安全工具的无限联动——真香系列来啦~
681 0
|
3月前
|
开发者 缓存 数据库
【性能奇迹】Wicket应用的极速重生:揭秘那些让开发者心跳加速的调优秘技!
【8月更文挑战第31天】在软件开发中,性能优化是确保应用快速响应和高效运行的关键。本书《性能调优:Apache Wicket应用的速度提升秘籍》详细介绍了如何优化Apache Wicket应用,包括代码优化、资源管理、数据库查询优化、缓存策略及服务器配置等方面。通过减少不必要的组件渲染、优化SQL查询、使用缓存和调整服务器设置等方法,本书帮助开发者显著提升Wicket应用的性能,确保其在高并发和数据密集型场景下的稳定性和响应速度。
44 0
|
3月前
|
存储 数据采集 Prometheus
Prometheus 监控系统常见技术问题大曝光!解决之道让你意想不到!
【8月更文挑战第5天】Prometheus是一款强大的监控工具,但在应用中常遇技术难题。案例一中,因配置错误导致CPU使用率数据不准,调整`metrics_path`可解决。案例二涉及告警规则不触发,修正表达式即可。案例三关于数据存储溢出,设置保留策略如`30d`能缓解。案例四是监控指标丢失,增强网络稳定性和添加重试机制有助于恢复。面对这些问题,细致排查与合理配置是关键。
329 0
|
6月前
|
监控 数据安全/隐私保护 iOS开发
服务器监控新利器:ServerBee带你看透服务器运行状态
服务器监控新利器:ServerBee带你看透服务器运行状态
150 0
|
存储 安全 区块链
DAPP持币生息系统开发成熟源码|详情规则|技术原理
“Web3.0”被用来描述互联网潜在的下一阶段,一个运行在“区块链”技术之上的“去中心化”的互联网
|
6月前
|
存储 安全 区块链
Matic马蹄链Meforce佛萨奇3.0系统开发设计及方案
信大家对智能合约的优点和缺点是什么,以及为什么智能合约很重要,有了一定的了解
|
监控 前端开发
揭秘跨部门沟通的秘密武器:让不归你管的人主动配合你的绝妙方法!
揭秘跨部门沟通的秘密武器:让不归你管的人主动配合你的绝妙方法!
114 0
|
前端开发 安全 数据挖掘
不良事件报告系统源码,支持PDCA持续改进,做到闭环管理
技术架构:前后端分离,仓储模式 开发语言:PHP 开发工具:vscode 前端框架:vue2+element 后端框架:laravel8 数 据 库:mysql5.7
124 0
|
Prometheus 监控 Kubernetes
告别低效繁琐的Prometheus告警管理,Nightingale助你快速响应故障!
Prometheus的告警规则、记录规则都是采用配置文件管理,适合奉行Infrastructure as Code的公司或团队内部使用。但如果要把监控能力开放给全公司,就要支持协同操作的 UI,让各个团队互不干扰的同时共享成果
714 0
|
消息中间件 JavaScript Java
老板,明年我来落地链路追踪-实现降本增效 | 上篇
老板,明年我来落地链路追踪-实现降本增效 | 上篇
567 0
老板,明年我来落地链路追踪-实现降本增效 | 上篇