「DataFlux」关键事件,助你掌控IT监控的“蝴蝶效应”

简介:

DataFlux是上海驻云自研发的一套大数据统一分析平台,可以通过对任何来源、类型、规模的实时数据进行监控、分析和处理,释放数据价值。

DataFlux产品有一个功能点——关键事件,功能很强大,但是用户在实际使用的过程中对于其掌握不是很好。为此,专门以一篇文章的内容介绍下为什么设计这个关键事件功能以及关键事件的实际使用的一些举例。
image

DataFlux作为一个从各个机器,软件,系统,硬件中可以获取实时数据的平台,能够很好的帮助客户去计算,分析实时的各种数据,但是我们往往忽略了数据指标的变化可能是有原因的,而这些原因可能会因为信息不对称或者实际使用者的认知差异,使得我们在得出结论的时候忽略了关键事件,不管这个关键事件是内部的还是外部的。

举个例子来说,当一个运维工程师发现系统出现异常,如数据库出现了异常的IOPS,往往需要花非常多得时间去找到原因,但实际上的原因可能是开发工程师刚刚发布更新了一个错误的代码。所以当这个关键事件不被掌握的时候,信息的不对称使得我们会停留在自己所能看到的部分。一般情况下,IT系统在稳定运行过程中,没有一个外部的改变,通常是不会有问题的,90%的故障都是变更引起。
image

而传统ITIL为了解决这个问题的办法是通过流程管理控制,如引入一个概念叫做变更管理,但是这种行为对于执行者的要求非常高,并且实际上往往大部分企业无法做到有效的记录,使得这个例子导致的系统恢复时间非常长。那DataFlux的关键事件功能怎么解决这个问题呢?

很简单,只要同时收入代码Commit,或者代码集成发布Pipeline,甚至是容器镜像更新的行为,把这些事件作为关键事件,我们就能过从时间发生的先后顺序来快速定位这些关键事件,信息不对称解决了,一个运维工程师就能瞬间发现是某个程序员的代码导致了这次故障,就可以迅速联系解决。
image

DataFlux关键事件和变更管理最大的区别是,当我们将关键事件集成后,实际上记录的每个行为本身就会会自动形成这些关键事件,运维工程师可以快速的将指标异常的故障和这些关键事件以时间维度关联起来,迅速找到导致异常的原因。很多时候异常告警往往并不是最关键的,最关键的是发现导致异常的原因,很多传统的运维理念只是停留在发现异常,而没有上升到定位异常的原因,这就是这个关键事件功能在IT监控领域的价值。

实际上在不同的商业场景中我们会发现关键事件往往影响着很多事情,而很多商业领域的关键事件甚至要跟外部事件联系起来,比如你的店铺流量突增,可能是因为微博上你的产品关键字上了热搜;记录淘宝广告位的变化,可以让你发现淘宝是不是有效的投放了广告;某个岗位的人员变更,对于后期业务的影响等等。如果我们把可能影响我们业务的内外部关键事件都收集起来,那么就能更快的为这些事件做出反应,我们也许就能发现那些关键的“蝴蝶”,了解蝴蝶效应是如何发生的。

image

为了方便大家使用这个功能,关键事件本身也支持关联外部URL,以及增加详细描述,方便我们可以完善对整个关键事件的描述,让最终使用数据的各种岗位的人可以更全面的了解这些事件本身。详细关于关键事件的使用请参考DataFlux的帮助。

地址:
https://help.dataflux.cn/doc/50c55e9eb14fa5ec02b2f268f56019299834e5ae

相关文章
冬至物流行业忙碌不停,何种办公软件能强化质量监控?
冬至期间,电商促销使物流行业异常繁忙,高效的团队协作软件成为物流企业胜出的关键。本文从J人物流公司视角,盘点6款办公软件,重点介绍板栗看板的可视化、协同编辑和定制化功能,并挖掘5款国外小众软件如Zoho Projects、Backlog、Jira Service Management和Confluence,展现其在项目管理、任务划分、服务台优化和知识共享等方面的优势。通过合理选择和应用这些软件,物流企业可在冬至大忙季及日常工作中实现流程优化与效率提升,为客户提供更优质的物流服务,推动行业发展。
46 3
信息打点-红蓝队自动化项目&资产侦察&武器库部署&企查产权&网络空间
信息打点-红蓝队自动化项目&资产侦察&武器库部署&企查产权&网络空间
130 0
揭秘跨部门沟通的秘密武器:让不归你管的人主动配合你的绝妙方法!
揭秘跨部门沟通的秘密武器:让不归你管的人主动配合你的绝妙方法!
171 0
不良事件报告系统源码,支持PDCA持续改进,做到闭环管理
技术架构:前后端分离,仓储模式 开发语言:PHP 开发工具:vscode 前端框架:vue2+element 后端框架:laravel8 数 据 库:mysql5.7
152 0
告别低效繁琐的Prometheus告警管理,Nightingale助你快速响应故障!
Prometheus的告警规则、记录规则都是采用配置文件管理,适合奉行Infrastructure as Code的公司或团队内部使用。但如果要把监控能力开放给全公司,就要支持协同操作的 UI,让各个团队互不干扰的同时共享成果
740 0
前端同学在可观测性的启蒙与初试探--快速实现根因分析/业务大盘
前端同学在可观测性的启蒙与初试探--快速实现根因分析/业务大盘
312 0
前端同学在可观测性的启蒙与初试探--快速实现根因分析/业务大盘
搞定监控!我全靠这个超牛逼的告警管理平台
你可能也遇到过这样的场景: 在一个惬意的周六夜里,运维郭哥正在梦里神游,正美着呢,然而领导突然一通电话打过来,说服务器崩了,给你5分钟时间马上恢复! 毫无疑问,服务器出问题了,但郭哥没收到告警,错过了黄金抢救时间!还被领导先发现了问题! 于是郭哥背了锅,开始修复问题,时间一点一滴地逝去,领导时不时催一下进度,一个愉快的周末就这样没了! 试想一下,如果郭哥及时收到告警会怎么样?也许可以把故障影响降到最低,甚至可以在故障没发生前把服务器重启一下,神不知鬼不觉,然后悠闲地度过周末!
拍卖前端质量之 基于业务驱动的前端性能监控的有效实践
前端的本质价值是什么? 我认为是 给用户创造良好的交互体验。 前端性能对用户体验、对业务跳失率的影响,在业界已有共识,不言而喻。 以下详述测试视角,前端性能优化的解法,简言之即:从发现、分析、验证3方面驱动推进页面性能优化 并通过实际案例更生动描述。
408 1
应用实时监控服务 ARMS 4 月功能新鲜快报
应用实时监控服务 ARMS 4 月功能新鲜快报来啦!快来点击查看~
应用实时监控服务 ARMS 4 月功能新鲜快报

热门文章

最新文章