「DataFlux」关键事件,助你掌控IT监控的“蝴蝶效应”

简介:

DataFlux是上海驻云自研发的一套大数据统一分析平台,可以通过对任何来源、类型、规模的实时数据进行监控、分析和处理,释放数据价值。

DataFlux产品有一个功能点——关键事件,功能很强大,但是用户在实际使用的过程中对于其掌握不是很好。为此,专门以一篇文章的内容介绍下为什么设计这个关键事件功能以及关键事件的实际使用的一些举例。
image

DataFlux作为一个从各个机器,软件,系统,硬件中可以获取实时数据的平台,能够很好的帮助客户去计算,分析实时的各种数据,但是我们往往忽略了数据指标的变化可能是有原因的,而这些原因可能会因为信息不对称或者实际使用者的认知差异,使得我们在得出结论的时候忽略了关键事件,不管这个关键事件是内部的还是外部的。

举个例子来说,当一个运维工程师发现系统出现异常,如数据库出现了异常的IOPS,往往需要花非常多得时间去找到原因,但实际上的原因可能是开发工程师刚刚发布更新了一个错误的代码。所以当这个关键事件不被掌握的时候,信息的不对称使得我们会停留在自己所能看到的部分。一般情况下,IT系统在稳定运行过程中,没有一个外部的改变,通常是不会有问题的,90%的故障都是变更引起。
image

而传统ITIL为了解决这个问题的办法是通过流程管理控制,如引入一个概念叫做变更管理,但是这种行为对于执行者的要求非常高,并且实际上往往大部分企业无法做到有效的记录,使得这个例子导致的系统恢复时间非常长。那DataFlux的关键事件功能怎么解决这个问题呢?

很简单,只要同时收入代码Commit,或者代码集成发布Pipeline,甚至是容器镜像更新的行为,把这些事件作为关键事件,我们就能过从时间发生的先后顺序来快速定位这些关键事件,信息不对称解决了,一个运维工程师就能瞬间发现是某个程序员的代码导致了这次故障,就可以迅速联系解决。
image

DataFlux关键事件和变更管理最大的区别是,当我们将关键事件集成后,实际上记录的每个行为本身就会会自动形成这些关键事件,运维工程师可以快速的将指标异常的故障和这些关键事件以时间维度关联起来,迅速找到导致异常的原因。很多时候异常告警往往并不是最关键的,最关键的是发现导致异常的原因,很多传统的运维理念只是停留在发现异常,而没有上升到定位异常的原因,这就是这个关键事件功能在IT监控领域的价值。

实际上在不同的商业场景中我们会发现关键事件往往影响着很多事情,而很多商业领域的关键事件甚至要跟外部事件联系起来,比如你的店铺流量突增,可能是因为微博上你的产品关键字上了热搜;记录淘宝广告位的变化,可以让你发现淘宝是不是有效的投放了广告;某个岗位的人员变更,对于后期业务的影响等等。如果我们把可能影响我们业务的内外部关键事件都收集起来,那么就能更快的为这些事件做出反应,我们也许就能发现那些关键的“蝴蝶”,了解蝴蝶效应是如何发生的。

image

为了方便大家使用这个功能,关键事件本身也支持关联外部URL,以及增加详细描述,方便我们可以完善对整个关键事件的描述,让最终使用数据的各种岗位的人可以更全面的了解这些事件本身。详细关于关键事件的使用请参考DataFlux的帮助。

地址:
https://help.dataflux.cn/doc/50c55e9eb14fa5ec02b2f268f56019299834e5ae

相关文章
|
存储 缓存 Linux
如何在Linux环境下对pip的缓存地址进行修改
如何在Linux环境下对pip的缓存地址进行修改
2734 0
|
Linux 开发者
交叉编译工具链的下载与安装
交叉编译工具链的下载与安装
2717 1
|
机器学习/深度学习 数据采集 编解码
优酷老片修复算法,超高清重温童年回忆
优酷老片修复算法,超高清重温童年回忆
734 0
优酷老片修复算法,超高清重温童年回忆
|
9月前
|
监控 中间件 关系型数据库
课时8:阿里云互联网中间件:让企业实现业务云化持续创新
阿里云互联网中间件包含EDAS、DRDS、MQ、ARMS和CSB五大核心产品,为企业提供稳定高效的分布式应用服务。历经阿里巴巴多年打磨,支持海量并发与复杂架构,助力企业轻松实现业务云化及持续创新。通过这些中间件,企业可以高效开发、托管分布式应用,应对不确定的业务需求,推动数字化转型。
326 0
|
弹性计算 负载均衡 监控
阿里云slb的slb-api介绍
【10月更文挑战第17天】
546 1
|
8月前
|
SQL 安全 测试技术
2025接口测试全攻略:高并发、安全防护与六大工具实战指南
本文探讨高并发稳定性验证、安全防护实战及六大工具(Postman、RunnerGo、Apipost、JMeter、SoapUI、Fiddler)选型指南,助力构建未来接口测试体系。接口测试旨在验证数据传输、参数合法性、错误处理能力及性能安全性,其重要性体现在早期发现问题、保障系统稳定和支撑持续集成。常用方法包括功能、性能、安全性及兼容性测试,典型场景涵盖前后端分离开发、第三方服务集成与数据一致性检查。选择合适的工具需综合考虑需求与团队协作等因素。
1211 24
|
JavaScript 前端开发 测试技术
前端全栈之路Deno篇(五):如何快速创建 WebSocket 服务端应用 + 客户端应用 - 可能是2025最佳的Websocket全栈实时应用框架
本文介绍了如何使用Deno 2.0快速构建WebSocket全栈应用,包括服务端和客户端的创建。通过一个简单的代码示例,展示了Deno在WebSocket实现中的便捷与强大,无需额外依赖,即可轻松搭建具备基本功能的WebSocket应用。Deno 2.0被认为是最佳的WebSocket全栈应用JS运行时,适合全栈开发者学习和使用。
747 7
|
存储 SQL 数据库
存储过程定义
存储过程是一组为了完成特定功能的SQL语句集合。 存储过程在使用过程中是将常用或者复杂的工作,预先使用SQL语句写好并用一个指定的名称存储起来,这个过程经编译和优化后存储在数据库服务器中。当需要使用该存储过程时,只需要调用它即可。存储过程在执行上比传统SQL速度更快、执行效率更高。
|
前端开发 中间件
React Proxy 详细流程与配置方式(webpack、setupProxy.js、package.json)
React Proxy 详细流程与配置方式(webpack、setupProxy.js、package.json)
568 0
|
网络协议 关系型数据库 MySQL
MySQL报ERROR 2002 (HY000)解决
通过上述步骤,可以有效地解决MySQL连接时出现的 `ERROR 2002 (HY000)`错误。这些步骤包括检查和启动MySQL服务、配置文件检查、套接字文件检查、日志文件分析、进程检查、防火墙设置、客户端配置和最终的MySQL重装。确保每个步骤都按顺序执行,有助于快速定位和解决问题,使MySQL服务器恢复正常运行。
8875 0