「DataFlux」关键事件,助你掌控IT监控的“蝴蝶效应”

简介:

DataFlux是上海驻云自研发的一套大数据统一分析平台,可以通过对任何来源、类型、规模的实时数据进行监控、分析和处理,释放数据价值。

DataFlux产品有一个功能点——关键事件,功能很强大,但是用户在实际使用的过程中对于其掌握不是很好。为此,专门以一篇文章的内容介绍下为什么设计这个关键事件功能以及关键事件的实际使用的一些举例。
image

DataFlux作为一个从各个机器,软件,系统,硬件中可以获取实时数据的平台,能够很好的帮助客户去计算,分析实时的各种数据,但是我们往往忽略了数据指标的变化可能是有原因的,而这些原因可能会因为信息不对称或者实际使用者的认知差异,使得我们在得出结论的时候忽略了关键事件,不管这个关键事件是内部的还是外部的。

举个例子来说,当一个运维工程师发现系统出现异常,如数据库出现了异常的IOPS,往往需要花非常多得时间去找到原因,但实际上的原因可能是开发工程师刚刚发布更新了一个错误的代码。所以当这个关键事件不被掌握的时候,信息的不对称使得我们会停留在自己所能看到的部分。一般情况下,IT系统在稳定运行过程中,没有一个外部的改变,通常是不会有问题的,90%的故障都是变更引起。
image

而传统ITIL为了解决这个问题的办法是通过流程管理控制,如引入一个概念叫做变更管理,但是这种行为对于执行者的要求非常高,并且实际上往往大部分企业无法做到有效的记录,使得这个例子导致的系统恢复时间非常长。那DataFlux的关键事件功能怎么解决这个问题呢?

很简单,只要同时收入代码Commit,或者代码集成发布Pipeline,甚至是容器镜像更新的行为,把这些事件作为关键事件,我们就能过从时间发生的先后顺序来快速定位这些关键事件,信息不对称解决了,一个运维工程师就能瞬间发现是某个程序员的代码导致了这次故障,就可以迅速联系解决。
image

DataFlux关键事件和变更管理最大的区别是,当我们将关键事件集成后,实际上记录的每个行为本身就会会自动形成这些关键事件,运维工程师可以快速的将指标异常的故障和这些关键事件以时间维度关联起来,迅速找到导致异常的原因。很多时候异常告警往往并不是最关键的,最关键的是发现导致异常的原因,很多传统的运维理念只是停留在发现异常,而没有上升到定位异常的原因,这就是这个关键事件功能在IT监控领域的价值。

实际上在不同的商业场景中我们会发现关键事件往往影响着很多事情,而很多商业领域的关键事件甚至要跟外部事件联系起来,比如你的店铺流量突增,可能是因为微博上你的产品关键字上了热搜;记录淘宝广告位的变化,可以让你发现淘宝是不是有效的投放了广告;某个岗位的人员变更,对于后期业务的影响等等。如果我们把可能影响我们业务的内外部关键事件都收集起来,那么就能更快的为这些事件做出反应,我们也许就能发现那些关键的“蝴蝶”,了解蝴蝶效应是如何发生的。

image

为了方便大家使用这个功能,关键事件本身也支持关联外部URL,以及增加详细描述,方便我们可以完善对整个关键事件的描述,让最终使用数据的各种岗位的人可以更全面的了解这些事件本身。详细关于关键事件的使用请参考DataFlux的帮助。

地址:
https://help.dataflux.cn/doc/50c55e9eb14fa5ec02b2f268f56019299834e5ae

相关文章
|
数据采集 安全 API
安全工具的无限联动——真香系列来啦~
安全工具的无限联动——真香系列来啦~
650 0
|
2月前
|
机器学习/深度学习 人工智能 运维
"颠覆传统运维!揭秘阿里云AIGC如何化身运维界超级大脑,让故障预警、智能告警不再是梦,运维大神之路从此开启!"
【8月更文挑战第14天】随着AI技术的发展,AIGC正革新依赖人工经验的传统运维行业。阿里云凭借其领先的云计算能力和AI服务生态,为运维智能化提供了坚实基础。通过分析历史数据和系统日志,AIGC能自动发现并预测故障,大幅提升运维效率。例如,结合阿里云SLS和PAI,可构建智能告警系统,实现异常检测和实时预警。随着AIGC技术的进步,运维领域将迎来全面智能化转型,开启运维新时代。
100 3
|
2月前
|
监控 Linux Shell
"揭秘!一键掌控Linux服务器健康的秘密武器——超实用系统检查脚本,让你的服务器稳如老狗,告别宕机烦恼!"
【8月更文挑战第14天】服务器宕机或资源耗尽会严重影响业务。为此,你需要一个Linux系统检查脚本来守护服务器健康。它可以自动检测潜在问题如磁盘满载、内存泄漏等,避免服务中断。脚本应包括磁盘空间、内存/CPU使用、系统时间准确性、关键服务状态及系统日志分析等检查项。通过编写并定期运行这样的脚本,可以显著提高服务器的稳定性和可靠性。
45 1
|
2月前
|
开发者 缓存 数据库
【性能奇迹】Wicket应用的极速重生:揭秘那些让开发者心跳加速的调优秘技!
【8月更文挑战第31天】在软件开发中,性能优化是确保应用快速响应和高效运行的关键。本书《性能调优:Apache Wicket应用的速度提升秘籍》详细介绍了如何优化Apache Wicket应用,包括代码优化、资源管理、数据库查询优化、缓存策略及服务器配置等方面。通过减少不必要的组件渲染、优化SQL查询、使用缓存和调整服务器设置等方法,本书帮助开发者显著提升Wicket应用的性能,确保其在高并发和数据密集型场景下的稳定性和响应速度。
39 0
|
3月前
|
消息中间件 Android开发 开发者
🔍深度剖析Android内存泄漏,让你的App远离崩溃边缘,稳如老狗!🐶
【7月更文挑战第28天】在 Android 开发中,内存管理至关重要。内存泄漏可悄无声息地累积,最终导致应用崩溃或性能下滑。它通常由不正确地持有 Activity 或 Fragment 的引用引起。常见原因包括静态变量持有组件引用、非静态内部类误用、Handler 使用不当、资源未关闭及集合对象未清理。使用 Android Studio Profiler 和 LeakCanary 可检测泄漏,修复方法涉及使用弱引用、改用静态内部类、妥善管理 Handler 和及时释放资源。良好的内存管理是保证应用稳定性的基石。
72 4
|
2月前
|
存储 数据采集 Prometheus
Prometheus 监控系统常见技术问题大曝光!解决之道让你意想不到!
【8月更文挑战第5天】Prometheus是一款强大的监控工具,但在应用中常遇技术难题。案例一中,因配置错误导致CPU使用率数据不准,调整`metrics_path`可解决。案例二涉及告警规则不触发,修正表达式即可。案例三关于数据存储溢出,设置保留策略如`30d`能缓解。案例四是监控指标丢失,增强网络稳定性和添加重试机制有助于恢复。面对这些问题,细致排查与合理配置是关键。
265 0
|
监控 前端开发
揭秘跨部门沟通的秘密武器:让不归你管的人主动配合你的绝妙方法!
揭秘跨部门沟通的秘密武器:让不归你管的人主动配合你的绝妙方法!
110 0
|
Prometheus 监控 Kubernetes
告别低效繁琐的Prometheus告警管理,Nightingale助你快速响应故障!
Prometheus的告警规则、记录规则都是采用配置文件管理,适合奉行Infrastructure as Code的公司或团队内部使用。但如果要把监控能力开放给全公司,就要支持协同操作的 UI,让各个团队互不干扰的同时共享成果
702 0
|
人工智能 运维 Prometheus
搞定监控!我全靠这个超牛逼的告警管理平台
你可能也遇到过这样的场景: 在一个惬意的周六夜里,运维郭哥正在梦里神游,正美着呢,然而领导突然一通电话打过来,说服务器崩了,给你5分钟时间马上恢复! 毫无疑问,服务器出问题了,但郭哥没收到告警,错过了黄金抢救时间!还被领导先发现了问题! 于是郭哥背了锅,开始修复问题,时间一点一滴地逝去,领导时不时催一下进度,一个愉快的周末就这样没了! 试想一下,如果郭哥及时收到告警会怎么样?也许可以把故障影响降到最低,甚至可以在故障没发生前把服务器重启一下,神不知鬼不觉,然后悠闲地度过周末!
|
安全 Java C++
消灭“脑细胞杀手”,阿里专家带你深入C++对象的生命周期管理
C/C++的指针一直是令人又爱又恨的特性。围绕指针产生了许许多多优雅的数据结构和系统实现,但又滋生了不少“脑细胞杀手”——内存Bug。如何通过指针管理C++中对象,如何管理对象的生命周期呢?本文中,阿里巴巴高级开发工程师付哲就为大家分享《C++对象的生命周期管理》。
5738 0