网站系统告警哪家强

简介: 网站系统告警哪家强

image.jpeg

写在前面的话


19年设计过apm的告警功能,现在22年了,最近看到有关某智能运维公司的融资欺瞒史,想到各种ai智能化的场景,很多仅仅是以工具代替了人,以硬编码逻辑代替了人脑(并不是歧视人工智能,而是歧视那些以人工智能大忽悠薅社会主义羊毛割韭菜的公司),所以写了这篇文章。

用户访问指标检测的误区


智能告警?能把指标收集后针对阈值进行触发告警,就已经非常不错了。要是能支持对单个指标或多维度进行自定义告警,也就很牛逼了。

告警一般需要那些

告警名称


告警名称便于管理标识,一般可以用应用名+指标+类型来命名,比如 CMS- LCP

检测指标


顾名思义是指标

常见检测指标


  • JS错误数
  • JS错误率
  • 资源错误数
  • 资源错误率
  • 首次渲染平均时间
  • 页面加载平均耗时
  • LCP(largest_contentful_paint)
  • FID(first_input_delay)
  • CLS(cumulative_layout_shift)
  • FCP(first_contentful_paint)

触发条件


设置告警级别的触发条件。


  • 告警级别:包含紧急(红色)、重要(橙色)、警告(黄色)、无数据(灰色)、正常(绿色)五个等级,每个等级只能设置一个触发条件。
  • 触发条件:基于配置条件判断操作符和检测周期。若查询结果带单位,则提示单位进位后的结果。告警级别紧急(红色)、重要(橙色)、警告(黄色)基于配置条件判断操作符,说明如下:


e9fab7ec2719495b8d61735e9e5b2a90~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.png

告警级别无数据(灰色)、正常(绿色)基于配置检测周期,说明如下:


  • 检测周期=检测频率
  • 自定义检测周期=检测频率 * N


1.无数据(灰色):无数据状态支持「触发无数据事件」、「触发恢复事件」、「不触发事件」三种配置,需要手动配置无数据处理策略。


检测规则生效后,第一次检测无数据且持续无数据,不产生无数据告警事件;若检测有数据且在配置的自定义检测周期内,数据上报发生断档,则产生无数据告警事件。


2.正常(绿色):检测规则生效后,产生紧急、重要、警告异常事件后,在配置的自定义检测周期内,数据检测结果恢复正常,则产生恢复告警事件。


注意:恢复告警事件不受告警沉默限制。若未设置恢复告警事件检测周期,则告警事件不会恢复,且一直会出现在「事件」-「未恢复事件列表」中。检测频率: 当前检测规则的执行频率,即 检测周期,默认 1 分钟检测一次。


个人或者小公司该怎么选择告警


个人或者小公司因为公司资源投入不够,大多无法构建自己的性能体系,更无法去针对性的设置告警。如果不想系统裸奔,一般多会选择购买告警服务。


其他告警厂商,应该如何比对


其他告警厂商可能比较多,应该如何比对呢? 主要看:


1.告警支持的指标和维度


正常看来,至少应该能够允许针对以下指标进行告警


  • JS错误数
  • JS错误率
  • 资源错误数
  • 资源错误率
  • 首次渲染平均时间
  • 页面加载平均耗时
  • LCP(largest_contentful_paint)
  • FID(first_input_delay)
  • CLS(cumulative_layout_shift)
  • FCP(first_contentful_paint)


一般来说,至少要允许能够按照页面维度进行告警


  • 页面path
  • 请求
  • 动作

2.告警的时延


正常来看,应该是分钟级别告警,不过也可以根据实际成本适当方框。

3.告警方式

一般都支持:邮件/钉钉/企业微信等

4.告警沉默

对于无告警,要允许告警抑制或者不能重复告警



目录
相关文章
|
4月前
|
监控 安全 网络协议
|
7月前
|
运维 监控 算法
事件日志分析算法:提升上网行为管理软件的智能监控
随着互联网的快速发展,网络安全和上网行为管理变得越来越重要了。不少企业和组织为了维护网络的安全、稳定性,还有员工的工作效率,都开始使用上网行为管理软件。这些软件的作用就是监控、分析和控制员工的上网行为,帮助组织管理网络资源,以免潜在的网络威胁和数据泄漏。其中,事件日志分析算法发挥了关键作用,它们有各种各样的优点和用途,真的非常实用。接下来,就让我们来看看,事件日志分析算法在这方面有哪些厉害的地方以及怎么用吧!
159 0
|
9月前
|
运维 监控
WGCLOUD的巡检报告功能体验说明
作为一款专业的开源运维软件,巡检报告是必不可少的功能了,WGCLOUD也有巡检报告的
|
9月前
|
运维 监控
拨测平台的风险感知应用
从发现风险角度,我们经常会从监控、拨测、巡检、可观测性、演练、混沌工程等角度发现风险。今天理理思路,摘“监控、拨测、巡检、可观测性”4点做个简述,再看看风险感知场景的切入点。 结尾有技术交流群进群方式~
|
运维 程序员 数据安全/隐私保护
24小时稳定性爆肝测试!国内外5款远程控制软件大盘点
24小时稳定性爆肝测试!国内外5款远程控制软件大盘点
24小时稳定性爆肝测试!国内外5款远程控制软件大盘点
|
存储 安全
外贸营销邮件状态能否实现追踪?
邮件是外贸人跟进客户的重要方式,但时间久了大家都有感触,邮件太多,找起来实在不方便,有些邮件甚至会忘了回复,邮件发出去也不知道效果如何;而外贸老板或管理者更是苦恼,若员工离职,与客户的邮件跟进必定中断,也许会流失客户.
98 0
外贸营销邮件状态能否实现追踪?
|
人工智能 运维 Prometheus
搞定监控!我全靠这个超牛逼的告警管理平台
你可能也遇到过这样的场景: 在一个惬意的周六夜里,运维郭哥正在梦里神游,正美着呢,然而领导突然一通电话打过来,说服务器崩了,给你5分钟时间马上恢复! 毫无疑问,服务器出问题了,但郭哥没收到告警,错过了黄金抢救时间!还被领导先发现了问题! 于是郭哥背了锅,开始修复问题,时间一点一滴地逝去,领导时不时催一下进度,一个愉快的周末就这样没了! 试想一下,如果郭哥及时收到告警会怎么样?也许可以把故障影响降到最低,甚至可以在故障没发生前把服务器重启一下,神不知鬼不觉,然后悠闲地度过周末!
应用实时监控服务 ARMS 4 月功能新鲜快报
应用实时监控服务 ARMS 4 月功能新鲜快报来啦!快来点击查看~
应用实时监控服务 ARMS 4 月功能新鲜快报
应用实时监控服务 ARMS 12 月功能新鲜快报
应用实时监控服务 ARMS 12 月功能新鲜快报
应用实时监控服务 ARMS 12 月功能新鲜快报