网站系统告警哪家强

简介: 网站系统告警哪家强

image.jpeg

写在前面的话


19年设计过apm的告警功能,现在22年了,最近看到有关某智能运维公司的融资欺瞒史,想到各种ai智能化的场景,很多仅仅是以工具代替了人,以硬编码逻辑代替了人脑(并不是歧视人工智能,而是歧视那些以人工智能大忽悠薅社会主义羊毛割韭菜的公司),所以写了这篇文章。

用户访问指标检测的误区


智能告警?能把指标收集后针对阈值进行触发告警,就已经非常不错了。要是能支持对单个指标或多维度进行自定义告警,也就很牛逼了。

告警一般需要那些

告警名称


告警名称便于管理标识,一般可以用应用名+指标+类型来命名,比如 CMS- LCP

检测指标


顾名思义是指标

常见检测指标


  • JS错误数
  • JS错误率
  • 资源错误数
  • 资源错误率
  • 首次渲染平均时间
  • 页面加载平均耗时
  • LCP(largest_contentful_paint)
  • FID(first_input_delay)
  • CLS(cumulative_layout_shift)
  • FCP(first_contentful_paint)

触发条件


设置告警级别的触发条件。


  • 告警级别:包含紧急(红色)、重要(橙色)、警告(黄色)、无数据(灰色)、正常(绿色)五个等级,每个等级只能设置一个触发条件。
  • 触发条件:基于配置条件判断操作符和检测周期。若查询结果带单位,则提示单位进位后的结果。告警级别紧急(红色)、重要(橙色)、警告(黄色)基于配置条件判断操作符,说明如下:


e9fab7ec2719495b8d61735e9e5b2a90~tplv-k3u1fbpfcp-zoom-in-crop-mark_4536_0_0_0.png

告警级别无数据(灰色)、正常(绿色)基于配置检测周期,说明如下:


  • 检测周期=检测频率
  • 自定义检测周期=检测频率 * N


1.无数据(灰色):无数据状态支持「触发无数据事件」、「触发恢复事件」、「不触发事件」三种配置,需要手动配置无数据处理策略。


检测规则生效后,第一次检测无数据且持续无数据,不产生无数据告警事件;若检测有数据且在配置的自定义检测周期内,数据上报发生断档,则产生无数据告警事件。


2.正常(绿色):检测规则生效后,产生紧急、重要、警告异常事件后,在配置的自定义检测周期内,数据检测结果恢复正常,则产生恢复告警事件。


注意:恢复告警事件不受告警沉默限制。若未设置恢复告警事件检测周期,则告警事件不会恢复,且一直会出现在「事件」-「未恢复事件列表」中。检测频率: 当前检测规则的执行频率,即 检测周期,默认 1 分钟检测一次。


个人或者小公司该怎么选择告警


个人或者小公司因为公司资源投入不够,大多无法构建自己的性能体系,更无法去针对性的设置告警。如果不想系统裸奔,一般多会选择购买告警服务。


其他告警厂商,应该如何比对


其他告警厂商可能比较多,应该如何比对呢? 主要看:


1.告警支持的指标和维度


正常看来,至少应该能够允许针对以下指标进行告警


  • JS错误数
  • JS错误率
  • 资源错误数
  • 资源错误率
  • 首次渲染平均时间
  • 页面加载平均耗时
  • LCP(largest_contentful_paint)
  • FID(first_input_delay)
  • CLS(cumulative_layout_shift)
  • FCP(first_contentful_paint)


一般来说,至少要允许能够按照页面维度进行告警


  • 页面path
  • 请求
  • 动作

2.告警的时延


正常来看,应该是分钟级别告警,不过也可以根据实际成本适当方框。

3.告警方式

一般都支持:邮件/钉钉/企业微信等

4.告警沉默

对于无告警,要允许告警抑制或者不能重复告警



目录
相关文章
|
5月前
|
监控 安全 数据挖掘
如何精准监控员工上网:这三款员工上网行为监控告诉你
本文介绍了三款员工上网行为监控软件,以增强企业网络安全性。WorkWin提供USB管理、带宽控制及远程管理,确保资源有效分配和安全。InterGuard专注敏感数据检测、违规行为监控,即时消息审查,保障企业安全。而Hubstaff侧重工时追踪、活动记录和应用使用报告,优化工作效率和团队管理。这些工具旨在平衡安全与效率,助力企业保护资源和提升生产力。
464 3
|
5月前
|
监控 安全 数据挖掘
这些屏幕监控软件一键轻松监控员工,速来试用
本文介绍了几款顶级屏幕监控软件,如WorkWin和Teramind,用于提升团队效率和保障企业安全。WorkWin提供远程控制、USB管理、权限分配等功能,确保合规运营和信息安全。Teramind能监控员工应用使用,发送实时警报,并进行数据分析。而ActivTrak则有实时屏幕监控和详细分析报告,帮助管理者优化工作流程。这些工具助力企业有效管理团队,提高生产力。
163 4
|
3月前
|
监控 机器人 Shell
Nightingale——夜莺监控系统部署企业微信机器人告警系【四】
Nightingale——夜莺监控系统部署企业微信机器人告警系【四】
144 1
Nightingale——夜莺监控系统部署企业微信机器人告警系【四】
|
6月前
|
监控 安全 数据管理
电脑监控你了解多少丨员工上网行为监控排行
随着互联网普及,工作与生活界限模糊,企业使用员工上网行为监控软件以提高效率。本文推荐三款工具:WorkWin强调完整监控与时间统计,助力资源分配和安全管控;Hubstaff专注于时间管理与项目跟踪,适合远程团队;Veriato提供全方位监控与分析,保障数据安全。这些软件旨在优化工作流程,提升企业效率和安全性。
129 2
|
运维 监控
拨测平台的风险感知应用
从发现风险角度,我们经常会从监控、拨测、巡检、可观测性、演练、混沌工程等角度发现风险。今天理理思路,摘“监控、拨测、巡检、可观测性”4点做个简述,再看看风险感知场景的切入点。 结尾有技术交流群进群方式~
|
运维 监控
WGCLOUD的巡检报告功能体验说明
作为一款专业的开源运维软件,巡检报告是必不可少的功能了,WGCLOUD也有巡检报告的
|
运维 监控 Kubernetes
【夜莺监控】告警管理,香!
【夜莺监控】告警管理,香!
|
弹性计算 监控
直播预告丨阿里云佐井:关注预警6要素,帮助用户实现精准监控和告警
通过监控预警,把问题扼杀在摇篮里,减少故障带来的业务损失。
直播预告丨阿里云佐井:关注预警6要素,帮助用户实现精准监控和告警
|
人工智能 运维 Prometheus
搞定监控!我全靠这个超牛逼的告警管理平台
你可能也遇到过这样的场景: 在一个惬意的周六夜里,运维郭哥正在梦里神游,正美着呢,然而领导突然一通电话打过来,说服务器崩了,给你5分钟时间马上恢复! 毫无疑问,服务器出问题了,但郭哥没收到告警,错过了黄金抢救时间!还被领导先发现了问题! 于是郭哥背了锅,开始修复问题,时间一点一滴地逝去,领导时不时催一下进度,一个愉快的周末就这样没了! 试想一下,如果郭哥及时收到告警会怎么样?也许可以把故障影响降到最低,甚至可以在故障没发生前把服务器重启一下,神不知鬼不觉,然后悠闲地度过周末!
应用实时监控服务 ARMS 4 月功能新鲜快报
应用实时监控服务 ARMS 4 月功能新鲜快报来啦!快来点击查看~
应用实时监控服务 ARMS 4 月功能新鲜快报