• 无效告警优化实践总结

    导致未来出现大面积的死循环引发故障最后告警的处理&xff0c;在心态上要做到&xff1a;凡事最好能在不疑处有疑&xff0c;不能在有疑处不疑。参考&引用《SRC&xff1a;Google运维解密》《MTTR/MTTF/MTBF图解》&xff1a;...
    文章 2021-11-12 31浏览量
  • 分布式监控系统Zabbix3.2给异常添加邮件报警

    默认信息:告警主机:{HOSTNAME1} 告警时间:{EVENT.DATE}{EVENT.TIME} 告警等级:{TRIGGER.SEVERITY} 告警信息:{TRIGGER.NAME} 告警项目:{TRIGGER.KEY1} 问题详情:{ITEM.NAME}:{ITEM.VALUE} 当前状态:{TRIGGER.STATUS}...
    文章 2017-12-06 4065浏览量
  • 分布式监控系统Zabbix3.2给异常添加邮件报警

    在邮件发送时,按上面的sendmail.sh中的写可能会出现zabbix邮件内容为附件和zabbix图中出现中文乱码问题。下面是参考园友的解决方法: 安装zabbix之后,设置邮件脚本报警的时候,发送的报警内容变成了tcmime.1278....
    文章 2017-11-14 1132浏览量
  • 稳定性保障6步走:高可用系统大促作战指南!

    考虑到成本最小化,非常规增量P计算时一般无需与常规业务流量W一起,全量纳入叠加入口流量K,一般会将非常规策略发生概率λ作为权重,即:2)节点流量节点流量由入口流量根据流量分支模型,按比例转化而来。...
    文章 2021-03-08 1896浏览量
  • 如何快速处理线上故障【转】

    一般来讲:‘系统监控告警’和‘业务监控告警’的情况下,大部分都和本系统有关,且可能是线上故障;而‘主动发现’和‘生产事件上报’则需要做甄别,可以根据上报事件个数或者问题复现的方式来评估是否是大规模线上...
    文章 2017-11-16 1536浏览量
  • 游侠原创:安全狗“服云”深度评测!

    智能告警中心,灵活设置告警级别,通过客户端、邮件和短信等第一时间推送,异常状态随时了解。测试环境: l 云主机A:CPU:2核、内存:3G、硬盘:80G、带宽:3M、系统:Win2008 64位 l 云主机B:CPU:2核、内存:2G...
    文章 2017-11-08 2017浏览量
  • 面对大规模 K8s 集群,如何先于用户发现问题?

    比如,监控告警一般告警可能如下:xx容器内存使用率 99%webhook 双副本全部挂掉了apiserver 三副本全部宕机了这些告警,往往内容中就包含了具体的故障点,而 KubeProbe 的链路探测告警就有很多不一样,比如:...
    文章 2021-04-25 2177浏览量
  • 如何构建面向应用的运维管理新思维

    其次在统一的看板上,人的思维发生变化,底层的告警能力不断形成决策参考数据,而非当成直接的问题,甚至可以告警一致。这都是因为以应用为中心,数据有了关联所致。面向应用的运维管理新思维,是切实有效的,给...
    文章 2017-08-15 1502浏览量
  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2018-01-05 4887浏览量
  • 基础设施助力双11(十):百万级物理和虚拟网络设备的...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2019-07-31 976浏览量
  • golang 服务大量 CLOSE_WAIT 故障排查

    【tcpdump 包分析】我们准备好 tcpdump 脚本,定期抓取 tcp 包,现在就在等故障出现了,因为故障一定还会出现。果然在30号下午又出现了,我们一阵激动准备分析dump文件,但是端口抓错了,_sidecar_和程序都是本机...
    文章 2020-01-26 1113浏览量
  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2017-12-14 1868浏览量
  • 睿“至”进取,我们眼中的 AIOps

    我们AIOps整个方案落地的时候,我们会给客户建议分步骤实现,一般会分四个步骤,第一个阶段首先我们建议客户做它底层数据的治理和标准化,实际上只有你把底层数据标准化之后,上层才能更好地做数据的分析。...
    文章 2018-10-25 1104浏览量
  • 一线架构师实践指南:证券行业应如何构建一体化监控...

    D的监控依赖数据,在传统监控体系中,一旦B出现故障,则同时发出B、C、D三个告警,给问题排查造成困难;而在一体化监控平台中,只发出B告警,同时告知受影响的业务C,D,排除干扰,实现问题快速定位。趋势分析 ...
    文章 2017-05-02 3326浏览量
  • 2017年5月 企业面试 zabbix 常见问题

    移到相应告警提示的部分,选择主机的ACK 部分,点选 NO,跳出一个message的窗口,在message里输入相关信息,如:误报、因什么什么原因在调试、已通知到相关责任人等,并点击Acknowledge 提交,此时的ACK 状态会...
    文章 1970-01-01 1916浏览量
  • 托管节点池助力用户构建稳定自愈的 Kubernetes 集群

    系统在运行的过程中产生不稳定性,系统垃圾、未处理告警堆积、代码 Bug 累积、未处理的边缘异常 Case、一些人为故障源、都会引发的系统 Fail,无法穷举这些不确定性进一步决定了不可能 100%的覆盖所有修复 CASE,...
    文章 2021-02-02 3191浏览量
  • 用好云平台,做好安全监控与审计

    针对安骑士产品的重要告警信息,企业可以在事件收集完成后,通过自定义的告警信息发送给安全人员。产品默认只有邮件和短信,且有发送抑制功能(一天不超多 XX 条)。通过独立的告警系统筛选,可以对安全事件进行高...
    文章 2018-07-17 3835浏览量
  • 时间准度对数据中心的重要性

    数据中心有很多设备,这些设备运行中产生很多的日志和告警信息,所有的信息都有时间纪录,只有这个时间准确,才能通过这些时间来进行分析问题。比如数据中心发生了业务中断,我们首先要知道是什么时候中断的,持续...
    文章 2017-08-01 838浏览量
  • 时间准度对数据中心的重要性

    数据中心有很多设备,这些设备运行中产生很多的日志和告警信息,所有的信息都有时间纪录,只有这个时间准确,才能通过这些时间来进行分析问题。比如数据中心发生了业务中断,我们首先要知道是什么时候中断的,持续...
    文章 2017-08-01 889浏览量
  • 时间准度对数据中心的重要性

    数据中心有很多设备,这些设备运行中产生很多的日志和告警信息,所有的信息都有时间纪录,只有这个时间准确,才能通过这些时间来进行分析问题。比如数据中心发生了业务中断,我们首先要知道是什么时候中断的,持续...
    文章 2017-08-01 913浏览量
  • 时间准度对数据中心的重要性

    数据中心有很多设备,这些设备运行中产生很多的日志和告警信息,所有的信息都有时间纪录,只有这个时间准确,才能通过这些时间来进行分析问题。比如数据中心发生了业务中断,我们首先要知道是什么时候中断的,持续...
    文章 2017-07-10 816浏览量
  • 高可用性系统在大众点评的实践与经验

    系统可用性的告警应该全部用微信、短信这种能保证找到人的通信机制。告警的实时化 目前我们只能做到1分钟左右告警。监控的可视化 我们系统目前的要求是1分钟发现故障,3分钟定位故障。这就需要做好监控的可视化,在...
    文章 2017-08-01 1578浏览量
  • 666IDC高防服务器 全年24小时30秒售后回复 有问题找我

    32,64,128,256等)的丢包情况,根据分析时间窗内两项数据的丢包情况特殊情况干扰排除个别机房有时候会出现大面积风暴式的无故心跳异常,同时网络ping包异常,但上联网络设备ping包正常,这种误报,一般根据具体...
    文章 2020-05-14 499浏览量
  • System State 转储分析案例一则

    在某些情况下,Oracle 数据库在遇到异常时,自动转储数据库的系统状态信息,此时告警日志里记录类似如下的信息: >gt;gt;WAITED TOO LONG FOR A ROWCACHE ENQUEUE LOCK!pid=212 System State dumped to ...
    文章 2016-04-13 1057浏览量
  • DBA必备技能:数据库挂起时进行转储分析诊断案例

    在某些情况下,Oracle 数据库在遇到异常时,自动转储数据库的系统状态信息,此时告警日志里记录类似如下的信息: gt;gt;gt;WAITED TOO LONG FOR A ROWCACHE ENQUEUE LOCK!pid=212 System State dumped to ...
    文章 2017-07-18 2159浏览量
  • 阿里可观测性数据引擎的技术实践

    同样针对不同类型的可观测数据和场景,也有对应的适合的分析方式:Metrics:通常用于告警和图形化展示,一般直接获取或者辅以简单的计算,例如PromQL、TSQL等Traces/Logs:最简单直接的方式是关键词的查询,包括...
    文章 2021-11-18 324浏览量
  • DBA亲,你们的RAID5阵列有保障吗?

    企业级的数据存储,也只有到盘阵级别(比如IBM DS3000/4000/5000,DELL MD3000.etc)才有这类功能,但是你也看不到检查的结果,最多能在日志里看到某个硬盘CRC失败,然后跳红灯掉出来,阵列柜告警通知你换硬盘。...
    文章 2017-11-26 1891浏览量
  • 高可用的本质

    例如:大促峰值期间,一般会提前降级掉很多功能,同时限流,主要是为了保护峰值绝大部分人的交易支付体验。例如:人体在失血过多或疼痛过度时就会触发休克现象,这也是一种典型的自我保护机制。四 软件风险在何方...
    文章 2021-02-22 998浏览量
  • 盒子科技刘恒:聚合支付系统演讲

    部分应答码重点监控,通过设定告警阀值,超过阀值短信及电话告警,研发第一时间接入处理,减少可能造成的损失。邮件巡检报告:用于第二天研发进行数据分析。以上就是盒子科技聚合支付系统演变的大致过程,在 2017年...
    文章 2018-05-25 1695浏览量
  • 谈谈互联网后端基础设施

    一般来说有以下几种方式: 守护进程定时去扫描key,找到已经失效的key,然后删除 读取key的时候先去判断key是否失效,如果失效则删除并返回空。缓存的淘汰机制:是当缓存内存达到上限时如何删除缓存中的key。Redis...
    文章 2016-12-09 5136浏览量
1 2 3 4 6 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化