• 浅谈SCOM Agent的心跳响应机制

    产生这种告警的时候,如果能够排除网络的原因,通常情况下就是我们的服务器宕机或者其它原因造成服务器不可用了。下面在测试环境中模拟一下给大家看看整个工作过程: 首先来看看SCOM关于心跳检测信号的默认配置: 接...
    文章 2017-11-16 1023浏览量
  • GitLab误删 300G数据的一点启示

    4.告警机制要能在无告警的情况下证明告警检查在正常工作。PostgreSQL运维的启示: 要在主备部署上避免由于主库删除尚未拷贝到备库的WAL导致流复制中断。具体可以采用下面几个办法 1.创建并保留WAL归档 高负载的系统...
    文章 2017-02-15 786浏览量
  • 对抗告警疲劳的8种方法

    【编者按】本文作者为 Chris Riley,主要介绍告警疲劳的产生原因与对抗告警疲劳的8种方法。文章系国内 ITOM 管理平台 OneAPM 编译呈现。各司其职、孤军作战非常不利于团队沟通,一旦发生重大事件,各个部门就很难...
    文章 2016-06-22 1875浏览量
  • 666IDC高防服务器 全年24小时30秒售后回复 有问题找我

    3)告知宕机的详细原因,如硬件故障,内核bug,网络异常等等。4)自动报修生成工单。我们知道,进行全网物理机宕机准确探测与实时发现,可以给宕机分析提供第一现场,获取第一现场的日志。也可以尽早将宕机数据推送给...
    文章 2020-05-14 495浏览量
  • 使用Flume Log4j Appender正确的姿势

    根本原因是、日志服务器宕机导致消费者消费能力不足,缓冲区满的情况下,AsyncAppender会阻塞程序。设置Blocking=false之后就可以了。问题2:Flume Log4j失败重连策略异常 当其中一台日志服务器宕机,其他的日志...
    文章 2014-01-25 2127浏览量
  • Kubernetes 稳定性保障手册-日志专题

    通用关键告警 与业务耦合度小,如机器级别的关键告警(宕机、内存压力大、load 过高等)、托管服务的关键告警(master 组件 panic/OOM、master 组件内存压力大等),这部分告警配置可以作为基础服务,作为集群交付的一...
    文章 2021-03-02 973浏览量
  • 怎样管理Lotus Domino

    因此,IT部门极其需要一个故障告警的功能,在故障发生时或有故障发生的倾向时,能获知系统相关信息,对系统予以相应处理,避免故障的发生或故障发生后能以最快的速度恢复。解决办法:Mocha BSM事件报警功能,一旦...
    文章 2017-11-09 2097浏览量
  • 蚂蚁智能监控

    AntMonitor 简 介 AntMonitor 是蚂蚁集团的智能监控系统,通过构建面向监控可观测数据的、实时的、稳定的采集、清洗、计算及存储数据链路,为技术风险大脑及体系提供实时、稳定、可靠、丰富的可观测数据与告警服务。...
    文章 2021-09-07 67浏览量
  • 网易云音乐的消息队列改造之路

    告警组件主要采集告警信息,根据控制台配置的告警阀值和人员信息通知相应业务方;消息队列大盘提供消息队列集群自身的监控状态,主备复制状态,QPS等集群大盘报表展示。部分高级特性介绍 这部分是云音乐根据自己业务...
    文章 2019-07-25 3670浏览量
  • 阿里基础设施的智能监控

    此外同一个安全域内不同采集域可以互相指定为备份采集域,如果某个采集域内的所有采集机都宕机,那么备份采集域的采集机会承担宕机的采集域所承担设备的采集任务,这个称之为跨采集域容灾。Syslog和AAA日志采集是由...
    文章 2019-07-30 1313浏览量
  • 阿里云容器Kubernetes监控(九)-Kubernetes事件离线...

    一个标准的Kubernetes事件有如下几个重要的属性,通过这些属性可以更好地诊断和告警问题。Namespace:产生事件的对象所在的命名空间。Kind:绑定事件的对象的类型,例如:Node、Pod、Namespace、Componenet等等。...
    文章 2019-07-14 5005浏览量
  • 数据中心NFV技术可靠性研究

    不过,运营商需要的是高可靠性的网络,对网络可靠性要求最高,但看看我们应用了虚拟化技术的表现,2015年十大云计算宕机的收入损失超过了31 Million美元,显然这样的技术无法满足运营商的可靠性要求。运营商当然不...
    文章 2017-08-01 1317浏览量
  • 全方位 Logtail 状态监控

    本文将从多个层次对 Logtail 的状态进行分析,罗列各个层次所需要的一些常用监控场景,同时,我们将介绍如何通过服务日志、查询分析、告警、API 等日志服务的功能,来实现对这些场景的监控和告警。Logtail 状态层次 ...
    文章 2019-02-25 7569浏览量
  • 智能平台管理接口(IPMI)

    传统的系统监控管理方法一般是系统管理员定期到机房巡视或者采用PCAnywhere类软件监控,上述方法存在时效性差、服务器宕机后无法追查原因、占用系统资源较多的缺点;IPMI则可实现对服务器系统的实时监控,能够监控...
    文章 2012-12-28 1792浏览量
  • ORA-04031错误导致宕机案例分析

    今天遇到一起ORACLE数据库宕机案例,下面是对这起数据库宕机案例的原因进行分析、解读。分析过程中顺便记录一下这个案例的前因后果,攒点经验值,培养一下分析、解决问题的能力。案例环境: 操作系统:Oracle Linux ...
    文章 2016-04-27 3177浏览量
  • “十年磨一剑”-有赞的HBase平台实践和应用之路

    监控系统收集的数据使告警变得更加轻松,针对不同的告警问题,如RIT和最大延迟等,都可以动态调整阈值,实现定制化告警,更加灵活。效率工具 效率工具主要解决的是异步迁移和集群迁移的问题,支持以下几种方式: ...
    文章 2019-03-21 3326浏览量
  • 面对大规模 K8s 集群,如何先于用户发现问题?

    比如,监控告警一般的告警可能如下:xx容器内存使用率 99%webhook 双副本全部挂掉了apiserver 三副本全部宕机了这些告警,往往内容中就包含了具体的故障点,而 KubeProbe 的链路探测告警就有很多不一样,比如:...
    文章 2021-04-25 2176浏览量
  • Facebook宕机背后,我们该如何及时发现DNS问题

    另外通过配置 DNS 告警&xff0c;针对于 DNS 的可用性问题和解析性能问题&xff0c;也可以先于用户感知并问问题的修复争取时间&xff0c;提高用户的满意度&xff0c;降低经济损失。想要避免类似的问题&xff0c;那就开始使用云拨测...
    文章 2021-10-09 506浏览量
  • 高并发架构系列:如何解决Redis雪崩、穿透、并发等5大...

    (2)警告:有些服务在一段时间内成功率有波动(如在95~100%之间),可以自动降级或人工降级,并发送告警;(3)错误:比如可用率低于90%,或者数据库连接池被打爆了,或者访问量突然猛增到系统能承受的最大阀值,...
    文章 2018-12-17 4290浏览量
  • 高可用系统常用解决手段浅述

    出现系统不可用的原因,一种是人为的,比如发布了有 bug 的代码、不规范的发布流程导致的宕机或者网站访问量过载造成的雪崩等;另一种则是非人为的,由于外部系统和环境的变化造成的,比如硬盘老化造成的故障、机房...
    文章 2017-05-23 1487浏览量
  • 云服务器 ECS 监控:监控ECS实例

    假如没有进行监控,就很有可能在业务高峰期性能不足却无人问津而导致宕机;也可能在出现异常和故障的时候,因为没有历史性能数据而无法进一步追查到原因,可见,没有监控,当问题出现的时候,都非常被动。因此,监控...
    文章 2017-08-14 4849浏览量
  • 一线架构师实践指南:证券行业应如何构建一体化监控...

    打个比方,通过网络设备的端口CRC和error就可以预判出链路的质量是否会有问题,可以在链路告警前提前处理,存储设备中的日志也可以在阵列中硬盘发生故障告警的前一两天左右就展现出来的,可以提前更换硬盘;...
    文章 2017-05-02 3324浏览量
  • MySQL集群节点宕机,数据库脑裂!如何排障?

    我生产环境的Galera集群有一个节点宕机了。可能有的人不太熟悉MySQL Galera集群,下面先介绍一下出故障的集群信息。PXC: 我们生产上用的是Percona的一个MySQL分支版本,PerconaXtradb Cluster,简称PXC,这是一个...
    文章 2017-05-15 3709浏览量
  • 云数据中心呼唤安全可控的运维

    2014年4月21日,三星数据中心火灾引发服务器大规模宕机;2015年2月11日国内十大酒店数据因安全漏洞而泄露大量用户隐私……这些频频发生的数据中心安全事件,一直在提醒我们:安全是IDC运维的第一要务。因此,需要在...
    文章 2017-08-02 1219浏览量
  • 云数据中心呼唤安全可控的运维

    2014年4月21日,三星数据中心火灾引发服务器大规模宕机;2015年2月11日国内十大酒店数据因安全漏洞而泄露大量用户隐私……这些频频发生的数据中心安全事件,一直在提醒我们:安全是IDC运维的第一要务。因此,需要在...
    文章 2017-08-02 1584浏览量
  • 云数据中心呼唤安全可控的运维和检测

    2014年4月21日,三星数据中心火灾引发服务器大规模宕机;2015年2月11日国内十大酒店数据因安全漏洞而泄露大量用户隐私……这些频频发生的数据中心安全事件,一直在提醒我们:安全是IDC运维的第一要务。因此,需要在...
    文章 2017-07-03 1477浏览量
  • 模拟监控VS真实用户监控!应用性能监控工具大PK

    如果我们的系统检测出网站宕机,你可以使用各种各样的工具,分析出故障的组件,尽快修复故障,使网站平稳运行。以下是模拟监控的几个特点: 1.在控制的环境下进行监控模拟监控允许用户通过一系列的控制变量(地理...
    文章 2016-01-04 2479浏览量
  • 云数据中心呼唤安全可控的数据中心运维

    2014年4月21日,三星数据中心火灾引发服务器大规模宕机;2015年2月11日国内十大酒店数据因安全漏洞而泄露大量用户隐私……这些频频发生的数据中心安全事件,一直在提醒我们:安全是IDC运维的第一要务。因此,需要在...
    文章 2017-07-10 1438浏览量
  • 揭开数据库RPO等于0的秘密(下)

    有可能等运维收到告警并查看告警细节时数据访问就已经恢复了。这个对运维的体验非常好。异地容灾的RPO分析 传统关系数据库的异地容灾,是不能保证数据绝对不丢的,因为主库到异地的备库的数据同步一定是异步高性能...
    文章 2019-03-06 1808浏览量
  • 以管理为轴心 为IT服务保驾护航——北京赛特百货有限...

    一旦该平台出现宕机或者严重性能问题,Mocha BSM将通过多种方式进行告警。以最快的速度通知相关管理人员,对该业务系统进行及时处理。全面灵活的基本资源监控 赛特百货的网络设备相对较多,大部分为交换机,同样品牌...
    文章 2017-11-15 967浏览量
1 2 3 4 5 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化