• Mocha BSM产品亮点——事件管理

    事件发生时通过事件过滤,事件压缩,事件根本原因分析等方式帮助管理人员准确定位故障,及时处理问题,提高工作效率。快速定位问题,快速响应,降低影响 企业中的资源一旦出现问题,可以帮助管理人员分析发生事件的...
    文章 2017-11-09 807浏览量
  • 怎样管理Lotus Domino

    系统宕机不能及时定位故障原因。维护经验不能自动汇总分发。…… 针对这些常见问题:·问题1-系统维护门槛高 对Lotus Domino系统进行维护的人员,需要较高的技术水平和丰富的维护经验,这样就造成了只有少数人具有...
    文章 2017-11-09 2076浏览量
  • Lync Server 2013无法共享PPT故障排错处理

    原因如下前端服务器未关联Ofice web Application服务器,关联即可,如下: 关联完成后,如下所示重新发布拓扑结构,即可正常进行共享PPT。本文转自wangtingdong 51CTO博客,原文链接:...
    文章 2017-11-07 932浏览量
  • 架构设计|分布式体系下,服务分层监控策略

    有些故障导致大面积服务瘫痪,也称为雪崩效应,可能故障源没有快速处理,也没有熔断机制,导致整个服务链路全部垮掉,这是常见的问题,所以在处理故障时,要学会基于全栈监控信息,全局关联分析核心故障点,快速切断...
    文章 2020-09-17 600浏览量
  • 智能化网络管理 为企业信息化保驾护航

    而有限的技术人员并不能完全精通各种应用系统,很多时候数据库缓慢、应用慢并不能分析出故障的根源,从而导致很多时候故障处理效率不高,甚至还会形成遗留问题。通过详细而专业的技术指标监控,管理平台可以实时的...
    文章 2017-11-08 825浏览量
  • 阿里巴巴DevOps实践指南(二十一)|全景监控

    技术人员通过故障通告快速查看业务监控数据,通过全景监控的纵向拓扑联动能力,从业务指标下钻分析到关联应用状态,再从应用状态下钻分析到云资源状态,实现快速故障定位。然后技术人员根据故障排查的信息,确定故障...
    文章 2021-07-06 214浏览量
  • 还不知道AIOps嘛?阿里这么火的智能运维,你不能不...

    首先,业务故障需要统一的发现,然后跨BU故障协同处理故障的影响面和根因需要统一收口和推送,最后当确定故障后,第一选择是使用统一的机制快速恢复,只有无法快速恢复的故障才会去分析原因。那么如何在这种复杂的...
    文章 2018-05-30 11901浏览量
  • 高性能Web应用的六个好习惯

    3.我如何能够把用户的事务处理与他们使用的应用程序关联起来?4.当出现多个问题时,需要首先修复的最重要的问题是什么?5.我能做些什么来了解性能糟糕的应用程序的业务影响的内部情况?6.我如何准确地测量服务级协议...
    文章 2009-02-12 699浏览量
  • 带你读《智能制造之卓越设备管理与运维实践》之三:运...

    针对A类重要设备,故障维修管理必须指定到重点部位,与机型关联故障经验库如图3-9所示。3.2.3 机型维修策略管理 作为设备维护的方法论,维修策略决定着维修的有效性、维修成本和响应速度。结合工业企业的设备特点...
    文章 2019-11-08 1104浏览量
  • 我们雇佣了一只大猴子.

    分布式系统中的这种复杂性和相互关联性创造了一些难以处理的东西,并且需要一种新的方法来防止看似随机的中断。Netflix向水平扩展软件堆栈的转变需要更可靠和容错的系统。最重要的经验教训之一是“避免失败的最佳...
    文章 2019-02-28 1995浏览量
  • 稳定性保障6步走:高可用系统大促作战指南!

    除了关联层次,对于不同级别的告警,通知人范围也可适当扩大,尤其是关联GOC故障的告警指标,应适当放宽范围,通知方式也应更为实时直接。应产出数据完成该项梳理工作后,我们应该产出以下数据:系统监控模型,格式...
    文章 2021-03-08 1737浏览量
  • 让AIOps把你从繁复耗时的基础运维中解放出来

    故障原因日趋复杂,仅凭已有经验进行处理已然不可行,部分故障是已知问题,但因为牵涉面广暂时不做解决,需要周期性的进行重复处理。动态告警基线 传统的固定告警基线有很多缺陷,例如反复触发、恢复会产生大量告警...
    文章 2018-06-27 2820浏览量
  • 阿里如何做到百万量级硬件故障自愈?

    只有当 smartctl超时/故障扇区 等明确故障项出现后,两者关联才确诊硬盘故障,否则只是隔离观察,不报修。2.3.覆盖率 以某生产集群,在20xx年x月的IDC工单为例,硬件故障及工单统计如下: 去除带外故障的问题,我们...
    文章 2018-11-24 3418浏览量
  • 阿里如何做到百万量级硬件故障自愈?

    只有当 smartctl超时/故障扇区 等明确故障项出现后,两者关联才确诊硬盘故障,否则只是隔离观察,不报修。2.3.覆盖率 以某生产集群,在20xx年x月的IDC工单为例,硬件故障及工单统计如下: 去除带外故障的问题,我们...
    文章 2018-11-19 2913浏览量
  • DataFlux」关键事件,助你掌控IT监控的“蝴蝶效应”

    当我们将关键事件集成后,实际上记录的每个行为本身就会会自动形成这些关键事件,运维工程师可以快速的将指标异常的故障和这些关键事件以时间维度关联起来,迅速找到导致异常的原因。很多时候异常告警往往并不是最...
    文章 2020-06-01 614浏览量
  • 企业级自动化运维工具方案设计

    没有明确的运维人员角色定义和责任划分,使到问题出现后很难快速、准确地找到根本原因,无法及时地找到相应的人员进行修复和处理,或者是在问题找到后缺乏流程化的故障处理机制,而在处理问题时不但欠缺规范化的解决...
    文章 2019-12-13 1971浏览量
  • 问题管理——“斩草需除根”

    问题管理通过对基础设施和相关的可用信息,事件数据库,来确定引发事件的真正原因以及在服务提供中存在的故障或错误。通过调查,问题管理最终确定引起事件的原因,一旦确定引发事件的根本原因,同时提交一个可接受的...
    文章 2017-11-07 957浏览量
  • 智能运维(AIOps)中几处问题的解决方案与思路

    故障定位又称为告警关联(Alarm Correlation)、问题确定(Problem Determination)或根源故障分析(Root Cause Analysis),是指通过分析观测到的征兆(Symptom),找出产生这些征兆的真正原因。在实践中通常用于...
    文章 2018-08-16 3035浏览量
  • 天梭M13为何具有大型机水平的高可用性

    SFDP对于不同层次、不同部件执行的检测强度是不同的,对内存等核心部件检测强度最高,因为内存错误和内存故障是引起系统停机的主要原因之一,目前通用服务器的内存错误主要依靠ECC内存技术来处理(Error Checking ...
    文章 2017-08-02 1406浏览量
  • 根本原因分析 关键事件关联 IT运维有序发展——中国...

    对于性能指标超标、宕机故障,通过手机短信、邮件直接发送给系统的管理员、维护人员及其他相关人员,在报警信息中明确哪台主机、哪个wps应用服务器、哪个应用、故障发生的时间、初步定位的故障原因等重要信息,方便...
    文章 2017-11-09 1522浏览量
  • 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    今天的分享,主要还是回归故障发生的本质,故障原因角度切入。看是否有一些方法论和通用性的手段可以沉淀出来。希望可以对大家有所帮助。今天演讲的主要包括两个部分:第一部分会从分布式系统经典依赖故障出发,剖析...
    文章 2017-06-19 3656浏览量
  • 《七周七并发模型》第一章概述

    故障检测是指当一个任务失败时(原因可能是任务崩溃、失去响应或硬件故障),需要通知负责故障处理的其他任务来处理。串行程序的容错性远不如并发程序。复杂的世界,简单的软件 如果曾经花费数小时纠结在一个难以...
    文章 2017-05-23 1301浏览量
  • 有效运维的 on-call 机制

    互联网技术的发展,离不开运维支撑工作,没有零bug的程序,没有不出问题的系统,问题故障不可怕,可怕的是没能有序的处理: 突发紧急事件太多,疲于应付,团队士气低下,效率不高。重要事情淹没在大量事件中,没有...
    文章 2016-06-20 3405浏览量
  • 闲鱼神探——线上问题定位与快速解决

    神探具备下游依赖、DB、容器(CPU、LOAD、线程池满)、单机异常、多原因综合定位,满足日常绝大部分故障、日常定位需求。实际案例 XXXX年X月XX日*引起的故障 XXXX年X月XX日全站交易下跌超过20%,闲鱼也受影响。报警...
    文章 2020-07-28 1354浏览量
  • 跟我学-域名解析故障排查技巧

    其次我们需要知道域名解析故障与网站不能访问是两个概念,因为网站的访问与域名解析、网站服务器、网站备案、网站程序、网路环境等诸多因素都有关联,而本文则重点描述 域名解析故障 排查的方法和思路。初阶版 多数...
    文章 2020-01-07 5757浏览量
  • 双11 背后的全链路可观测性:阿里巴巴鹰眼在“云原生...

    故障定位智能化的演进路线也是按照上面的思路来逐步完成的,但在这之前我们先得保障数据的质量:得益于鹰眼团队在大数据处理上深耕多年,数据的可靠性已经能得到非常高质量的保障,否则出现故障还得先怀疑是不是自己...
    文章 2019-12-20 871浏览量
  • 一目了然,看民生银行 IT 运维故障管理可视化案例

    排障结束后,还可借助应用画像功能(如下图4所示),对故障的形成原因及解决方法进行复盘,制定预案,为可能的故障二次发生或次生风险提供预防措施和紧急处理指导意见。图4:应用画像展示 3 变更影响分析 在日常的...
    文章 2018-09-27 3324浏览量
  • 东北财经大学:量化评估体验,无线运维不再复杂

    以7月5日全网数据为例,根据各项指标的分布构成以及相互的关联关系,可以直观发现造成网内用户体验差的主要原因:时延大、丢包率较高,之后沿着主要原因向下探索发现该类故障出现的具体区域及具体原因,从而针对性地...
    文章 2017-09-01 1045浏览量
  • 分布式调用跟踪与监控实战

    在集群中,由于网络或机器配置等原因导致不同的计算机处理能力有差别,因此可能存在某些机器空闲而其他机器繁忙的现象,正如上图的热点图显示,集群中会存在负载不均匀的情况,通过调用链可以非常容易地识别集群中...
    文章 2017-05-03 13229浏览量
  • vmware的APD和PDL详细解析

    出现此问题的原因是 APD 处理时发生故障。出现此问题时,LUN 路径在 APD 事件期间可用且处于联机状态,但 APD 定时器会继续计数,直到 LUN 进入“APD 超时”状态。初始 APD 事件后,只要活动工作负载与数据存储关联...
    文章 2017-12-19 2575浏览量
1 2 3 4 ... 21 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化