• 走近华佗,解析自动化故障处理系统背后的秘密

    华佗目前已能够处理主流硬件和OS相关的故障,长尾Badcase处理逐渐增加中,可以适应快速迭代和开发节奏,同时帮助运维和开发共同沉淀线上集群的故障管理经验。磁盘管理 图4中每个节点都是一个状态,每条线上标注了...
    文章 2016-12-18 4584浏览量
  • 这些常见的网络故障,你都知道如何解决吗

    很多弱电圈的朋友经常提到网络故障,其中在交换机组时常见的故障比较多,为了便于大家排除这些故障,在此介绍一些常见的典型故障案例及处理思路。故障 1:交换机刚加电时网络无法通信 故障现象 交换机刚刚开启的...
    文章 2018-10-25 1347浏览量
  • 架构设计|分布式体系下,服务分层监控策略

    聚合的监控系统可以观察监控链路的全局状态,这样可以快速定位故障坐标,可以关联性分析问题原因。4、预警性 例如CPU突然升高,某个中间件服务突然停止,内存占用过高,这些可以基于监控系统做预警通知,然后邮件...
    文章 2020-09-17 500浏览量
  • Windows操作系统常见故障解决方法

    此类故障一般是由于用户的Windows系统文件安装不所造成,Windows一般在正常安装情况下会少装如下几个文件:vdd.vxd、vcomm.vxd、vmouse.vxd、vflatd.vxd、vdmad.vxd、configmg.vxd、ntkern.vxd,我们只要将其添加...
    文章 2012-10-19 1415浏览量
  • Windows操作系统常见故障

    此类故障一般是由于用户的Windows系统文件安装不所造成,Windows一般在正常安装情况下会少装如下几个文件:vdd.vxd、vcomm.vxd、vmouse.vxd、vflatd.vxd、vdmad.vxd、configmg.vxd、ntkern.vxd,我们只要将其添加...
    文章 2017-11-14 917浏览量
  • Windows操作系统常见故障

    此类故障一般是由于用户的Windows系统文件安装不所造成,Windows一般在正常安装情况下会少装如下几个文件:vdd.vxd、vcomm.vxd、vmouse.vxd、vflatd.vxd、vdmad.vxd、configmg.vxd、ntkern.vxd,我们只要将其添加...
    文章 2017-11-14 659浏览量
  • 跟我学-域名解析故障排查技巧

    天苍苍,野茫茫,网站一瘫,唯有泪两行!...这次的分享就先到这里了,最后,希望小编为大家总结的《域名解析故障排查技巧实操全网最全手册》,能够有效帮助到您快速定位解析异常原因和降低业务不可用时间。
    文章 2020-01-07 5581浏览量
  • 《VMware Virtual SAN权威指南(原书第2版)》一3.9 ...

    背后的原因是我们希望当网络故障发生时,vSphere HA主机和VSAN主机是位于同一分区(partition)中的,这就避免了故障时因vSphere HA和VSAN判断的分区不同而造成拥有的存储组件和对象集不同所造成的可能的冲突。...
    文章 2017-08-01 1450浏览量
  • KubeNode:阿里巴巴云原生 容器基础设施运维实践

    进行故障分析统计,也可以分析整体 KubeNode 中的节点以及节点组件的覆盖率、一致率、节点自愈的效率,并提供针对节点的链路诊断功能,当排查节点问题时,可以查看该节点上历史发生过的所有的事件,从而帮助用户...
    文章 2021-03-11 733浏览量
  • 总结|阿里如何应对电商故障?神秘演练细节曝光

    今天的分享,主要还是回归故障发生的本质,故障原因角度切入。看是否有一些方法论和通用性的手段可以沉淀出来。希望可以对大家有所帮助。今天演讲的主要包括两个部分:第一部分会从分布式系统经典依赖故障出发,剖析...
    文章 2017-06-19 3556浏览量
  • VMware SDS 之四:VSAN的技术细节

    使用强制置备虚拟机的管理员需要注意,一旦附加资源在群集中变得可用,如添加新主机或新磁盘,或者处于故障或维护模式的主机恢复正常,VSAN可能会立即占用这些资源,以尝试满足虚拟机的策略设置,也即朝着合规的方向...
    文章 2017-11-15 1461浏览量
  • 带你读《智能制造之卓越设备管理与运维实践》之一:...

    2008年版本更新之后,PAS 55规范包括了从生命策略到日常维修管理最佳实践的28个方面,企业可结合自身现状,识别与最佳实践的差距,分析原因,提出解决方案,实现企业在资产(设备)管理方面的持续改进。...
    文章 2019-11-08 1081浏览量
  • 阿里如何做到百万量级硬件故障自愈?

    基于对链路数据的掌控,我们将整个故障自愈体系,作为一个硬件生命周期标准化服务,提供给不同的产品线。基于对决策的充分抽象,自愈体系提供各类感知阈值,支持不同产品线的定制,形成适合个性化的生命周期...
    文章 2018-11-24 3385浏览量
  • 阿里如何做到百万量级硬件故障自愈?

    基于对链路数据的掌控,我们将整个故障自愈体系,作为一个硬件生命周期标准化服务,提供给不同的产品线。基于对决策的充分抽象,自愈体系提供各类感知阈值,支持不同产品线的定制,形成适合个性化的生命周期...
    文章 2018-11-19 2854浏览量
  • 阿里巴巴DevOps实践指南(二十一)|全景监控

    故障管理平台:用于定义故障等级并管理整个故障生命周期的平台,命中故障等级定义的重要报警将升级成故障,进入故障管理流程。CMDB:运维统一 CMDB 是整个阿里巴巴应用运维体系的元数据中心,维护着整个阿里巴巴的...
    文章 2021-07-06 141浏览量
  • 《架构师》反思:系统可靠性

    系统故障是指硬件或者软件的错误状态,一般引进故障原因是这些:部件的失效、环境的物理干扰、操作错误或不正确的设计。按照时间的长短,故障可以分为:永久性、间歇性、瞬时性。故障的级别有:逻辑级故障、数据...
    文章 2016-05-05 4750浏览量
  • 遵循ITIL流程框架,运维工作进入规范化新纪元——...

    Mocha Network Focus(摩卡网络焦点)通过对全网状态的监控、设备性能的监测以及各种故障事件的快速诊断,可为购物中心提供一个稳定可靠的网络环境。管理员只需输入核心交换机的IP地址,系统将自动发现企业网的二层和...
    文章 2017-11-14 1075浏览量
  • 智慧高速公路与新基建的融合与发展

    2.多维度、要素对设施设备的状态、故障原因等进行分析,结合智慧工单APP实现设施设备的巡检、维修、故障报修等。3.通过系统数据融合,实现设施设备寿命数字化档案,避免数据散乱造成的信息缺失和管理漏洞
    文章 2020-11-04 369浏览量
  • 如何使用Direct Console User Interface解决棘手问题

    为了尽量减少对于业务的影响,应该首先将受影响的虚拟机转移到另外一台正常工作的主机当中并且重新启动,这样能够保证在修复故障主机的同时依然能够管理业务虚拟机。但是需要注意的是这台主机服务器可能位于几千公里...
    文章 2017-08-01 946浏览量
  • 服务器安全运维规范-安全运维的事前、事中、事后

    2.能对全网进行安全策略集中管理。3.统一日志收集和分析。4.备份及篡改恢复功能。5.对攻击日志进行深度分析,展现攻击路径、攻击源,协助管理员溯源。6.践行DevOps的无指责文化,尤其是在做事故分析时。事故分析重在...
    文章 2017-11-27 3465浏览量
  • Ceph分布式存储学习指南1.3 Ceph和存储的未来

    无须管理员的任何干预,CRUSH就会进行自我管理和自我疗愈,为因故障而丢失的据数执行恢复操作。CRUSH根据集群中维护的其他副本来重新生成丢失的数据。在任何时候,集群数据都会有多个副本分布在集群中。使用CRUSH,...
    文章 2017-05-02 3007浏览量
  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的...

    我们也在构建科学预测方法,用网络故障库的形式逐步构建全网网络故障特征工程。利用特征库预测故障存在的可能,做到防范于未然。在故障发生后,做到快速发现、快速诊断,当我们已经可以很好的定性一个特征故障时,...
    文章 2018-01-05 4779浏览量
  • 基础设施助力双11(十):百万级物理和虚拟网络设备的...

    我们也在构建科学预测方法,用网络故障库的形式逐步构建全网网络故障特征工程。利用特征库预测故障存在的可能,做到防范于未然。在故障发生后,做到快速发现、快速诊断,当我们已经可以很好的定性一个特征故障时,...
    文章 2019-07-31 847浏览量
  • 面对大规模 K8s 集群,如何先于用户发现问题?

    比如 集群风控系统没有全集群链路覆盖,限流配置没有全集群链路推平,可能导致某些故障场景引发集群全面崩溃,我们定期对风控配置全网扫描,判断是否可能导致故障,找出这些隐藏的已知风险点并告警。实现1.架构1)...
    文章 2021-04-25 2072浏览量
  • linux 性能监控工具——NAGIOS 和 OVO

    对服务器的进程、日志、性能进行集中管理,并对服务器的各项性能参数进行实时监控、分析和统计,同时提供面向应用的监控和根源故障定位,从而全面管理服务器及应用性能。功能: l 集成性好,提供统一的管理与监控 ...
    文章 2012-12-17 1361浏览量
  • 已经不需要司机的Waymo无人车,何时才能摆脱后座待命...

    不论如何,竞争一触即发,无人车玩家们有足够多的原因去尽早启动自己的商业化,以获得在这个巨大市场中的先发优势——ARK估计,在2030年前,无人车出行服务市场将会孵化出数万亿美金的利润。我们将无人车故障分为两...
    文章 2018-01-11 692浏览量
  • 山东移动选定DCLive实现互联网远程运维

    提供对串口操作等运维行为生命周期审计,采用流媒体录制运维操作过程,审计过程精细化,审计内容遵循“4W1H”原则,审计结果查看方便直观,便于事后故障分析、原因定位、责任追溯。第三.能够提供运维过程实时监控...
    文章 2017-09-01 1244浏览量
  • 支付宝技术风险负责人陈亮:把事情做到极致,技术的...

    当表单数据足够多,就意味着可供训练的样本数量足够庞大,此时可以通过 AI 的方式找出每笔金额不一致交易的故障原因,进而不断完善该故障的“分母”。对于 TRaaS 平台的未来规划,陈亮表示,在条件成熟且允许的情况...
    文章 2019-06-12 4106浏览量
  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化...

    我们也在构建科学预测方法,用网络故障库的形式逐步构建全网网络故障特征工程。利用特征库预测故障存在的可能,做到防范于未然。在故障发生后,做到快速发现、快速诊断,当我们已经可以很好的定性一个特征故障时,...
    文章 2017-12-14 1825浏览量
  • VMware vSphere 5.1 群集深入解析(二十八)-vSphere...

    当全部站点发生故障是需要考虑弹性架构的一个场景,我们建议开启接入控制(Admission Control),工作负载的可用性是许多扩展群集环境的主要驱动力,它建议有足够的容量允许站点故障,尽管如此,两个站点将平等的...
    文章 2017-11-15 1095浏览量
1 2 3 4 ... 23 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化