• 带你读《智能制造之卓越设备管理与运维实践》之三:运...

    2.预测性维修预测性维修是以设备当前的实际工作状况为依据,相比传统的以设备使用时间为依据的维修,它通过先进的状态监测与诊断手段,识别故障的早期征兆,对故障部位、故障程度和发展趋势做出判断,根据诊断结果来...
    文章 2019-11-08 1978浏览量
  • 阿里云服务器发布最新的服务等级协议SLA 为全球最高...

    服务可用性=(实例服务周期总分钟数-实例地域多可用区服务不可用分钟数)/实例服务周期总分钟数×100% 2、服务可用性承诺 (1)对于实例维度,阿里云承诺一个服务周期内ECS的服务可用性不低于99.975%;(2...
    文章 2019-12-17 2252浏览量
  • 阿里云服务器发布最新的服务等级协议SLA 为全球最高...

    服务可用性=(实例服务周期总分钟数-实例地域多可用区服务不可用分钟数)/实例服务周期总分钟数×100% 点我领取阿里云2000元代金券,(阿里云优惠券的作用:购买阿里云产品,最后支付结算的时候,阿里云优惠...
    文章 2019-12-19 1181浏览量
  • 缺陷预防之RCA实践小记

    RCA背景、概念、开展目的 IOWA 州立大学质量管理学 院认为:很多公司在设备发生故障后,都能够很快修复,但往往很难发现哪些是引起这些故障的根本原因,这样会导致故障会再次发生。这里所说的根本原因,是指 导致...
    文章 2017-07-10 1989浏览量
  • 阿里如何做到百万量级硬件故障自愈?

    针对每台机器的硬件问题,我们会开一个自动轮转工来跟进,当前存在两套自愈流程:【带应用维修流程】和【无应用维修流程】,前者针对的是可热拔插的硬盘故障,后者是针对余下所有的整机维修硬件故障。在我们的...
    文章 2018-11-24 3701浏览量
  • 阿里如何做到百万量级硬件故障自愈?

    针对每台机器的硬件问题,我们会开一个自动轮转工来跟进,当前存在两套自愈流程:【带应用维修流程】和【无应用维修流程】,前者针对的是可热拔插的硬盘故障,后者是针对余下所有的整机维修硬件故障。在我们的...
    文章 2018-11-19 3357浏览量
  • KubeNode:阿里巴巴云原生 容器基础设施运维实践

    进行故障分析统计,也可以分析整体 KubeNode 中的节点以及节点组件的覆盖率、一致率、节点自愈的效率,并提供针对节点的全链路诊断功能,当排查节点问题时,可以查看该节点上历史发生过的所有的事件,从而帮助用户...
    文章 2021-03-11 1504浏览量
  • ERP实施完了,为什么还要做MES?

    一个设计良好的MES系统可以在统一平台上集成诸如生产调度、生产统计、产品跟 踪、物料配送、质量控制、仓库管理、设备故障分析等管理功能,使用统一的数据库和通过网络联接可以同时为生产部门、质检部门、工艺部门、...
    文章 2017-07-06 1565浏览量
  • IT运维,关注技术还是管理

    市场研究机构Gartner调查发现,在导致IT基础设施出现故障原因中,源自技术或产品方面的因素其实只占了20%,而因为运维管理方面的原因则占到80%,可见IT系统运维管理思想是相当重要的。所以,我们必须要向管理要...
    文章 2017-11-09 950浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    例如一个交换机的网络故障(半坏不坏),可能就会引起大批量的任务失败,但调查失败的根本原因可能要翻遍整个系统才知道是网络故障。更重要的是集群的规模增大之后,人为处理故障过程中可能出错的概率更大,并且...
    文章 2016-12-18 5006浏览量
  • 极致用云,数智护航

    提供智能监控(智能基线、黄金指标异常检测等)能力,精准高效地发现故障、并迅速判定故障的级别和影响面,并对故障原因作出定界。同时,我们也提供报警处理和监控运维联动能力,智能化地收敛与分级报警,并联动运维...
    文章 2021-12-24 382浏览量
  • 智能平台管理接口(IPMI)

    传统的故障诊断一般是管理员到故障现场根据经验诊断故障原因,而利用IPMI,管理员可以通过网络或者串口访问远端服务器,通过获取事件日志和传感器数据记录来分析、确认故障原因,并通过远程操作来实现服务器恢复。...
    文章 2012-12-28 1990浏览量
  • 带你读《软件定义网络之旅:构建更智能、更快速、更...

    它支持台设备在需要时在软件控制下提供多种功能。当使用 NFV重新设计 CPE时&xff0c;采用的方法是支持功能实体在新虚拟化 CPE内部或网络中的网络云上运行。对于CPE内的本地网络功能&xff0c;需要通过创新来构建一种...
    文章 2021-10-18 38浏览量
  • Chaos带你快速上手混沌工程

    失败重试场景演练在微服务架构中,一个大系统被拆分成多个小服务,小服务之间存在大量RPC调用,经常可能因为网络抖动等原因导致RPC调用失败,这时候使用重试机制可以提高请求的最终成功率,减少故障影响,让系统运行...
    文章 2021-11-15 245浏览量
  • 优化冷却系统中的自控系统(下)

    如果单个单元出现故障,在冗余冷却单元处于“待机”状态下,控制系统在冷却单元出现故障时将“唤醒”。或者如果所有单元都在启动,包括冗余单元,则CRAH或CRAC风扇将自动启动以提供更多的冷却能力,请注意,如果单元...
    文章 2017-07-03 1666浏览量
  • 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    今天的分享,主要还是回归故障发生的本质,故障原因角度切入。看是否有一些方法论和通用性的手段可以沉淀出来。希望可以对大家有所帮助。今天演讲的主要包括两个部分:第一部分会从分布式系统经典依赖故障出发,剖析...
    文章 2017-06-19 4246浏览量
  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的...

    对可疑故障链路进行标红处理,通过庖丁可视化界面,轻松判断故障的发生原因。在故障发现、探测的最终结果可以对具体的用户呈现,也可以通过API形式对业务系统进行主动的信息推送。这意味着上层业务网络查询更加开放...
    文章 2018-01-05 5103浏览量
  • 基础设施助力双11(十):百万级物理和虚拟网络设备的...

    对可疑故障链路进行标红处理,通过庖丁可视化界面,轻松判断故障的发生原因。在故障发现、探测的最终结果可以对具体的用户呈现,也可以通过API形式对业务系统进行主动的信息推送。这意味着上层业务网络查询更加开放...
    文章 2019-07-31 1211浏览量
  • 《深入理解计算机系统》读书笔记&要点总结<下>

    故障发生时,处理器将控制转移到故障处理程序。如果处理程序能够修正这个错误情况,它就会将控制返回到引起故障的指令,从而重新执行它。否则,处理程序返回到内核的abort例程,abort例程会终止引起故障的应用程序...
    文章 2016-03-31 3381浏览量
  • NAND闪存:寿命问题终成桎梏

    “这确实是NAND闪存技术的一个特点,我们需要损耗控制以提供最佳性能并延长寿命,”SNIA委员会主席、同时也是IBM高管的Phil Mills表示,“损耗均衡算法是针对NAND闪存的写入/擦除周期问题所设计的,目的是让NAND闪存...
    文章 2017-08-09 1338浏览量
  • 智能平台管理接口(IPMI)

    IPMI的预告故障能力也有助于 IT 周期的管理。通过检查系统事件日志(SEL),可以更轻松的预先判定故障组件。本文转自zh888 51CTO博客,原文链接:http://blog.51cto.com/zh888/805328,如需转载请自行联系原作者
    文章 2017-11-15 2126浏览量
  • 玩转ECS第3讲|ECS自助服务之智能诊断和自动化修复

    专家经验是基于案例库和知识库抽象出来的各种逻辑规则,比如ECS启动失败原因可能是库存原因、调度原因、块存储、控制侧异常、Guest OS启动异常、底层虚拟化异常等。专家决策和决策树会依次排查可能的原因,下图中每...
    文章 2020-10-28 5646浏览量
  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化...

    对可疑故障链路进行标红处理,通过庖丁可视化界面,轻松判断故障的发生原因。在故障发现、探测的最终结果可以对具体的用户呈现,也可以通过API形式对业务系统进行主动的信息推送。这意味着上层业务网络查询更加开放...
    文章 2017-12-14 1980浏览量
  • MES系统总体介绍

    通过设备的安全运行情况和故障隐患维护情况,不断完善设备维保项目和周期,逐步建立一套良好的设备预防维修机制,进行有针对性的计划维修,提高设备的保障能力;通过对员工工作记录的统计分析,加强对人的行为的管理...
    文章 2017-11-26 2689浏览量
  • 混合云应用双活容灾最佳实践

    进入 Chaos 故障演练产品控制台[9]&xff0c;顶部选择切换到相应地域&xff0c;左侧导航栏选择我的空间。在我的空间选择配置好的演练&xff08;50%概率网络丢包&xff09;xff0c;然后单击执行演练。故障注入成功后&xff0c;打开...
    文章 2022-01-18 636浏览量
  • 云计算网络基础架构的实践和演进——打造云计算网络...

    而通过日常的巡检和探测能够及时地发现故障,并在故障发生之后及时了解故障发生的具体原因并提供故障定位的方式,进而提高云平台网络的可靠性。上述这些都是在公有云网络上的实践,对于专有云而言,又会存在什么样的...
    文章 2017-04-24 19528浏览量
  • 如何设计一个监控平台(上篇)

    在进行故障原因定位时&xff0c;可以通过故障区域筛选以及多维度关联分析找到关键事件来进行系统自主故障定位。当然&xff0c;如果可以结合AI技术&xff0c;不断训练对应的分析模型&xff0c;可以最终实现无需人工介入的故障定位...
    文章 2022-01-06 154浏览量
  • SLA 简介

    事实上考虑到一个合同周期 的长度,通常说的可用性达99%这实际是一个非常低的可用指标,如果是5*8的服务的话,99%的可用性意味着有208个小时的时间内服务是不可用的,在 实际的服务过程中,单位用小时是过粗的,因为...
    文章 2012-12-27 2960浏览量
  • CPU静默数据错误:存储系统数据不丢不错的设计思考

    本文重点讨论数据的不丢不错故障原因,以及数据存储系统如何防控设计,不对数据库事务深入讨论。1 常见的磁盘、内存、网络数据翻转(Bit Flip)对于计算机系统来说,不管是计算还是存储,不管是电子部件还是机械部件...
    文章 2021-07-01 3325浏览量
  • 如何做到全年配送 0 故障?盒马揭秘 12个关键技术

    DB依赖主要分析依赖DB的稳定性,首先,DB有没有慢SQL,盒马早期大多数故障原因是慢sql导致,后来对DB的集中治理才使得这块不稳定因素被逐步瓦解,但是慢SQL治理是长期的事情,不管是上新业务的sql事前分析,还是流量...
    文章 2020-02-18 1080浏览量
1 2 3 4 ... 38 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化