• 带你读《智能制造之卓越设备管理与运维实践》之三:运...

    2.预测性维修预测性维修是以设备当前的实际工作状况为依据,相比传统的以设备使用时间为依据的维修,它通过先进的状态监测与诊断手段,识别故障的早期征兆,对故障部位、故障程度和发展趋势做出判断,根据诊断结果来...
    文章 2019-11-08 1130浏览量
  • 缺陷预防之RCA实践小记

    RCA背景、概念、开展目的 IOWA 州立大学质量管理学 院认为:很多公司在设备发生故障后,都能够很快修复,但往往很难发现哪些是引起这些故障的根本原因,这样会导致故障会再次发生。这里所说的根本原因,是指 导致...
    文章 2017-07-10 1714浏览量
  • 阿里如何做到百万量级硬件故障自愈?

    针对每台机器的硬件问题,我们会开一个自动轮转工来跟进,当前存在两套自愈流程:【带应用维修流程】和【无应用维修流程】,前者针对的是可热拔插的硬盘故障,后者是针对余下所有的整机维修硬件故障。在我们的...
    文章 2018-11-24 3419浏览量
  • 阿里如何做到百万量级硬件故障自愈?

    针对每台机器的硬件问题,我们会开一个自动轮转工来跟进,当前存在两套自愈流程:【带应用维修流程】和【无应用维修流程】,前者针对的是可热拔插的硬盘故障,后者是针对余下所有的整机维修硬件故障。在我们的...
    文章 2018-11-19 2921浏览量
  • KubeNode:阿里巴巴云原生 容器基础设施运维实践

    进行故障分析统计,也可以分析整体 KubeNode 中的节点以及节点组件的覆盖率、一致率、节点自愈的效率,并提供针对节点的全链路诊断功能,当排查节点问题时,可以查看该节点上历史发生过的所有的事件,从而帮助用户...
    文章 2021-03-11 841浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    例如一个交换机的网络故障(半坏不坏),可能就会引起大批量的任务失败,但调查失败的根本原因可能要翻遍整个系统才知道是网络故障。更重要的是集群的规模增大之后,人为处理故障过程中可能出错的概率更大,并且...
    文章 2016-12-18 4668浏览量
  • 优化冷却系统中的自控系统(下)

    如果单个单元出现故障,在冗余冷却单元处于“待机”状态下,控制系统在冷却单元出现故障时将“唤醒”。或者如果所有单元都在启动,包括冗余单元,则CRAH或CRAC风扇将自动启动以提供更多的冷却能力,请注意,如果单元...
    文章 2017-07-03 1547浏览量
  • 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    今天的分享,主要还是回归故障发生的本质,故障原因角度切入。看是否有一些方法论和通用性的手段可以沉淀出来。希望可以对大家有所帮助。今天演讲的主要包括两个部分:第一部分会从分布式系统经典依赖故障出发,剖析...
    文章 2017-06-19 3674浏览量
  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的...

    对可疑故障链路进行标红处理,通过庖丁可视化界面,轻松判断故障的发生原因。在故障发现、探测的最终结果可以对具体的用户呈现,也可以通过API形式对业务系统进行主动的信息推送。这意味着上层业务网络查询更加开放...
    文章 2018-01-05 4827浏览量
  • 基础设施助力双11(十):百万级物理和虚拟网络设备的...

    对可疑故障链路进行标红处理,通过庖丁可视化界面,轻松判断故障的发生原因。在故障发现、探测的最终结果可以对具体的用户呈现,也可以通过API形式对业务系统进行主动的信息推送。这意味着上层业务网络查询更加开放...
    文章 2019-07-31 903浏览量
  • 《深入理解计算机系统》读书笔记&要点总结<下>

    故障发生时,处理器将控制转移到故障处理程序。如果处理程序能够修正这个错误情况,它就会将控制返回到引起故障的指令,从而重新执行它。否则,处理程序返回到内核的abort例程,abort例程会终止引起故障的应用程序...
    文章 2016-03-31 3207浏览量
  • 智能平台管理接口(IPMI)

    IPMI的预告故障能力也有助于 IT 周期的管理。通过检查系统事件日志(SEL),可以更轻松的预先判定故障组件。本文转自zh888 51CTO博客,原文链接:http://blog.51cto.com/zh888/805328,如需转载请自行联系原作者
    文章 2017-11-15 1788浏览量
  • 玩转ECS第3讲|ECS自助服务之智能诊断和自动化修复

    专家经验是基于案例库和知识库抽象出来的各种逻辑规则,比如ECS启动失败原因可能是库存原因、调度原因、块存储、控制侧异常、Guest OS启动异常、底层虚拟化异常等。专家决策和决策树会依次排查可能的原因,下图中每...
    文章 2020-10-28 2449浏览量
  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化...

    对可疑故障链路进行标红处理,通过庖丁可视化界面,轻松判断故障的发生原因。在故障发现、探测的最终结果可以对具体的用户呈现,也可以通过API形式对业务系统进行主动的信息推送。这意味着上层业务网络查询更加开放...
    文章 2017-12-14 1848浏览量
  • CPU静默数据错误:存储系统数据不丢不错的设计思考

    本文重点讨论数据的不丢不错故障原因,以及数据存储系统如何防控设计,不对数据库事务深入讨论。1 常见的磁盘、内存、网络数据翻转(Bit Flip)对于计算机系统来说,不管是计算还是存储,不管是电子部件还是机械部件...
    文章 2021-07-01 3028浏览量
  • 如何做到全年配送 0 故障?盒马揭秘 12个关键技术

    DB依赖主要分析依赖DB的稳定性,首先,DB有没有慢SQL,盒马早期大多数故障原因是慢sql导致,后来对DB的集中治理才使得这块不稳定因素被逐步瓦解,但是慢SQL治理是长期的事情,不管是上新业务的sql事前分析,还是流量...
    文章 2020-02-18 619浏览量
  • 带你读《智能制造之卓越设备管理与运维实践》之一:...

    2008年版本更新之后,PAS 55规范包括了从全生命策略到日常维修管理最佳实践的28个方面,企业可结合自身现状,识别与最佳实践的差距,分析原因,提出解决方案,实现企业在资产(设备)管理方面的持续改进。...
    文章 2019-11-08 1248浏览量
  • 《架构师》反思:系统可靠性

    系统故障是指硬件或者软件的错误状态,一般引进故障原因是这些:部件的失效、环境的物理干扰、操作错误或不正确的设计。按照时间的长短,故障可以分为:永久性、间歇性、瞬时性。故障的级别有:逻辑级故障、数据...
    文章 2016-05-05 4831浏览量
  • 容器与DevOps 被称为天作之合的7个原因

    以下就是容器技术与DevOps环境良好配合的七个原因。容器可以提高数据和应用程序安全性 容器的一个关键优点是它们能够随意隔离应用程序代码甚至整个基础架构堆栈。使用容器,ops团队可以设置命名空间,以使测试和生产...
    文章 2017-07-13 961浏览量
  • 【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之...

    组件规范全生命周期管理:主要从规范的角度在组件的整个生命周期去落地,从出生启用和集群准入开始,到每一次变更,到下线整个生命周期都要防止组件乱用、野蛮生长、无限膨胀,控制组件在系统可承受范围之内。...
    文章 2021-05-17 641浏览量
  • 同程旅行基于 RocketMQ 高可用架构实践

    ​为何做双中心​机房故障业务可用;​保证数据可靠:若所有数据都在一个机房,一旦机房故障,数据有丢失风险;横向扩容:单机房容量有限,多机房可分担流量。​双中心方案​做双中心之前,对同城双中心方案作了些...
    文章 2021-07-01 3110浏览量
  • 在本地机房就能享受专属公共云服务?...

    使用体验上,用户可以通过公共云的控制台来管理云盒内计算、网络、存储的全生命周期;共用一套账号体系,通过跨账号方式实现云上云下资源共享,客户的使用十分便捷。目前,云盒主要提供计算、存储、网络三大基础产品...
    文章 2021-07-01 401浏览量
  • 模拟驾驶能力输出,赋能客户提升稳定性信心

    故障诊断工具-SRE-CLISite Reliability Engineer-Command-Line Interface(简称SRE-CLI)是一款黑屏化控制台的故障诊断工具,能够根据异常场景从场景库中匹配检查项进行自动诊断并确认异常原因,归档异常详细信息,...
    文章 2020-10-28 12217浏览量
  • 中国移动基于SDN和NFV的固网架构演进探讨

    播、组播、路由等管道类控制面功能保留在BRAS-UP,主要原因是当前BRAS层面流量不均衡问题并不明显,不需要移入控制层面然后利用SDN技术解决流量不均衡问题;另外,如果只考虑BRAS的虚拟化和SDN化,无法有效解决城...
    文章 2017-08-01 1266浏览量
  • 阿里巴巴DevOps实践指南(二十二)|发布策略

    如果出了问题,把路由切回到绿环境上,再在蓝环境中调试,找到问题的原因。因此,蓝绿部署可以做到仅仅一次切换,立刻就向所有用户推出新版本,新功能对所有用户立刻生效可见。优势:升级切换和回退速度非常快零停机...
    文章 2021-07-06 289浏览量
  • DevOps发布策略简介

    如果出了问题,把路由切回到绿环境上,再在蓝环境中调试,找到问题的原因。因此,蓝绿部署可以做到仅仅一次切换,立刻就向所有用户推出新版本,新功能对所有用户立刻生效可见。优势:升级切换和回退速度非常快零停机...
    文章 2021-07-06 3565浏览量
  • 中国移动基于SDN和NFV的固网架构演进探讨

    播、组播、路由等管道类控制面功能保留在BRAS-UP,主要原因是当前BRAS层面流量不均衡问题并不明显,不需要移入控制层面然后利用SDN技术解决流量不均衡问题;另外,如果只考虑BRAS的虚拟化和SDN化,无法有效解决城...
    文章 2017-10-06 962浏览量
  • 《工业控制网络安全技术与实践》一2.5.2 PLC的基本...

    以上两个主要原因,使得PLC的I/O响应比一般微型计算机构成的工业控制系统慢得多,其响应时间至少等于一个扫描周期,一般均大于一个扫描周期甚至更长。所谓I/O 响应时间指从PLC 的某一输入信号变化开始到系统有关输出...
    文章 2017-09-07 1645浏览量
  • 《VMware Virtual SAN权威...分布式交换机和网络I/O控制

    当只有一条上行链路可用时(由于网卡故障或者维护的原因),可用带宽减半,相当于5GbE带宽。表3-2列出了不同流量类型推荐配置的份额值。这里讨论的两种场景都应该可以给你的VSAN群集提供一个优化的网络配置。
    文章 2017-08-01 1115浏览量
  • 面对大规模 K8s 集群,如何先于用户发现问题?

    我们希望 KubeProbe 能在 变更时(监听到集群状态发生变化/组件变更/组件发布/系统升级等等事件)/运行时(周期,高频)/故障恢复时(手动),通过周期/事件触发/手动触发,执行各种不同类型的黑盒探测,第一时间...
    文章 2021-04-25 2124浏览量
1 2 3 4 ... 18 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化