• 面向失败的设计-故障与攻防演练锤炼容灾应急能力

    故障演练的定义线上故障演练就是通过平台化的方式沉淀通用的故障场景,以控成本在线上故障重放,通过持续的演练和回归方式来暴露问题,提升问题的响应和修复能力,缩短故障修复时长(MTTR)。实施准备对于一个...
    文章 2019-11-08 1230浏览量
  • 云原生高可用技术体系构建

    如果一个业务系统的流量很小且趋于稳定,那么是没有必要进行故障演练的,但是如果一个企业处于高速发展中,业务发展快,有大量的稳定技术债,其业务系统不断的变化,甚至今天的形态跟昨天的形态都不一致,架构也日...
    文章 2020-06-18 539浏览量
  • 《分布式系统:概念与设计》一2.4.2 故障模型

    这就是所谓的“丢失消息”,造成消息丢失的原因通常是在接收端或中间的网关上缺乏缓冲区空间,或因为网络传输错误(由消息数据携带的校验和检测到)。Hadzilacos和Toueg[1994]把在发送进程和外发消息缓冲区之间...
    文章 2017-08-01 1077浏览量
  • 《架构师》反思:系统可靠

    4.可靠性设计 故障模型 系统故障是指硬件或者软件的错误状态,一般引进故障的原因是这些:部件的失效、环境的物理干扰、操作错误或不正确的设计。按照时间的长短,故障可以分为:永久性、间歇性、瞬时性。故障的级别...
    文章 2016-05-05 4854浏览量
  • 天梭M13为何具有大型机水平的高可用

    胡雷钧表示,这三类产品不仅性能、扩展性是依次提升的,可用性设计更是如此,每一类产品在研发过程中,针对客户应用的技术需求,借鉴上一款产品的可用性设计,以不断完善正在研发的版本。RAS特性是主机与一般服务器...
    文章 2017-08-02 1424浏览量
  • 阿里巴巴DevOps实践指南(二十)|业务系统安全工程

    业务系统安全工程框架由于业务系统以及故障原因的复杂,单纯的从一个或多个点出发很难解决问题。业务系统安全工程以控制论和系统论为指导,以风险控制方法为工具,形成了自己的实施框架 IPDRI,即识别(identify)...
    文章 2021-07-06 212浏览量
  • 视频监控日常使用存在哪些故障

    针对这5种不同类型视频故障设计5个不同的基于机器学习的检测器,每个检测器负责分析一段视频是否存在某一种故障,以及这种故障的严重。而在实际运行的视频监控系统中提取大量的视频片断,包括正常视频以及存在...
    文章 2017-07-05 854浏览量
  • 视频监控日常使用存在哪些故障

    针对这5种不同类型视频故障设计5个不同的基于机器学习的检测器,每个检测器负责分析一段视频是否存在某一种故障,以及这种故障的严重。而在实际运行的视频监控系统中提取大量的视频片断,包括正常视频以及存在...
    文章 2017-07-05 827浏览量
  • 3+1保障:高可用系统稳定是如何炼成的?

    其他异常情况处理整体系统架构,除了正向逻辑、性能、扩展性设计等外,要增加一个异常设计视角,穷尽思考各类异常情况以及设计应对策略。2 容量评估设计系统设计整体至少考虑应对5到10倍或近1到3年系统规模增长,要...
    文章 2021-01-27 8353浏览量
  • 深入探讨运维驱动的监控性设计

    本文从运维性角度,结合运维前移的理念,强调需求设计阶段对非功能需求中的运维监控性进行详细考虑的必要性,并提出交维阶段对监控性设计和实现的验收验证方法、技术和工具的应用方法。作者介绍 陈能技 【DBA+...
    文章 2017-05-02 1477浏览量
  • 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    今天的分享,主要还是回归故障发生的本质,故障原因角度切入。看是否有一些方法论和通用的手段可以沉淀出来。希望可以对大家有所帮助。今天演讲的主要包括两个部分:第一部分会从分布式系统经典依赖故障出发,剖析...
    文章 2017-06-19 3717浏览量
  • 阿里云对象存储 OSS 发布全球第一可用 SLA 背后的...

    3.3.4 对象服务QoSOSS 服务层聚焦数据组织和功能实现,由于底层盘古和有巢的分布式能力,OSS 服务层按照无状态方式设计,从而故障时可以快速切换,提高可用。但是,由于 OSS 是多租户模型设计,做好 QoS 的监控和...
    文章 2020-06-17 359浏览量
  • 服务器集群是什么?服务器集群重要及类型普及

    服务器集群可以通过在系统出现故障时提供容错来提供可靠,方法是通过冗余消除特定的故障点,伸缩是网络未来增长的能力。服务器集群如何工作?对于不能在多个服务器之间分配的应用程序,服务器集群可以很好地...
    文章 2020-04-22 1150浏览量
  • 130 秒揭秘 EDAS 3.0 如何平滑应对突发流量高峰,为您...

    作为一个交易核心链路新系统上线进行压是必不少的环节,这也体现了云上PTS的压系统对于用户重要,在压过程中遇到问题我们需要进行一轮轮调优,调优过程中EDAS3.0的监控中心和日志中心起到了重要作用,将...
    文章 2020-10-12 4709浏览量
  • 萨纳斯光伏大数据体系之光伏设备运行分析

    考虑到及时发现光伏设备故障、充分反映光伏设备的运行效率、准确衡量光伏电站运维效果、完成光伏设备评估等问题,萨纳斯运用描述统计分析,主成分分析、聚类分析、关联分析等方法对光伏设备运行大数据进行统计和...
    文章 2017-07-03 1228浏览量
  • 技本功|数据安全之IDC数据容灾设计实现

    通常来讲,备库更侧重于保障服务的可用,旨在当主库不可用时进行服务接管,从而确保故障发生后,能够在极短时间内继续拥有对外提供服务的能力;而备份则侧重于保障数据的可靠,其重大意义在于将数据文件进行离线...
    文章 2020-09-04 73浏览量
  • 带你读《智能制造之卓越设备管理与运维实践》之三:运...

    改善维修适用于设备先天不足,即存在设计、制造、原材料缺陷以及进入耗损故障期的设备。设备的故障根源有很多种,比如材料变形、液体物理性质不稳定、严重磨损、故障频繁重复等,改善维修要求在系统的性能和材料...
    文章 2019-11-08 1195浏览量
  • 云计算网络基础架构的实践和演进——打造云计算网络...

    而通过日常的巡检和探测能够及时地发现故障,并在故障发生之后及时了解故障发生的具体原因并提供故障定位的方式,进而提高云平台网络的可靠。上述这些都是在公有云网络上的实践,对于专有云而言,又会存在什么样的...
    文章 2017-04-24 18745浏览量
  • 数据中心设计建造中的八个事实

    本文指出了数据中心设计建造中的八个事实,看看你是不是还被蒙在鼓里呢?1.只要有功率输入,即有热量输出 在数据中心的供电系统中,绝大部分电能是要转化成热量的,只有少数电能是真正得到利用的。这是由于数据中心...
    文章 2017-09-01 1049浏览量
  • 跨可用区冗余可用最高达99.995%

    在技术层面:1)阿里云OSS基于业界领先的阿里云自研分布式存储基座——盘古,在设计时充分考虑到了各种可能会出现故障采用碎片化分布式离散存储技术存储用户的数据。2)采用领先的网络负载均衡技术,最大程度提高...
    文章 2020-06-09 867浏览量
  • 阿里巴巴在混沌工程领域的实践和思考

    故障演练(MonkeyKing):是阿里巴巴在混沌工程领域的产品,目标是沉淀通用的故障模式,以控成本在线上重放,以持续的演练和回归方式运营来暴露问题,不断推动系统、工具、流程、人员能力的不断前进。...
    文章 2018-12-19 3250浏览量
  • 如何做好一名稳定SRE-业务团队系统稳定的思与行

    2.自动化、系统化、数据化SRE不是在做一种收尾型、擦屁股的工作,而是在做一种探索、前瞻的工作,但SRE不避免的,会面对很多重复的工作,所以除了要在组织和机制上做好分工,让恰当的人做恰当的事之外,SRE...
    文章 2020-10-26 4300浏览量
  • 云计算设计模式(十八)——重试模式

    延迟时间可以逐步增加,或使用的定时策略,如指数回退,取决于故障的性质和可能,这将在这段时间内被校正。图1示出了这种模式。如果尝试后的预定数量的请求不成功,应用程序应将故障为异常,并相应地处理它。图1...
    文章 2014-11-07 743浏览量
  • 分布式系统的设计几个要注意的地方

    对于一个服务几年的服务器来说,故障的可能非常大,尤其是如果这个服务器的平时负载比较高的话。我不清楚一台服务器的平均保修时间是多少,但是绝对不可能是几个小时能搞定的,这个时间少则一天,多则半个月甚至更...
    文章 2014-12-25 1348浏览量
  • 《阿里巴巴中台战略思想与架构实践》笔记

    “基本可用”是指分布式系统在出现故障的时候,允许损失部分可用,即保证核心可用。电商大促时,为了应对访问量激增,部分用户可能会被引导到降级页面,服务层也可能只提供降级服务。这就是损失部分可用的体现。...
    文章 2020-01-10 731浏览量
  • MySQL-高可用:少宕机即高可用?

    3.糟糕的表结构设计和索引设计复制 20%主备数据不一致数据丢失或损坏 10%误操作删除数据,缺少备份运行环境通常可以看作是支持数据库服务器运行的系统资源集合,包括操作系统、硬盘以及网络等。另外,我们虽然经常用...
    文章 2019-04-29 1085浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    由于以上原因,华佗就承担了飞天平台自动化故障处理系统的任务,提升集群故障发现、处理的效率和准确,解放运维人员,提高飞天稳定和可靠。实现 如何能又快又好地发现和解决线上故障呢?我们进行了很长时间的...
    文章 2016-12-18 4692浏览量
  • 《分布式系统:概念与设计》一1.5 挑战

    伸缩分布式系统的设计面临下列挑战:控制物理资源的开销:当对资源的需求增加时,应该可以花费合理的开销扩展系统以满足要求。例如,在企业内部网上文件被访问的频率可能随用户和计算机数量的增加而增加。如果一台...
    文章 2017-08-01 1147浏览量
  • 如何做到全年配送 0 故障?盒马揭秘 12个关键技术

    DB依赖主要分析依赖DB的稳定,首先,DB有没有慢SQL,盒马早期大多数故障原因是慢sql导致,后来对DB的集中治理才使得这块不稳定因素被逐步瓦解,但是慢SQL治理是长期的事情,不管是上新业务的sql事前分析,还是流量...
    文章 2020-02-18 660浏览量
  • 《电子元器件的可靠》——1.2节质量观与可靠概念

    可靠与维修都是相对失效或故障而言,明确失效或故障的定义,研究失效或故障的类型和原因,对可靠和维修都有很重要的意义。失效(Failure),对于修复的产品,通常称为故障,其定义为产品丧失规定的功能。...
    文章 2017-07-03 1358浏览量
1 2 3 4 ... 45 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化