• 鲜为人知的混沌工程,到底哪里好?

    混沌工程故障注入和故障测试在关注点和工具中都有很大的重叠。混沌工程和其他方法之间的主要区别在于,混沌工程是一种生成新信息的实践,而故障注入是测试一种情况的一种特定方法。当想要探索复杂系统可能出现的...
    文章 2019-01-29 3498浏览量
  • 阿里巴巴在混沌工程领域的实践和思考

    关键词:混沌工程故障演练、最小化爆炸半径 一、为什么需要混沌工程(翻译自Chaos Engineering电子书) 1.1 混沌工程与测试的区别 混沌工程故障注入和故障测试在关注点和工具中都有很大的重叠。混沌工程和其他...
    文章 2018-12-19 3327浏览量
  • 阿里巴巴DevOps实践指南(二十)|业务系统安全工程

    业务系统安全工程框架由于业务系统以及故障原因的复杂性,单纯的从一个或多个点出发很难解决问题。业务系统安全工程以控制论和系统论为指导,以风险控制方法为工具,形成了自己的实施框架 IPDRI,即识别(identify)...
    文章 2021-07-06 333浏览量
  • 面向失败的设计-故障与攻防演练锤炼容灾应急能力

    初期:可以选择故障覆盖率这个指标(即发生并改进过故障系统,要能够免疫同样原因故障)。此时实验场景数就近似等同于故障覆盖率的分母。中期:可以选择监控发现率这个指标。此时实验场景数与实验次数是分母,...
    文章 2019-11-08 2067浏览量
  • 一文读懂混沌工程

    一些 IT 团队举办混沌工程游戏日,团队尝试破坏系统,使用故障模式、有效分析或其他策略来深入了解组织系统中的潜在故障点。混沌工程背后的理念混沌工程背后的主要理念是破坏系统收集相关信息,这将有助于提高系统的...
    文章 2022-03-02 143浏览量
  • Apsara Stack 技术百科|数字化业务系统安全工程

    风险控制是复杂系统工程&xff0c;控制效果受短板影响明显&xff0c;没有体系化控制手段&xff0c;难有效控制风险发生。解决方案实践系统故障诱因复杂&xff0c;这导致单点控制很难解决问题&xff0c;需要一个系统化解决方案。第一...
    文章 2022-04-01 326浏览量
  • 动态网站(六)

    对于资源耗尽引起的故障,可以通过查看系统负载、tcp状态、系统日志等了解具体的原因。而对于其他类型故障的处理,则可按上述所列的原因逐个排查。当然这里所列的条目并没有包括程序员更改程序导致故障这个原因,...
    文章 2017-11-16 990浏览量
  • 可靠性保障必备——云上如何进行混沌工程

    03 系统评价和混沌工程工具混沌工程系统成熟度从纵向可以分为5个等级。第一级&xff1a;多为起步系统&xff0c;为单环境、单地域部署&xff0c;只能在开发和测试环境中进行演练。第二级&xff1a;具备初步的多可用区部署&xff0c;...
    文章 2022-07-25 230浏览量
  • 《架构师》反思:系统可靠性

    系统故障是指硬件或者软件的错误状态,一般引进故障原因是这些:部件的失效、环境的物理干扰、操作错误或不正确的设计。按照时间的长短,故障可以分为:永久性、间歇性、瞬时性。故障的级别有:逻辑级故障、数据...
    文章 2016-05-05 5216浏览量
  • 《架构师》反思:系统可靠性

    系统故障是指硬件或者软件的错误状态,一般引进故障原因是这些:部件的失效、环境的物理干扰、操作错误或不正确的设计。按照时间的长短,故障可以分为:永久性、间歇性、瞬时性。故障的级别有:逻辑级故障、数据...
    文章 2017-11-08 1069浏览量
  • 视频监控系统安装方法以及故障解决

    由于产生上述的干扰现象不一定就是视频线不良而产生的故障,因此这种故障原因在判断时要准确和慎重。只有当排除了其它可能后,才能从视频线不良的角度去考虑。若真是电缆质量问题,最好的办法当然是把所有的这种电缆...
    文章 2017-07-03 993浏览量
  • 极致用云,数智护航

    提供智能监控(智能基线、黄金指标异常检测等)能力,精准高效地发现故障、并迅速判定故障的级别和影响面,并对故障原因作出定界。同时,我们也提供报警处理和监控运维联动能力,智能化地收敛与分级报警,并联动运维...
    文章 2021-12-24 353浏览量
  • 智能家居市场需求矛盾深层原因分析

    智能家居设备主要包括中央控制系统、家庭安防系统、家居照明系统、家居布线系统、家居网络系统、家庭环境控制系统和影院与多媒体系统以及背景音乐系统等多个智能家居系统系统的设备。从目前我国智能设备制造企业的...
    文章 2017-07-05 778浏览量
  • 我们雇佣了一只大猴子.

    如果对故障整体做初步画像,故障整体可以分为IaaS层、PaaS层、SaaS层的故障,每一层都可能有很多故障出发原因和表现。图片来源于 QCon·北京 故障如此之多,让人摸不着头脑,我们试着把维度降低一下,换一个视角来看...
    文章 2019-02-28 2156浏览量
  • 高可用系统设计精要:定个能达到的小目标,比如先读完...

    系统级的故障 – 包括主机、操作系统、中间件、数据库、网络、电源以及外围设备;数据和中介的故障 – 包括人员误操作、硬盘故障、数据乱了;还有:自然灾害、人为破坏、以及供电问题。有计划的 日常任务:备份,...
    文章 2017-05-02 1722浏览量
  • 智能家居市场需求矛盾深层原因分析

    智能家居设备主要包括中央控制系统、家庭安防系统、家居照明系统、家居布线系统、家居网络系统、家庭环境控制系统和影院与多媒体系统以及背景音乐系统等多个智能家居系统系统的设备。从目前我国智能设备制造企业的...
    文章 2017-07-04 1106浏览量
  • ITIL好看不好吃?(六)

    由于业务变化快、系统升级改造频繁,这些人的主要精力放在了项目建设和工程施工上,运行保障工作基本处在比较初级的自发状态:工作以“救火队”方式的被动响应为主,故障处理和系统维护过程基本没有记录和总结。...
    文章 2017-11-06 1148浏览量
  • 《零基础容器技术实战》学习体验记录

    在微服务架构中,一个大系统被拆分成多个小服务,小服务之间存在大量RPC调用,经常可能因为网络抖动等原因导致RPC调用失败,这时候使用重试机制可以提高请求的最终成功率,减少故障影响,让系统运行更稳定。...
    文章 2022-02-26 25浏览量
  • 存储系统故障导致台北桃园机场宕机36小时

    这次故障,至少到目前为止,系统维护厂商枱面上给的解释是某供应商的存储系统中有三块磁盘及一片机板故障,而在硬件修复后,必须要等待数据由第二套系统回复,所以需要这么久的时间,我们就从这个故障原因谈起;...
    文章 2017-08-08 1117浏览量
  • 【分布式系统工程实现】CAP理论及系统一致性

    然而,对于分布式系统工程设计和开发来说,CAP意味着什么呢?CAP 理论由 Berkerly 的 Brewer 教授提出,三者的含义如下: 一致性(Consistency):任何一个读操作总是能读取到之前完成的写操作结果;可用性...
    文章 2016-04-11 2852浏览量
  • 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    今天的分享,主要还是回归故障发生的本质,故障原因角度切入。看是否有一些方法论和通用性的手段可以沉淀出来。希望可以对大家有所帮助。今天演讲的主要包括两个部分:第一部分会从分布式系统经典依赖故障出发,剖析...
    文章 2017-06-19 4175浏览量
  • 这些常见的网络故障,你都知道如何解决吗

    在100Mbit/s时连接正常,只是在升级到1000Mbit/s时才发生故障,看来导致这种故障原因可能是超五类布线问题。虽然从理论上说超五类系统支持1000Mbit/s的传输速率,但是如果双绞线、配线架、网线和其他网络设备的...
    文章 2018-10-25 1571浏览量
  • 稳定性与高可用保障的工作思路

    而造成这些问题的原因,在软件系统中通常可以归结为以下三类:人为故障:在开发软件的各个环节中思考不充分,或者执行时粗心导致的各类问题。硬件故障:网络不通,硬盘空间不够,内存崩溃等。软件故障:线程池异常,...
    文章 2022-02-23 571浏览量
  • 性能测试与故障诊断

    还有些时候,硬件故障可以直接导致性能的下降,特别是在压力测试过程中,经常出现由于硬件原因导致无法访问服务器的现象,对于存在负载均衡的应用系统来说,故障虽不致于使系统处于瘫痪状态,但是却使得所有的压力...
    文章 2017-11-15 1295浏览量
  • 还不知道AIOps嘛?阿里这么火的智能运维,你不能不...

    对某些受众来说,比起故障原因更关心这个故障的影响面,这也会实时展现,包括影响的应用及其功能点列表。三. AIOps智能运维解决方案 1. 核心功能 上述内容给大家介绍了在故障发现和原因分析中引入机器学习算法和...
    文章 2018-05-30 13897浏览量
  • AWS S3误操作,官方故障回顾及专家深度思考

    故障原因 简单来说,这天,有一个AWS工程师在调查Northern Virginia(US-EAST-1)Region上S3的一个和账务系统相关的问题,这个问题是S3的账务系统变慢了(我估计这个故障在Amazon里可能是Sev2级,Sev2级的故障在Amazon...
    文章 2017-05-16 1744浏览量
  • 学习报告—冬季实战营第四期:零基础容器技术实战

    失败重试场景演练在微服务架构中,一个大系统被拆分成多个小服务,小服务之间存在大量RPC调用,经常可能因为网络抖动等原因导致RPC调用失败,这时候使用重试机制可以提高请求的最终成功率,减少故障影响,让系统运行...
    文章 2022-02-27 23浏览量
  • Chaos带你快速上手混沌工程

    失败重试场景演练在微服务架构中,一个大系统被拆分成多个小服务,小服务之间存在大量RPC调用,经常可能因为网络抖动等原因导致RPC调用失败,这时候使用重试机制可以提高请求的最终成功率,减少故障影响,让系统运行...
    文章 2021-11-15 207浏览量
  • 由支付宝瘫痪引发的灾备能力争议

    抛开故障原因不谈,这是支付宝一次重大的故障。在支付宝用户刚刚突破了3亿后,突如其来的故障,让不少用户意识到了支付宝的不安全因素。一位名为“吉麻娅Julia”的用户在新浪微博这样评论:“余额宝已经看不到钱了!...
    文章 2017-09-01 1231浏览量
  • 排除Kubernetes故障,只需3步

    为了尝试了解故障原因&xff0c;开发人员将首先分析系统最近的修改以及可能导致此故障发生的更改。当然&xff0c;这说起来容易做起来难。在复杂的分布式系统&xff0c;尤其是基于 Kubernetes 的系统中&xff0c;这意味着大量使用...
    文章 2022-04-17 28浏览量
1 2 3 4 ... 69 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化