• 谷歌架构的转变:从单数据中心到故障转移系统,再到多...

    出现数据中心级别的故障时,多宿主系统是唯一能够提供高可用性和完整一致性的系统。在典型流系统中,事件处理基于用户交互来解决;同时,全世界范围内的多台数据中心为用户提供流量服务和日志存储服务。日志收集...
    文章 2017-07-03 898浏览量
  • 也谈WINDOWS下分区类型变为RAW

    如果0扇区是错的,文件系统驱动读取0扇区时,发现既满足FAT规则,也满足NTFS规则,那自然地抛出异常,询问用户"我知道是什么文件系统,是不是要强制规划一个指定的文件系统?就是文中的错误提示。知道...
    文章 2017-11-20 1329浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    在磁盘进入SLOW或WARNING状态时,在线应用一般会选择不再使用此磁盘,因为此时磁盘可能已经出现损坏的迹象,会造成延时大规模增加,但对于理想的应用则可以继续使用。一旦磁盘进入ERROR状态,则表明此磁盘可能马上...
    文章 2016-12-18 4584浏览量
  • 浅析单点故障以及云上高可用和容灾

    这里的可用性,我们通常用平均无故障时间来度量,可以说平均运行多长时间才发生一次故障,也可以以平均一个周期内非故障时间与总时间的比例来表示。容灾 DR(Disaster Recovery)。字面意思是灾难恢复。在云上环境...
    文章 2017-09-27 4720浏览量
  • 托管节点池助力用户构建稳定自愈的 Kubernetes 集群

    系统在运行的过程中产生稳定性,系统垃圾、未处理告警堆积、代码 Bug 累积、未处理的边缘异常 Case、一些人为故障源、都会引发的系统 Fail,无法穷举这些确定性进一步决定了可能 100%的覆盖所有修复 CASE,...
    文章 2021-02-02 3169浏览量
  • 数据中心“容灾”和“备份”的区别

    一般意义上,备份指的是数据备份或系统备份,容灾指的是在同一机房的数据备份或应用系统备份。备份采用备份软件技术实现,而容灾通过复制或镜像软件实现,两者的根本区别在于: 容灾主要针对火灾、地震等重大自然...
    文章 2019-12-17 5186浏览量
  • 硬盘供电不足引起的系统不正常现象

    今天早上开机再次出现蓝屏,直接报0x000000F4,重启后找到硬盘,连续两次,测试拔插希捷的硬盘就可以重新识别,而拔插迈拓的依然故障,判断为和希捷硬盘有关。查询网上说电源不足或者硬盘电源线要保证好,还有数据...
    文章 2017-11-01 1839浏览量
  • 云原生时代,企业多活容灾体系构建思路与最佳实践

    第二,5 分钟定位,原来同城的比如冷备容灾技术,往往做决策非常费劲,或者谁做切换要承担后果,我们更希望基于这个平台能直观看到今天故障影响的情况,相关对应出现什么问题干系人需要做什么样的动作,或者做什么...
    文章 2021-07-02 5283浏览量
  • IBM和SAP合力打造美国的物联网时代

    在弹性方面,IBM Power Systems的默认架构支持一系列企业级可靠性功能,包括可在系统出现故障时实现高效故障转移的虚拟化开箱即用。主动警告企业的问题,以便他们可以在故障发生前启动纠正措施。在分析物联网应用...
    文章 2017-07-03 849浏览量
  • HBase可用性分析与高可用实践

    当主集群连续抛错或者连续超时超过用户指定次数时,即判定主集群存在故障需要进行”切换”,在切换状态下在主库服务恢复可以进行正常访问的情况进行自动回切,对用户完全透明。优点: 主备双活能大大提高HBase服务的...
    文章 2020-04-27 624浏览量
  • 阿里如何做好双11技术保障?大队长霜波分享4点经验

    我回去之后想了解为什么在2011年的时候会出现这样的情况,必须在零点的时候通知商品下架,后来知道了那一年出现了一个功能性的错误。虽然之前我们做了很多的验证操作,但是在那天晚上8点的时候,收到商家反馈,说他...
    文章 2021-01-06 335浏览量
  • 阿里如何做好双11技术保障?大队长霜波分享4点经验

    我回去之后想了解为什么在2011年的时候会出现这样的情况,必须在零点的时候通知商品下架,后来知道了那一年出现了一个功能性的错误。虽然之前我们做了很多的验证操作,但是在那天晚上8点的时候,收到商家反馈,说他...
    文章 2021-01-06 2429浏览量
  • 《日志管理与分析权威指南》一2.2.3 日志内容

    日志也能告诉某些系统出现故障或者将要出现故障,例如磁盘错误。日志还能告诉你哪些工作正在正常进行,并给出资源利用和性能的相关信息。日志还可能包括状态改变、启动和停止等等信息。日志有时能告诉你入侵尝试的...
    文章 2017-07-03 1488浏览量
  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2018-01-05 4779浏览量
  • 分布式系统:CAP 理论的前世今生

    正常情况下分布式系统各个节点之间的通信是可靠的,不会出现消息丢失或者延迟很高的情况,但是网络是可靠的,总会偶尔出现消息丢失或者消息延迟很高的情况,这个时候不同区域的节点之间在一段时间内就会出现无法...
    文章 2019-04-28 2193浏览量
  • 基础设施助力双11(十):百万级物理和虚拟网络设备的...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2019-07-31 847浏览量
  • 通过支付宝服务中断事件看系统可靠性和YunOS的可靠性

    主从备份(Active-StandBy):正常情况下只有主服务工作,备份服务工作,在主服务出现故障时,备份服务可以立即启用,通常是1+1 的方式,这种策略备份服务在很多时候可能都是冗余,但又是必须,所以资源使用率高。...
    文章 2016-01-14 8218浏览量
  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2017-12-14 1825浏览量
  • 如何做好一名稳定性SRE-业务团队系统稳定性的思与行

    这样的人平时很踏实,用起来也顺手,但是却无法主动提高系统稳定性,有的时候反而系统稳定性造成伤害(稳定性就像大堤,主动升级,就早晚腐烂)。1.2,业务团队如何支持稳定性SRE人员 给资源,稳定性从来...
    文章 2020-10-26 3284浏览量
  • 基于阿里云MaxCompute实现复杂事件检测

    服务突然的中断影响大量客户的使用,导致业务出现延迟甚至最终给 企业带来重大损失。目前最大的挑战是监控系统获取的数据量大,而且随着环境 和一些确定因素的影响,问题不断增多,产生的事件种类繁多,因而很难...
    文章 2017-04-20 1961浏览量
  • 纯干货|从淘宝到云端的高可用架构演进

    另外一个很典型的问题,Gitlab对备份的原理是不够了解的,比如当时用的PostgreSQL的一个版本,当时是有问题的,没有验证,开发人员对这个又不是特别了解的情况下就会出现这个问题,这就是为什么要去了解你的依赖以及...
    文章 2017-06-19 2088浏览量
  • 2017QCon分享:从淘宝到云端的高可用架构演进

    另外一个很典型的问题,Gitlab对备份的原理是不够了解的,比如当时用的PostgreSQL的一个版本,当时是有问题的,没有验证,开发人员对这个又不是特别了解的情况下就会出现这个问题,这就是为什么要去了解你的依赖以及...
    文章 2017-10-25 2927浏览量
  • 架构选型必读:集中式与分布式全方位优劣对比

    系统的容灾机制和故障恢复方面,集中式架构一般会采用主备复制和主备切换的方式来实现,几种典型设计原则包括一主多备、同城双活、两地三中心等。集中式的容灾方案比较成熟,也沉淀了数据复制、镜像快照、一体化...
    文章 2018-06-15 3049浏览量
  • Facebook TSDB论文翻译

    大型互联网服务一般出现故障及时响应和保持高可用性为目标。为了提供正常稳定的服务,通常要每秒从大量系统中监控和分析数以千万计的数据(性能数据和业务数据)。一个特别高效的解决方案是用TSDB对这些数据进行...
    文章 2017-08-18 2052浏览量
  • RAID10与RAID01比较,RAID10与RAID5比较

    下面以4块盘为例来介绍安全性方面的差别:1、RAID10的情况 这种情况中,我们假设当DISK0损坏时,在剩下的3块盘中,只有当DISK1一个盘发生故障时,才导致整个RAID失效,我们可简单计算故障率为1/3。2、RAID01的...
    文章 2014-08-15 1694浏览量
  • 《Oracle数据库性能优化方法论和最佳实践》——第1章 ...

    1.1.1 从一个真实病例说起下面是本人的真实经历,也许很能够说明一些问题:知道从什么时候起,我开始头疼,主要是半边头疼,有时候伴随眼睛疼和牙齿疼,疼痛顺序一般为头疼→眼睛疼→牙齿疼。当持续头疼根本...
    文章 2017-05-02 1105浏览量
  • 3+1保障:高可用系统稳定性是如何炼成的?

    热点或极限值处理业务规模以及数据规模大的部分系统,在系统会出现数据热点、数据极度倾斜、少量大客户超过极限阈值使用等极限场景,例如超级大客户广告投放物料、广告点击展示数据、API调用频次都是比普通客户大...
    文章 2021-01-27 8244浏览量
  • AIX的vmstat命令详解(原创)

    如果系统管理程序已经把引用的页面换出到磁盘,所以它们在真实内存中存在,就发生系统管理程序页面换入。如果在执行 vmstat 命令时没有指定时间间隔,那么显示的值是从引导时开始计算的。hpit 显示分区的系统...
    文章 2016-05-24 1780浏览量
  • 全链路压测体系建设方案的思考与实践

    功能测试时间从之前的一周、两周缩短到现在三四天、两三天的时间,那性能测试就没有办法按时上线,很有可能会出现各种各样的性能问题,这会直接影响到企业的品牌影响力。​平时线上水位比较低,很少达到高峰期,但是...
    文章 2021-06-25 9300浏览量
  • 云原生下,如何保障业务系统的高可用性?

    社会热点带来可预知的突发流量③直播、视频类业务,在线观看连接数徒增④突然出现来自某个ip的大量流量⑤可能会出现刷单的情况,抢占了正常商品的流量⑥需要自动识别并限制某些过热流量那么在进行流量防护时都要...
    文章 2020-06-19 415浏览量
1 2 3 4 ... 9 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化