• 阿里搜索事业部故障快速恢复实践

    一个故障一般是由一连串的问题导致,每个环节都出了问题才导致一个严重的故障。我们选择做故障的action时有时候有个倾向,就是加监控。这几乎是个万能的action,但是这背后其实有个隐含的依赖,就是人处理这些...
    文章 2018-03-16 2711浏览量
  • Istio分层架构?80%的人有误解

    国内大部分互联网公司,架构设计中不太考虑故障注入,在操作系统内核开发与调试,路由器开发与调试中经常使用,可以用来模拟内存分配失败、磁盘IO错误等一些非常难出现的异常,以确保测试覆盖度。控制平面,有四个...
    文章 2020-02-07 227浏览量
  • 云计算网络基础架构的实践和演进——打造云计算网络...

    标号3:汇聚交换机的故障一般情况下汇聚交换机采用堆叠的方式,可能会出现堆叠的分裂以及单台设备的故障,也可能出现整个端口流量上行的带宽减半或者是分裂以后导致等一些不可预期的后果,因此需要及时检测出一些...
    文章 2017-04-24 18819浏览量
  • 局域网 ping

    地址,通常是通过DNS服务器 如果这里出现故障,则表示DNS服务器的IP地址配置不正确或DNS服务器有故障(对于拨号上网用户,某些ISP已经不需要设置DNS服务器了),这也是解决部分网页打不开是什么原因的关键。...
    文章 2013-07-26 1260浏览量
  • Istio分层架构?80%的人有误解

    国内大部分互联网公司,架构设计中不太考虑故障注入,在操作系统内核开发与调试,路由器开发与调试中经常使用,可以用来模拟内存分配失败、磁盘IO错误等一些非常难出现的异常,以确保测试覆盖度。控制平面,有四个...
    文章 2019-08-07 531浏览量
  • 如何设计高可用系统之故障隔离

    故障隔离是指在系统设计的时候,要尽可能考虑故障的情况,当存在依赖关系的系统、系统内部组件或系统依赖的底层资源发生故障后,采取故障隔离措施可以将故障范围控制在局部,防止故障范围扩大,增加对上层系统可用性...
    文章 2019-08-06 1151浏览量
  • 容灾切换必备-全局流量管理介绍

    当地址池整体出现故障时,GTM根据用户自定义策略进行地址池分钟级切换,并当地址池恢复时切回。健康检查: 依托于云监控强大的分布式监控功能,GTM新增了HealthCheck模块,从多个地区对地址池内的多个应用服务IP...
    文章 2020-04-13 1302浏览量
  • 图解故障服务器下线:关于阿里云MongoDB高可用的探秘

    服务器容灾一直是云服务运维过程中无法避开的问题,我们常常讨论如何对出现故障的机器进行数据库方面的恢复,却很少考虑到在机器出现故障后,是用一套怎样的处理流程将三节点副本集恢复如初的。MongoDB采用的是...
    文章 2017-03-28 8156浏览量
  • 是时候聊一下程序员争相追逐的“香馍馍”Istio了

    数据平面:由一组和业务服务成对出现的Sidecar代理(Envoy)构成,它的主要功能是接管服务的进出流量,传递并控制服务和Mixer组件的所有网络通信(Mixer是一个策略和遥测数据的收集器,稍后介绍)。控制平面:主要...
    文章 2019-08-30 1804浏览量
  • 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    限流降级参考:对于弱依赖,一般都要配置限流或是自动降级策略,比起通过拍脑袋或是经验值来设定,倒不如通过实际的故障测试来进行微调,比如对于下游出现超时情况,就可以通过实验得出基于线程池限流到底要填写多少...
    文章 2017-06-19 3789浏览量
  • 带你读《Istio入门与实战》之一:服务网格与Istio

    可插拔的访问控制策略层,支持ACL、请求速率限制和请求配额。集群内度量指标,日志和调用链的自动收集,管理集群的入口、出口流量。使用基于身份的认证和授权方式来管理服务间通信的安全。由于Istio提供了足够多的可...
    文章 2019-11-04 2817浏览量
  • “SDN分析”是开启未来智能网络大门的钥匙

    某个网络部件出现故障后如何快速做出反应?假如软件或者硬件升级导致异常甚或其他连锁反应怎么办?在管理控制台中敲几个策略不太可能解决这些问题。解决任何计算问题的关键是理解可用数据代表的意义。网络日志和操作...
    文章 2017-07-03 936浏览量
  • “SDN分析”是开启未来智能网络大门的钥匙

    某个网络部件出现故障后如何快速做出反应?假如软件或者硬件升级导致异常甚或其他连锁反应怎么办?在管理控制台中敲几个策略不太可能解决这些问题。解决任何计算问题的关键是理解可用数据代表的意义。网络日志和操作...
    文章 2017-08-01 752浏览量
  • 稳定性保障6步走:高可用系统大促作战指南!

    考虑到成本最小化,非常规增量P计算时一般无需与常规业务流量W一起,全量纳入叠加入口流量K,一般会将非常规策略发生概率λ作为权重,即:2)节点流量节点流量由入口流量根据流量分支模型,按比例转化而来。...
    文章 2021-03-08 1896浏览量
  • 微服务治理实践:如何对单点异常进行自动摘除

    在以上 3 种场景中,由于客户端并不法感知已经出现问题的那些服务端,依然发送请求到这些机器上,造成业务调用报错,上游的机子将被下游的某台机子的短暂故障拖垮,造成应用雪崩的风险。面对这种场景,如果仅仅...
    文章 2019-12-16 2645浏览量
  • 首次揭秘!​春晚活动下快手实时链路保障实践

    首先,如果出了问题,我们可以在下游的 task 上进行控制,但是这样的话可能带来一个问题,它造成反压等阻塞行为,有可能把整个作业卡死,所以我们通过控制数据源来从本质上解决问题。下面是我们技术实现: ...
    文章 2020-06-29 570浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    在磁盘进入SLOW或WARNING状态时,在线应用一般会选择不再使用此磁盘,因为此时磁盘可能已经出现损坏的迹象,会造成延时大规模增加,但对于理想的应用则可以继续使用。一旦磁盘进入ERROR状态,则表明此磁盘可能马上...
    文章 2016-12-18 4739浏览量
  • 阿里云栖开发者沙龙PHP技术专场-聊聊服务稳定性保障...

    所以要在应用服务器上做监控才报警具体哪台机器哪个服务出现故障等信息。自研监控系统下图是阿里自研的监控系统。首先确定对哪些指标进行监控。将整个指标的数据绘制出来,查看指标数据波动。一旦遇到问题,可以很...
    文章 2019-04-25 2478浏览量
  • 有货:六层混合云架构打造中国最潮生态圈

    如果没有命中,网关层调用后端服务,从服务中返回数据,在这个过程中如果服务出现故障无法访问时,网关访问二级缓存,因为二级缓存是用于容灾处理,所以二级缓存的时间非常长,数据保存24小时。图六 服务层 服务...
    文章 2016-03-31 13976浏览量
  • 《架构师》反思:系统可靠性

    一说到集群,一般会想到使用它来为应用程序提供一种可扩展的高性能设计。但是集群同时还可以为应用程序提供较高的容错能力。以下是集群的分类: 高性能计算科学集群、负载均衡集群、高可用性集群 在实际应用中,这三...
    文章 2016-05-05 4907浏览量
  • Service Mesh 高可用在企业级生产中的实践

    一方面如上表中偶数节点4和奇数节点3可容忍的故障数是一样的,另一方面,偶数个节点在选主节点的时候可能会出现瓜分选票的情形(虽然 Consul 通过重置 election timeout 来重新选举),所以还是建议选取奇数个节点。...
    文章 2020-06-03 353浏览量
  • 《架构师》反思:系统可靠性

    一说到集群,一般会想到使用它来为应用程序提供一种可扩展的高性能设计。但是集群同时还可以为应用程序提供较高的容错能力。以下是集群的分类: 高性能计算科学集群、负载均衡集群、高可用性集群 在实际应用中,这三...
    文章 2017-11-08 1017浏览量
  • 【微服务No.2】polly微服务故障处理库

    重试策略(Retry):许多故障是短暂的,并且在短暂的延迟后可能自我纠正。允许我们做的是能够自动配置重试机制 断路器(Circuit-breaker):当一个系统严重挣扎时,快速失败优于让用户/呼叫者等待。说白了就是应该...
    文章 2018-06-20 978浏览量
  • 云场景实践研究第12期:有货

    如果没有命中,网关层调用后端服务,从服务中返回数据,在这个过程中如果服务出现故障无法访问时,网关访问二级缓存,因为二级缓存是用于容灾处理,所以二级缓存的时间非常长,数据保存24小时。4)服务层 5)缓存...
    文章 2018-02-03 1474浏览量
  • 斗胆推荐一款刚出的微服务网关

    通过控制台可以基于注册中心的服务列表快速发布 API,支持服务路由规则的动态变更生效,可以方便地管理限流、鉴权、后端负载均衡等控制策略,提供完整的 API 访问日志和统计报告,并且支持和后端微服务治理策略的...
    文章 2020-04-10 2112浏览量
  • 关于快照,你需要知道这6件事

    建立第一份快照后,两个快照之间只有数据变化的部分才被拷贝 手动创建一个 磁盘大小为40 GB 的快照,一般只需要几分钟的时间,具体取决于用户数据变化量。2、为什么用户需要快照?快照提供了一种便捷通用的备份...
    文章 2017-12-03 1288浏览量
  • 关于快照,你需要知道这6件事

    建立第一份快照后,两个快照之间只有数据变化的部分才被拷贝 手动创建一个 磁盘大小为40 GB 的快照,一般只需要几分钟的时间,具体取决于用户数据变化量。2、为什么用户需要快照?快照提供了一种便捷通用的备份...
    文章 2016-08-18 16835浏览量
  • 高可用之1——存储a

    此时,RAID系统的性能完全依赖于主 CPU 的处理负荷,在阵列重建阶段负荷带有潜在的问题,随之会出现硬盘故障。硬件RAID控制器需要关注的地方包括安装和维护的简便性、管理软件的功能及制造商开发RAID组件的经验。...
    文章 2012-05-31 1108浏览量
  • 策略复制失败排错思路实例

    sysvol自动复制,至于复制完成的时间,我这里是测试环境并且是单域多站点,很迅速的就完成了复制,为了看效果,我们先在总部的DC上新建了一条test策略,然后我们打开File分支机构的DC上的sysvol看下:从图中可以...
    文章 2017-11-12 930浏览量
  • 告警:IO利用率飚至60%,请及时排查优化!

    自检期间IO消耗比较大,如果期间有事物处理,会出现慢SQL、超时等现象,导致TP99报警。问题原因找到了,该如何优化?如果调整的话需进入BIOs修改,因为服务器产品不同,修改方法可能不一样。以DELL、ThinkServer为例...
    文章 2017-05-16 1903浏览量
1 2 3 4 ... 23 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化