• VMware vSphere 5.1 群集深入解析(六)

    所谓“slot”机制,当选择“群集主机故障容忍”和接入控制策略经常用到,这一机制的细节过去已经改了好几次,它是一个最严格的策略,更可能是了解的最少的策略。通常在vCenter大喊“资源不足”之前,slots决定了...
    文章 2017-11-15 1238浏览量
  • Kubernetes-Pod控制器简介

    使用了pod控制器之后,我们只需要告诉pod控制器,想要多少个什么样的pod就可以了,它就创建出满足条件的pod并确保每一个pod处于用户期望的状态,如果Pod在运行中出现故障控制基于指定策略重启或者重建pod1.2...
    文章 2022-05-23 30浏览量
  • 阿里搜索事业部故障快速恢复实践

    一个故障一般是由一连串的问题导致,每个环节都出了问题才导致一个严重的故障。我们选择做故障的action时有时候有个倾向,就是加监控。这几乎是个万能的action,但是这背后其实有个隐含的依赖,就是人处理这些...
    文章 2018-03-16 3124浏览量
  • Istio分层架构?80%的人有误解

    国内大部分互联网公司,架构设计中不太考虑故障注入,在操作系统内核开发与调试,路由器开发与调试中经常使用,可以用来模拟内存分配失败、磁盘IO错误等一些非常难出现的异常,以确保测试覆盖度。控制平面,有四个...
    文章 2020-02-07 391浏览量
  • 《Akka应用模式:分布式应用程序设计实践指南》读书...

    在之前我也说过,分布式系统有很多不确定性,会出现各种意外,对意外分门别类总是有好处的。异常 不管是单机系统,还是分布式系统,系统故障中最常见的类型之一。其实自从学了Scala,觉得传统的异常机制不太完美。...
    文章 2018-06-12 1543浏览量
  • 云计算网络基础架构的实践和演进——打造云计算网络...

    标号3:汇聚交换机的故障一般情况下汇聚交换机采用堆叠的方式,可能会出现堆叠的分裂以及单台设备的故障,也可能出现整个端口流量上行的带宽减半或者是分裂以后导致等一些不可预期的后果,因此需要及时检测出一些...
    文章 2017-04-24 19669浏览量
  • CentOS7下关于iptables导致的故障的一次对话

    2、我一般是在测试环境中先进行调试,确认无误后,然后才在生产环境中进行操作,这样误操作的概率小很多。本文转自 冰冻vs西瓜 51CTO博客,原文链接:http://blog.51cto.com/molewan/1969069,如需转载请自行联系...
    文章 2017-11-14 1116浏览量
  • 局域网 ping

    地址,通常是通过DNS服务器 如果这里出现故障,则表示DNS服务器的IP地址配置不正确或DNS服务器有故障(对于拨号上网用户,某些ISP已经不需要设置DNS服务器了),这也是解决部分网页打不开是什么原因的关键。...
    文章 2013-07-26 1357浏览量
  • Istio分层架构?80%的人有误解

    国内大部分互联网公司,架构设计中不太考虑故障注入,在操作系统内核开发与调试,路由器开发与调试中经常使用,可以用来模拟内存分配失败、磁盘IO错误等一些非常难出现的异常,以确保测试覆盖度。控制平面,有四个...
    文章 2019-08-07 649浏览量
  • 如何设计高可用系统之故障隔离

    故障隔离是指在系统设计的时候,要尽可能考虑故障的情况,当存在依赖关系的系统、系统内部组件或系统依赖的底层资源发生故障后,采取故障隔离措施可以将故障范围控制在局部,防止故障范围扩大,增加对上层系统可用性...
    文章 2019-08-06 1599浏览量
  • 请你谈谈为什么分布式系统需要限流器

    一般会有动态扩容策略。但是这种动态扩容&xff0c;一般是有滞后性的&xff0c;不能保证瞬时高流量处理的很好。通过限流器&xff0c;保证某个业务流量到来时&xff0c;不会以为这个业务导致其他业务也无法正常工作。级联故障&xff...
    文章 2022-06-25 33浏览量
  • 容灾切换必备-全局流量管理介绍

    当地址池整体出现故障时,GTM根据用户自定义策略进行地址池分钟级切换,并当地址池恢复时切回。健康检查: 依托于云监控强大的分布式监控功能,GTM新增了HealthCheck模块,从多个地区对地址池内的多个应用服务IP...
    文章 2020-04-13 1593浏览量
  • 图解故障服务器下线:关于阿里云MongoDB高可用的探秘

    服务器容灾一直是云服务运维过程中无法避开的问题,我们常常讨论如何对出现故障的机器进行数据库方面的恢复,却很少考虑到在机器出现故障后,是用一套怎样的处理流程将三节点副本集恢复如初的。MongoDB采用的是...
    文章 2017-03-28 8286浏览量
  • 是时候聊一下程序员争相追逐的“香馍馍”Istio了

    数据平面:由一组和业务服务成对出现的Sidecar代理(Envoy)构成,它的主要功能是接管服务的进出流量,传递并控制服务和Mixer组件的所有网络通信(Mixer是一个策略和遥测数据的收集器,稍后介绍)。控制平面:主要...
    文章 2019-08-30 2003浏览量
  • 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    限流降级参考:对于弱依赖,一般都要配置限流或是自动降级策略,比起通过拍脑袋或是经验值来设定,倒不如通过实际的故障测试来进行微调,比如对于下游出现超时情况,就可以通过实验得出基于线程池限流到底要填写多少...
    文章 2017-06-19 4340浏览量
  • 能解决 80%故障的排查思路,建议大家收藏。

    1、内容精简很多人可能认为故障出现的形式各种各样&xff0c;所以应急方案需要涉及到方方面面。但实际的故障处理过程中&xff0c;我们可以发现其实我们的应急措施往往重复使用几个常用的步骤&xff0c;所以我认为应急方案要...
    文章 2022-08-26 41浏览量
  • 带你读《Istio入门与实战》之一:服务网格与Istio

    可插拔的访问控制策略层,支持ACL、请求速率限制和请求配额。集群内度量指标,日志和调用链的自动收集,管理集群的入口、出口流量。使用基于身份的认证和授权方式来管理服务间通信的安全。由于Istio提供了足够多的可...
    文章 2019-11-04 3714浏览量
  • “SDN分析”是开启未来智能网络大门的钥匙

    某个网络部件出现故障后如何快速做出反应?假如软件或者硬件升级导致异常甚或其他连锁反应怎么办?在管理控制台中敲几个策略不太可能解决这些问题。解决任何计算问题的关键是理解可用数据代表的意义。网络日志和操作...
    文章 2017-07-03 1090浏览量
  • “SDN分析”是开启未来智能网络大门的钥匙

    某个网络部件出现故障后如何快速做出反应?假如软件或者硬件升级导致异常甚或其他连锁反应怎么办?在管理控制台中敲几个策略不太可能解决这些问题。解决任何计算问题的关键是理解可用数据代表的意义。网络日志和操作...
    文章 2017-08-01 807浏览量
  • 稳定性保障6步走:高可用系统大促作战指南!

    考虑到成本最小化,非常规增量P计算时一般无需与常规业务流量W一起,全量纳入叠加入口流量K,一般会将非常规策略发生概率λ作为权重,即:2)节点流量节点流量由入口流量根据流量分支模型,按比例转化而来。...
    文章 2021-03-08 3429浏览量
  • 微服务治理实践:如何对单点异常进行自动摘除

    在以上 3 种场景中,由于客户端并不法感知已经出现问题的那些服务端,依然发送请求到这些机器上,造成业务调用报错,上游的机子将被下游的某台机子的短暂故障拖垮,造成应用雪崩的风险。面对这种场景,如果仅仅...
    文章 2019-12-16 2906浏览量
  • 首次揭秘!​春晚活动下快手实时链路保障实践

    首先,如果出了问题,我们可以在下游的 task 上进行控制,但是这样的话可能带来一个问题,它造成反压等阻塞行为,有可能把整个作业卡死,所以我们通过控制数据源来从本质上解决问题。下面是我们技术实现: ...
    文章 2020-06-29 930浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    在磁盘进入SLOW或WARNING状态时,在线应用一般会选择不再使用此磁盘,因为此时磁盘可能已经出现损坏的迹象,会造成延时大规模增加,但对于理想的应用则可以继续使用。一旦磁盘进入ERROR状态,则表明此磁盘可能马上...
    文章 2016-12-18 5056浏览量
  • 阿里云栖开发者沙龙PHP技术专场-聊聊服务稳定性保障...

    所以要在应用服务器上做监控才报警具体哪台机器哪个服务出现故障等信息。自研监控系统下图是阿里自研的监控系统。首先确定对哪些指标进行监控。将整个指标的数据绘制出来,查看指标数据波动。一旦遇到问题,可以很...
    文章 2019-04-25 2791浏览量
  • 孟子>正文 活动目录(Active Directory)域故障解决...

    6、进入选择系统安装的路径,一般会自动测出操作系统、版本及是否域控制器;7、出现类似的XP桌面:选择Start/Administrative Tools/Locksmith;8、进入ERD Commander 2002 locksmith向导界面,下一步;9、选择...
    文章 2017-11-15 1861浏览量
  • 有货:六层混合云架构打造中国最潮生态圈

    如果没有命中,网关层调用后端服务,从服务中返回数据,在这个过程中如果服务出现故障无法访问时,网关访问二级缓存,因为二级缓存是用于容灾处理,所以二级缓存的时间非常长,数据保存24小时。图六 服务层 服务...
    文章 2016-03-31 14201浏览量
  • 《架构师》反思:系统可靠性

    一说到集群,一般会想到使用它来为应用程序提供一种可扩展的高性能设计。但是集群同时还可以为应用程序提供较高的容错能力。以下是集群的分类: 高性能计算科学集群、负载均衡集群、高可用性集群 在实际应用中,这三...
    文章 2016-05-05 5366浏览量
  • Service Mesh 高可用在企业级生产中的实践

    一方面如上表中偶数节点4和奇数节点3可容忍的故障数是一样的,另一方面,偶数个节点在选主节点的时候可能会出现瓜分选票的情形(虽然 Consul 通过重置 election timeout 来重新选举),所以还是建议选取奇数个节点。...
    文章 2020-06-03 580浏览量
  • 《架构师》反思:系统可靠性

    一说到集群,一般会想到使用它来为应用程序提供一种可扩展的高性能设计。但是集群同时还可以为应用程序提供较高的容错能力。以下是集群的分类: 高性能计算科学集群、负载均衡集群、高可用性集群 在实际应用中,这三...
    文章 2017-11-08 1119浏览量
  • 【微服务No.2】polly微服务故障处理库

    重试策略(Retry):许多故障是短暂的,并且在短暂的延迟后可能自我纠正。允许我们做的是能够自动配置重试机制 断路器(Circuit-breaker):当一个系统严重挣扎时,快速失败优于让用户/呼叫者等待。说白了就是应该...
    文章 2018-06-20 1124浏览量
1 2 3 4 ... 42 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化