• zookeeper 应用场景

    集群管理最麻烦的事情就是节点故障管理,zookeeper可以让集群选出一个健康的节点作为master,master节点会知道当前集群的每台服务器的运行状况,一旦某个节点发生故障,master会把这个情况通知给集群其他服务器,...
    文章 2017-11-17 1077浏览量
  • 《Akka应用模式:分布式应用程序设计实践指南》读书...

    基于actor的分布式系统发生系统故障的可能性非常低,同事比其他类型的系统更容易从故障中恢复。这一点我深信不疑,看看我开源的代码就知道原因了。不过在分布式系统中,对于故障处理是一件非常麻烦的事情,因为它有...
    文章 2018-06-12 1499浏览量
  • 用Kubernetes解决容器的混乱(上)

    如果一个发生故障系统重新启动另一个。如果太多副本正在运行,系统会杀死多余的。现在你必须改变应用程序。如果API服务器在SQL数据库之前启动,你可能会遇到SQL连接错误。你希望确保向系统添加渐进重试。但这些...
    文章 2018-12-13 877浏览量
  • ebay增强可用性的4个原则(2)

    故障隔离使我们能够更优雅地处理这些故障。讨论了为什么应该为产品建立泳道或设置故障隔离&xff0c;现在我们把注意力转向更重要的问题&xff0c;如何实现故障隔离。依靠四条原则来定义和帮助我们设计泳道。第一个原则是...
    文章 2022-01-23 42浏览量
  • 如何防止HA集群的脑裂

    基于Proxy的路由是比较靠谱的,因为Proxy是唯一的服务入口,只要把Proxy一个地方更新了,就不会发生客户误访问的问题了,但是也要考虑Proxy的高可用。至于基于服务地址列表的方法,客户需要通过后台服务判断主...
    文章 2015-11-18 3495浏览量
  • ​分布式系统与单节点系统的本质区别是什么?

    如果系统故障发生时仍然能继续正常运行&xff0c;我们将这样的特性称为容错性。故障是不可避免的&xff0c;所以我们需要构建出具有可靠组件的系统。消除单点故障&xff0c;比如前文提到的单节点数据库&xff0c;可能是我们朝此...
    文章 2022-01-25 23浏览量
  • 面向数据可靠性存储系统设计思想探讨

    计算节点发生故障,最多造成业务连续性中断,这是与存储系统相比在可靠性要求方面最大的区别。十几年前刚刚接触存储系统的研发,当时没有觉得存储有多复杂,不就是把数据按照一定规则存放在磁盘中,并且实现一定的...
    文章 2017-11-13 1043浏览量
  • 研发体系这点事

    故障管理 即时沟通 技术提升 任务管理 任务管理是产品整个生命周期首要的环节,其对研发体系也是至关重要的。项目生命周期模型,传统的有五种:瀑布模型、原型模型、螺旋模型、增量模型、V模型,而现在最为流行的是...
    文章 2018-02-09 3364浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    MaxCompute:阿里云数加-大数据计算服务,华佗用MaxCompute进行大规模系统故障的数据挖掘,用以提高故障检测准确率和预测故障发生。阿里云数加-大数据计算服务MaxCompute产品地址:...
    文章 2016-12-18 4935浏览量
  • 《Redis官方文档》用Redis构建分布式锁

    表面来看,这个方法似乎很管用,但是这里存在一个问题:在我们的系统架构里存在一个单点故障,如果Redis的master节点宕机了怎么办呢?有人可能会说:加一个slave节点!在master宕机时用slave就行了!但是其实这个...
    文章 2016-04-01 2156浏览量
  • 大众点评开源分布式监控平台 CAT 深度剖析

    高可用:所有应用都倒下了,需要监控还站着,并告诉工程师发生了什么,做到故障还原和问题定位。故障容忍:CAT本身故障不应该影响业务正常运转,CAT挂了,应用不该受影响,只是监控能力暂时减弱。高吞吐:要想还原...
    文章 2016-11-15 2425浏览量
  • Redis高可用集群搭建,配置,运维与应用!

    你的 Redis 从最简单的单机版,经过数据持久化、主从多副本、哨兵集群,这一路优化下来,你的 Redis 不管是性能还是稳定性,都越来越高,就算节点发生故障,也不用担心了。你的 Redis 以这样的架构模式部署,基本上...
    文章 2022-05-31 19浏览量
  • 2017QCon分享:从淘宝到云端的高可用架构演进

    这个给我们带来的启示是什么,云服务本身也是会发生故障的,比如买了云数据库,我们没有办法假设它是100%可用的,当它出现问题我们怎么办,是给云厂商提工单说什么时候能恢复,还是我自己能够有一个容灾的方案解决这...
    文章 2017-10-25 2992浏览量
  • 双11幕后超级英雄:新一代运维的价值

    智能时代的运维不是要让运维人员失业,而是对运维效率的提高有着极大的诉求,比如如何在错综复杂的环境中快速定位问题、root cause、甚至是故障预测,避免发生故障,保障应用稳定性。智能运维要借助数据(运维数据)和...
    文章 2017-11-15 4784浏览量
  • 调度策略的测试方法及其自动化

    我们还需要关注策略对整个检索端系统的影响,即策略是否合理。也就是说,我们还需要进行系统级调度测试。接下来,我将分别从模块级和系统级两个方面来分享我们的调度测试经验。模块级调度测试 按照前面的讲述,模块...
    文章 2017-11-23 1073浏览量
  • 如何改变Redis用不好的误区

    这个服务本身也没有很好地设计容错,所以在日志记录的地方就直接抛出异常,结果全公司相当一部分的业务系统都出现了故障,监控系统中“5XX”的错误直线上升。一帮人欲哭无泪,顶着巨大的压力排查问题,但是由于受灾...
    文章 2017-12-20 5174浏览量
  • 块存储支持云化618实战总结

    传统物理机发生故障或上下线时,只能依赖上层应用保证迁移和逃逸。通过虚拟化及网络+存储等底层设施全链路支持,ECS 可以提供虚拟机在线迁移功能,在传统 IDC 无解的故障场景下,云提供了高效的逃生手段。5.磁盘热...
    文章 2019-10-09 1211浏览量
  • 取经阿里十年技术大佬,得到Java线上问题排查攻略!

    作为后开发工程师&xff0c;一不小心就会遇到线上故障。如果线上故障处理不及时&xff0c;就可能导致各种严重的后果。恰好最近部门出现了一次挺严重但幸运的是影响面不大的线上故障&xff0c;最后在阿里工作十年的leader...
    文章 2022-04-28 19浏览量
  • 纯干货|从淘宝到云端的高可用架构演进

    这个给我们带来的启示是什么,云服务本身也是会发生故障的,比如买了云数据库,我们没有办法假设它是100%可用的,当它出现问题我们怎么办,是给云厂商提工单说什么时候能恢复,还是我自己能够有一个容灾的方案解决这...
    文章 2017-06-19 2247浏览量
  • 学习分布式不得不会的ACP理论

    网络发生故障宁可停止服务,这是保证CA,舍弃P。比如前几年支付宝光缆被挖断的事件,在网络出现故障的时候,支付宝就在可用性和数据一致性之间选择了数据一致性,用户感受到的是支付宝系统长时间宕机,但是其实背后...
    文章 2018-07-21 2401浏览量
  • 疫情期,APP 崩了怎么办?阿里工程师公开高可用架构...

    在我们的日常生活中因为 app 侧相对稳定,“崩”一般发生在看不见摸不着的“服务”(或者叫云端),而这个服务有多复杂?以一个较为成熟的云上架构为例,光是阿里云中构建一个在线服务可以用到的云计算基础、...
    文章 2020-02-18 4674浏览量
  • 《深入分布式缓存》之“从实际案例看Redis的使用”

    这个服务本身也没有很好地设计容错,所以在日志记录的地方就直接抛出异常,结果全公司相当一部分的业务系统都出现了故障,监控系统中“5XX”的错误直线上升。一帮人欲哭无泪,顶着巨大的压力排查问题,但是由于受灾...
    文章 2018-01-26 1129浏览量
  • 2021最新Java中间件面试真题(附答案解析)

    zk 的配置管理(文件系统、通知机制)程序分布式的部署在不同的机器上,将程序的配置信息放在 zk 的 znode 下,当有配置发生改变时,也 就是 znode 发生变化时,可以通过改变 zk 中某个目录节点的内容,利用 watcher...
    文章 2021-11-02 128浏览量
  • 疫情期,APP 崩了怎么办?阿里工程师公开高可用架构...

    在我们的日常生活中因为 app 侧相对稳定,“崩”一般发生在看不见摸不着的“服务”(或者叫云端),而这个服务有多复杂?以一个较为成熟的云上架构为例,光是阿里云中构建一个在线服务可以用到的云计算基础、...
    文章 2020-02-18 5563浏览量
  • Java中间件面试题(2022最新版)

    zk 的配置管理(文件系统、通知机制)程序分布式的部署在不同的机器上,将程序的配置信息放在 zk 的 znode 下,当有配置发生改变时,也 就是 znode 发生变化时,可以通过改变 zk 中某个目录节点的内容,利用 watcher...
    文章 2022-05-31 58浏览量
  • 饿了么高稳定、高性能、高可用、高容错API架构实践!

    还有,API Everything 接了后的应用系统,外部流量进来,不能冲击到后应用系统。如何让这个系统更健壮,怎么保护自己,怎么保护接入的应用系统等等。其次,在这个基础之上考虑 DevOps 怎么弄,提供接入方自助 ...
    文章 2017-12-22 4609浏览量
  • 链路分析 K.O“五大经典问题”

    单机故障每时每刻都在频繁发生,特别是核心集群由于节点数量比较多,从统计概率来看几乎是一种“必然”事件。单机故障不会造成服务大面积不可用,但会造成少量用户请求失败或超时,持续影响用户体验,并造成一定答疑...
    文章 2021-11-27 105浏览量
  • 分布式系统,你真的了解吗?

    一般我们在写功能代码的时候,是不会考虑到硬件故障的时候应该怎么办的。而如果在编写分布式系统的时候,就一定需要面对这个问题了。否则,很可能只有一台服务器出故障,整个数百台服务器的集群都工作不正常了。除了...
    文章 2017-08-01 1171浏览量
  • 妙用“IP地址冲突”揪出害群之马

    系统目录,发现c:下有几个异常的文件,该名某个文件,居然不让操作,运行命令 arp –a 发现多行arp请求,看来是病毒引起的网络堵塞故障。不能把所有的机器都与网络段掉,当务之急是先找出当前正在作崇的主机然后...
    文章 2017-11-17 1520浏览量
  • 实践高可用

    故障恢复要快 先考虑发生频率低的问题。就是怎样别人死我们不死&xff1b;自己不作死&xff1b;不被队友搞死。故障恢复要快&xff0c;那就需要事先做好应急备案&xff0c;快速准确的监控报警&xff0c;故障时快速切换备案。具体...
    文章 2022-04-26 20浏览量
1 2 3 4 ... 15 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化