• 《路由设计的优化》一1.3 可靠性和弹性

    如果网络只有5台设备,那么平均每年只有1台设备出现变更或故障,但是如果网络拥有500台设备,那么平均每年将有100台设备出现变更或故障,也就是平均每3天就会出现一次设备变更或故障。图1-3解释了多台设备出现多次...
    文章 2017-05-02 1376浏览量
  • 云原生时代,企业多活灾体系构建思路与最佳实践

    在底部可以看到例如 IT 计划,业务连续性出现特殊问题处理故障的计划等,这些在原来做灾的时候是考虑到的,而我们是从多活的角度把这些东西考虑在产品体系里面。​​这里提到的几个灾方式,其实是比较常见的:...
    文章 2021-07-02 5501浏览量
  • 阿里搜索事业部故障快速恢复实践

    一个故障一般是由一连串的问题导致,每个环节都出了问题导致一个严重的故障。我们选择做故障的action时有时候有个倾向,就是加监控。这几乎是个万能的action,但是这背后其实有个隐含的依赖,就是人处理这些...
    文章 2018-03-16 2998浏览量
  • 应用灾中,MySQL数据表是否需要跨云同步?

    实际项目中,业务也会出现特殊情况,在备中心的应用,即使没有流量请求,也会定期写入一些日志,比如微服务调用日志、定时任务日志、应用启动时更新全局唯一序列号Sequence等等。双写的场景,要求主中心和备中心的...
    文章 2021-03-12 3942浏览量
  • 【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之...

    大家知道 K8s 社区只能够支撑五千个节点,当超过这个规模时,会出现各种性能瓶颈问题,比如:etcd 出现大量的读写延迟。kube-apiserver 查询 pods/nodes 延时很高,甚至导致 etcd oom。控制器无法及时感知数据变化,...
    文章 2021-05-17 1074浏览量
  • 八年来我们到底经历了什么?——中间件专家带你“重走...

    (1)系统的可用性和故障恢复能力,以前集中化架构,出现问题回滚即可;现在由于涉及到众多分布式系统,快速排查和定位问题变得十分困难。(2)分布式改造之后,单个系统存放在特定机房里,随着业务发展,机器数目的...
    文章 2017-08-04 7917浏览量
  • 阿里企业级分布式应用服务EDAS产品解密

    而缺点在于管理与运维比较困难,另外由于应用数量多,随着业务增长,应用服务器从十台增加到上百台上千台,这时业务系统故障与机器故障就一定成为常态。传统“中心化”系统与阿里的“去中心化”系统架构的区别 ...
    文章 2016-04-08 2717浏览量
  • 快手实时数仓保障体系研发实践

    链路的故障容灾保障核心是解决单机房和单作业失败恢复时间长的问题和服务的稳定性问题。Kafka 本身可以做双机房容灾,生成流量写入到两个机房的 Kafka,出现单机房故障时自动把流量切换到另外一个机房,而且保证...
    文章 2022-06-23 732浏览量
  • 剖析阿里企业级分布式应用服务EDAS架构

    而缺点在于管理与运维比较困难,另外由于应用数量多,随着业务增长,应用服务器从十台增加到上百台上千台,这时业务系统故障与机器故障就一定成为常态。传统“中心化”系统与阿里的“去中心化”系统架构的区别 gt;...
    文章 2017-05-02 2359浏览量
  • 阿里赵林:阿里企业级分布式应用服务EDAS产品解密

    而缺点在于管理与运维比较困难,另外由于应用数量多,随着业务增长,应用服务器从十台增加到上百台上千台,这时业务系统故障与机器故障就一定成为常态。传统“中心化”系统与阿里的“去中心化”系统架构的区别 ...
    文章 2016-01-25 8696浏览量
  • 阿里如何做好双11技术保障?大队长霜波分享4点经验

    为什么有全链路压测还会出现这些问题,全链路压测每次的数据都是一批的数据,之前就已经是热的数据。这就是为什么在2016年的时候头2分钟下去然后自己会起来,是一个冷库下去了,但是当热起来的时候自己又会爬起来,...
    文章 2021-01-06 504浏览量
  • 阿里如何做好双11技术保障?大队长霜波分享4点经验

    为什么有全链路压测还会出现这些问题,全链路压测每次的数据都是一批的数据,之前就已经是热的数据。这就是为什么在2016年的时候头2分钟下去然后自己会起来,是一个冷库下去了,但是当热起来的时候自己又会爬起来,...
    文章 2021-01-06 3036浏览量
  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2018-01-05 5086浏览量
  • 基础设施助力双11(十):百万级物理和虚拟网络设备的...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2019-07-31 1181浏览量
  • 为什么说中小公司自建Redis是一件不太靠谱的事情?

    对于为什么会出现这样现象,云栖社区记者就此采访了阿里云数据库高级技术专家子嘉,他谈了问题的根源——自建Redis的缺点: 可靠性低:如果数据走云盘做高可靠存储容易受网络波动干扰,如果不走云盘宕机数据易丢失,...
    文章 2016-11-03 6980浏览量
  • 开发人员该如何应对线上故障

    同时需要跟客服同事说明哪些问题不可修复&xff0c;让客服MM做好用户的安抚工作。复盘不是找谁背锅&xff0c;而是分析问题原因&xff0c;从故障中找到系统的瓶颈&xff0c;做好改进计划&xff0c;避免在同一个坑里再次跌倒。复盘...
    文章 2022-01-24 66浏览量
  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2017-12-14 1972浏览量
  • 每分钟访问10w+,11种策略教你保持亿级流量网站稳定性...

    3.3、故障容灾 单机系统的容灾能力几乎为零,一旦服务崩溃就马上变成不可用。分布式系统通过服务多活,可以不间断提供服务;借助于 nginx、Apache 进行负载均衡可以进一步提高可用性。实际上,即便进行了负载均衡和...
    文章 2018-10-20 1047浏览量
  • 《Oracle数据库性能优化方法论和最佳实践》——1.4 ...

    其次,可以使用户对未来性能预期有一定的明确性,从而可以合理安排扩采购窗口,避免业务系统出现性能问题,提高服务质量。而缺乏预防性优化意识往往意味着一段时间内糟糕的业务系统性能表现以及硬件扩的紧急采购...
    文章 2017-05-02 1771浏览量
  • Apsara Stack 技术百科|数字化业务系统安全工程

    可以使用故障恢复手段有流、拦截、熔断、快恢、降级、扩、切流、重启等。不同恢复方式都需要有相应系统支持和日常演练测试。故障恢复后&xff0c;安全生产委员还需要组织相关人员排查和分析故障原因&xff0c;制定...
    文章 2022-04-01 326浏览量
  • 评估数据中心改造配电系统

    人身安全/符合规范:评估改造配电系统必须先了解是否满足人身安全的要求以及是否符合规范的问题,并将影响风险的因素以及设备正常运行是会出现的潜在故障点作为首要任务。改造需符合当地规范。诉讼风险:配电系统...
    文章 2017-07-04 1378浏览量
  • 详解 Kubernetes 的稳定性和可用性

    我们可以想想节点 1 出现故障,服务 Console 全部跑在了节点 1 上,哪怕 Console 有多个服务,故障还是造成 Console 服务中断。这个时候,我们可以配置 podAntiAffinity,来保证服务的多个副本不会调度到相同的...
    文章 2018-12-14 1962浏览量
  • 独立开发一个云(PaaS)的核心要素,Go,Go,Go!

    那么,平台化要解决的哪些问题,或者基础算法服务化的痛点在哪里呢?服务的平台化,并不是简单的在几台机器上把一个服务部署起来,对外提供服务,尤其是对应用方承诺了服务质量的时候。而且,为了提升机器的资源利用...
    文章 2015-10-10 2341浏览量
  • 2017QCon分享:从淘宝到云端的高可用架构演进

    另外一个很典型的问题,Gitlab对备份的原理是不够了解的,比如当时用的PostgreSQL的一个版本,当时是有问题的,没有验证,开发人员对这个又不是特别了解的情况下就会出现这个问题,这就是为什么要去了解你的依赖以及...
    文章 2017-10-25 3005浏览量
  • 纯干货|从淘宝到云端的高可用架构演进

    另外一个很典型的问题,Gitlab对备份的原理是不够了解的,比如当时用的PostgreSQL的一个版本,当时是有问题的,没有验证,开发人员对这个又不是特别了解的情况下就会出现这个问题,这就是为什么要去了解你的依赖以及...
    文章 2017-06-19 2266浏览量
  • RocketMQ 千锤百炼-哈啰在分布式消息治理和微服务治理...

    IP 节点详细流量总结​哪些是我们的关键指标,哪些是我们的次要指标,这是消息治理的首要问题哪些是我们的核心服务,哪些是我们的非核心服务,这是服务治理的首要问题源码&实战 是一种比较好的工作学习方法。
    文章 2021-06-17 7609浏览量
  • 如何基于AppActive 设计一套多数据中心应用多活方案

    就一定会出现故常。因此&xff0c;需要使用有效手段来应对和缓解故障。上文提到的几个故障类型&xff0c;其中硬件故障一般是小规模问题&xff0c;比如单台主机失效&xff0c;但如果产生级联效应&xff0c;则可能会演变成大规模问题...
    文章 2022-07-12 71浏览量
  • 微博热点事件背后数据库运维的“功守道”

    Client识别Config Service推送的Proxy节点变更的情况重建Proxy连接列表,同时Client端也做一些灾,在Proxy节点出现问题的时候,对Proxy进行摘除,并定期探测是否恢复。目前微博平台部分业务子系统的Cache服务...
    文章 2018-09-27 1518浏览量
  • 面向失败的设计-概述

    每个人都知道机翼是飞机的重要部件,一旦机翼出现问题,飞机很可能就坠落。然而在二战当中,许多战斗机即便机翼千疮百孔了,依然保持着最佳战斗能力;甚至还有更夸张的情况:1983年的一次战斗机演习当中,一架飞机...
    文章 2019-11-08 2296浏览量
  • 如何做好一名稳定性SRE-业务团队系统稳定性的思与行

    区分责任,当出现故障时,区分清楚责任,到底是稳定性工作没有做到位,还是做到位了,但是团队同学疏忽了,还是说只是单纯的业务变化;1.3,开发和SRE的区别 都是做技术的,很多开发刚刚转向负责稳定性时,有些弯转...
    文章 2020-10-26 7129浏览量
1 2 3 4 ... 16 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化