• 云原生下,如何保障业务系统的高可用性?

    除图上列出的问题之外,还有预估与实际可能有差异,比如在春节期间,在线教育用户量可能会有所增加,那么会在春节之前就在线教育方面会有所容,但是会可能会出现意料之外的情况,比如疫情,那么就在线教育来说,...
    文章 2020-06-19 700浏览量
  • 评估数据中心改造配电系统

    人身安全/符合规范:评估改造配电系统必须先了解是否满足人身安全的要求以及是否符合规范的问题,并将影响风险的因素以及设备正常运行是会出现的潜在故障点作为首要任务。改造需符合当地规范。诉讼风险:配电系统...
    文章 2017-07-04 1349浏览量
  • 微博热点事件背后数据库运维的“功守道”

    Slave是备份节点,当Master缓存失效或实例挂掉后,数据还能够从Slave节点获取,避免穿透到后端DB资源,L1主要用来抗住热点的访问,它的容量一般比Master要小,平台的业务通常部署多组L1,方便进行水平容以支撑更高...
    文章 2018-09-27 1415浏览量
  • 阿里如何做好双11技术保障?大队长霜波分享4点经验

    什么有全链路测还会出现这些问题,全链路测每次的数据都是一批的数据,之前就已经是热的数据。这就是为什么在2016年的时候头2分钟下去然后自己会起来,是一个冷库下去了,但是当热起来的时候自己又会爬起来,...
    文章 2021-01-06 446浏览量
  • 阿里如何做好双11技术保障?大队长霜波分享4点经验

    什么有全链路测还会出现这些问题,全链路测每次的数据都是一批的数据,之前就已经是热的数据。这就是为什么在2016年的时候头2分钟下去然后自己会起来,是一个冷库下去了,但是当热起来的时候自己又会爬起来,...
    文章 2021-01-06 2773浏览量
  • 如何快速处理线上故障【转】

    故障定位的初期,一般会先通过邮件+电话的方式进行沟通,如果几分钟之后事态变糟糕,且没有眉目,则需要紧急启动会议形式的联合排障,所有相关人员需要放下手头事情,集中到一个特定会议室进行联合排障。这样的好处...
    文章 2017-11-16 1547浏览量
  • 高德全链路测平台TestPG的架构与实践

    什么会出现抖动?因为网络,磁盘等等的不确定性。排队系统的特性 我们的业务可以简单的抽象成为一个排队系统,请求从左边随机的进入系统,等待被处理,处理完成之后,从右边离开队列。在系统未达到饱和状态时,...
    文章 2019-08-21 2389浏览量
  • 阿里搜索事业部故障快速恢复实践

    一个故障一般是由一连串的问题导致,每个环节都出了问题才导致一个严重的故障。我们选择做故障的action时有时候有个倾向,就是加监控。这几乎是个万能的action,但是这背后其实有个隐含的依赖,就是人处理这些...
    文章 2018-03-16 2771浏览量
  • 微信月活9亿的高效运维之路

    我们运维这边在实现了一套新服务发布的时候,基本上不会给研发有什么限制说你这个服务不要搞太多,所以整个系统搞下来那个量是比较夸张的,当然就会出现他的多个服务要在同一台机上部署,因为里有5000个微服务,一定...
    文章 2018-01-30 3659浏览量
  • 全链路测体系建设方案的思考与实践

    功能测试时间从之前的一周、两周缩短到现在三四天、两三天的时间,那性能测试就没有办法按时上线,很有可能会出现各种各样的性能问题,这会直接影响到企业的品牌影响力。​平时线上水位比较低,很少达到高峰期,但是...
    文章 2021-06-25 9599浏览量
  • 罗辑思维在全链路测方面的实践和工作笔记

    当然这个Mock服务很可能会出现瓶颈,要确保其容量和高并发下的接口延时的稳定性,毕竟一些第三方支付和短信接口的容量、限流和稳定性都是比较好的。I.测时系统的CPU阈值和业务SLA 我们的经验是CPU的建议阈值在50到...
    文章 2019-02-21 5992浏览量
  • 首次揭秘!​春晚活动下快手实时链路保障实践

    故障应对包含故障排除、故障演练、故障预案,项目管理包含作业管理、集群管理、工程管理。首先进行的是 Flink 的故障排除。Flink 的交互组件包括 Yarn,HDFS,Kafka,Zookeeper,我们逐一的对每个组件进行故障排除。...
    文章 2020-06-29 622浏览量
  • 阿里双11网络技术揭秘:百万级物理和虚拟网络设备的...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2018-01-05 4925浏览量
  • 疫情期,APP 崩了怎么办?阿里工程师公开高可用架构...

    运维态的隐患问题如故障影响面、配置一致性、监控和根因分析相关工具、复杂的人员组织的高可用程度等,如果没有足够的演练和验证方案,一样在关键时刻让你的应用出现“崩”的情况。阿里巴巴工程师的高可用架构建设...
    文章 2020-02-18 4611浏览量
  • 基础设施助力双11(十):百万级物理和虚拟网络设备的...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2019-07-31 1024浏览量
  • 轻松应对双11,百万级物理和虚拟网络设备的网络智能化...

    在自动隔离场景中,由于网络设备在运行过程中经常会出现故障,在快速修复之前前,隔离是在网络工程师解决问题的首要工作。从图中可以看出,自动隔离功能上线后,90%以上的隔离操作能自动完成,而且成功率高达95%,...
    文章 2017-12-14 1895浏览量
  • 全链路测体系建设方案的思考与实践

    很有可能会出现各种各样的性能问题&xff0c;这会直接影响到企业的品牌影响力。3.平时线上水位比较低&xff0c;很少达到高峰期&xff0c;但是会出现一些突发情况。比如像去年的疫情使得很多公司的业务变成在线业务。比如教育...
    文章 2021-06-22 765浏览量
  • 疫情期,APP 崩了怎么办?阿里工程师公开高可用架构...

    运维态的隐患问题如故障影响面、配置一致性、监控和根因分析相关工具、复杂的人员组织的高可用程度等,如果没有足够的演练和验证方案,一样在关键时刻让你的应用出现“崩”的情况。阿里巴巴工程师的高可用架构建设...
    文章 2020-02-18 5199浏览量
  • 如何做好一名稳定性SRE-业务团队系统稳定性的思与行

    区分责任,当出现故障时,区分清楚责任,到底是稳定性工作没有做到位,还是做到位了,但是团队同学疏忽了,还是说只是单纯的业务变化;1.3,开发和SRE的区别 都是做技术的,很多开发刚刚转向负责稳定性时,有些弯转...
    文章 2020-10-26 5393浏览量
  • 表格存储如何实现高可靠和高可用

    分布式系统中,实现数据高可靠往往通过多副本加Paxos等分布式一致性算法,实现高可用一般是实现快速的故障迁移机制,实现热升级和动态的缩容。那么表格存储如何来实现高可靠和高可用呢,我们首先看下面的架构图: ...
    文章 2017-11-08 7609浏览量
  • 如何应对数据库CPU打满?最优解在这里.

    “紧急”告警发出稍晚,业务受到突发情况影响的时间就相对较长,对业务产生影响,甚至引发业务故障。在实时监控的场景下,当我们面临一个突发的异常点时,很难预判下一时刻是否还异常。因此,是否需要应急告警...
    文章 2020-04-22 811浏览量
  • 电商平台迎战大促季峰值的运维技巧

    无状态设计:应用服务中不能保存用户状态数据,如果有状态就会出现难以容、单点等问题;超时设置:当某个服务不可用时,不至于整个系统发生连锁反应;异步调用:同步调用改成异步调用,解决远程调用故障或调用超时...
    文章 2018-06-06 1656浏览量
  • kafka集群内复制功能深入剖析

    由于broker级别的故障一般会非常少,所以预期的leader和ISR都会不经常改变。对客户端来说,broker仅向消费者公开已经提交的消息。broker故障期间,已提交的数据始终被保留。消费者使用相同的offset可以从另一个被...
    文章 2018-10-16 845浏览量
  • 分布式缓存Redis分区(分片)的高可用方案在大厂中的...

    在其他节点的数据仍然可用维护方便如果数据库的某个节点出现故障&xff0c;需要修复数据&xff0c;只需修复该节点均衡I/O可以把不同的请求映射到各节点以平衡 I/O&xff0c;改善整个系统性能改善查询性能对分区对象的查询可以...
    文章 2021-12-27 17浏览量
  • 独立开发一个云(PaaS)的核心要素,Go,Go,Go!

    10.服务实例的动态容与缩容:有的同学会问服务实例如果没有计算,就空跑在那里呗,但是至少它会占用内存,而且,一般集群为一个服务分配计算资源时,一般会以CPU,内存为度量单位,因此如果一个服务占用了CPU,...
    文章 2015-10-10 2254浏览量
  • 测试一年多,上线就崩溃!微服务到底应该怎么测试?

    不久前,也就是11月16日,澳大利亚交易所(Australian Securities Exchange,ASX)上线了一个新的交易系统,但因为出现故障而被迫关闭。这是其 2016 年因硬件故障导致休市后最为严重的一次事故。测试了一年多,结果...
    文章 2021-01-12 2936浏览量
  • 老庙黄金2016春晚抢红包活动技术架构详解

    正是由于活动的时效性很强,比如春晚直播的那一两分钟,如果系统出现哪怕10秒的故障对整个活动的效果就大打折扣;性能要求高,不能慢。高并发时往往带来的就是对请求的响应时间变长,但是在促销情况下过长的延时...
    文章 2016-11-17 9945浏览量
  • 数据库防火墙关键特性系列之二丨高性能和可缩性

    当有一路网络环境出现故障,原来分散在2套RAC节点上的的压力将集中在一个数据库防火墙上,也就是说,异常情况下,单台数据库防火墙面临的是支撑2倍的吞吐量和会话量压力,同时通讯包的延迟仍然需要保持在50微秒以内...
    文章 2017-08-01 1264浏览量
  • Serverless弹性伸缩的现状调研

    业务场景中经常遇到流量突发情况,大部分的非业务形态的系统故障也都是由流量突增引起的,这就要求Serverless具备秒级弹性的能力,如果容时间过长,可能流量峰值已经一闪而过,容就显得毫无意义。而影响容时...
    文章 2020-12-17 639浏览量
  • 高可用性系统在大众点评的实践与经验

    故障出现时,不是解决或者定位到具体问题,而是快速恢复是第一要务的,防止次生灾害,问题扩大。这里就要求要站在业务角度思考,而不仅是技术角度思考。下面,我们就按这两个子目标来分别阐述。频率要低:减少出故障...
    文章 2017-08-01 1602浏览量
1 2 3 4 ... 11 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化