• 预防宕机靠RAC,和力记易说那就OUT了

    日常生活中我们遇到的电脑“蓝屏”就是宕机的一种常见表现,此外,专业IT机房里的服务器也会因为数据库死锁、某些服务挂掉等发生宕机。为了避免服务器宕机,很多公司会聘用专业IT运维工程师24小时待命通过显示器查看...
    文章 2017-08-09 847浏览量
  • 蚂蚁智能监控

    机房级容灾 对于常规的业务域租户,AntMonitor 提供机房级的容灾能力,各子系统的机房级容灾方案实现如下。产品系统 monitorprod 为同城三机房部署的无状态组件,每个机房的服务挂载一个 vip,解决机房内单点容灾...
    文章 2021-09-07 67浏览量
  • 2017QCon分享:从淘宝到云端的高可用架构演进

    比如在设计技术方案的时候,在最后一章单独有一个容灾设计,这个节点里任何服务挂掉的时候,你要保持什么样的方式保持这个服务是可用的。在容灾设计时有几点必须考虑,比如我引了一个新jar包或者调了一个新的RPC的...
    文章 2017-10-25 2952浏览量
  • 纯干货|从淘宝到云端的高可用架构演进

    比如在设计技术方案的时候,在最后一章单独有一个容灾设计,这个节点里任何服务挂掉的时候,你要保持什么样的方式保持这个服务是可用的。在容灾设计时有几点必须考虑,比如我引了一个新jar包或者调了一个新的RPC的...
    文章 2017-06-19 2162浏览量
  • 我们雇佣了一只大猴子.

    验证核心系统的同城一个机房挂掉的情况下,是否还可以正常工作。2015年因为一次宕机事故,公司内部得出一个结论:任何基础设施、生产系统、任何流程都可能出现问题,没有经过重大灾难验证的容灾设施都是耍流氓。启动...
    文章 2019-02-28 2046浏览量
  • 章文嵩博士和他背后的负载均衡帝国

    中美切换要花10分钟,因为要等网络所有几点对某些域名的TTL失效,2是滞后,有时候这种滞后是致命的,比如仍然有部分流量打到已经挂掉的那部分服务器上。容错 一个大型数据中心,每天都有机器坏了是很正常的事情,...
    文章 2016-05-30 9482浏览量
  • 章文嵩(正明)博士和他背后的负载均衡(LOAD ...

    中美切换要花10分钟,因为要等网络所有几点对某些域名的TTL失效,2是滞后,有时候这种滞后是致命的,比如仍然有部分流量打到已经挂掉的那部分服务器上。容错 一个大型数据中心,每天都有机器坏了是很正常的事情,...
    文章 2016-05-26 16442浏览量
  • ENode 1.0-框架的物理部署思路

    如memcached,redis这些都是分布式的缓存,可以有效的避免单点故障的问题,虽然挂了的单台memcached服务器会影响一部分数据的读取和写入,但是至少不会给整个系统带来挂掉的后果;同样分布式存储如mongodb,也能做到...
    文章 2016-05-27 1386浏览量
  • 为什么需要消息队列,及使用消息队列的好处?

    容灾,对于普适的消息队列组件来说,节点的动态增删和消息的持久化,都是支持其容灾能力的重要基本特性。当然,这个特性对于游戏服务器中大部分应用中的消息队列来说不是必须的,这个也是跟应用情景有关的,很多时候...
    文章 2018-07-05 7639浏览量
  • 微服务与配置中心:别让您的微服务被配置管理“绊”了...

    那为什么是弱依赖呢,最基本的一个道理,当业务系统即依赖配置中心的这些系统当它们不需要调整系统行为能力的时候,它其实是不用care这个时候配置中心服务到底在不在的,所以当我的配置中心服务挂掉的时候,影响应该...
    文章 2018-02-12 7374浏览量
  • 超全总结|阿里如何应对电商故障?...

    Netflix发布猴子军团的原因是因为,他们很早就吃过云故障的亏,所以本能是认为云设施是不可靠的,必须在通过演练来验证软件层面的容灾。古代有个哲学家说过"没有人曾经两次踏进同一条河流",因为无论是这条河还是这...
    文章 2017-06-19 3775浏览量
  • AIX LVM基本概念理解及十八个典型问题

    1.生产两个存储,在VG层面做镜像,实施DS8000存储级容灾应该注意什么?2.对于善用AIX LVM特性直接做存储双活方案,有几个点想咨询?3.lvm做镜像如何实现磁盘的读写分离?4.lvm镜像不同存储的两个卷,存储性能需求及...
    文章 2017-08-09 1734浏览量
  • 负载均衡进阶:SLB常见问题解决方法

    比如整个可用区的机房发生了电、光缆出现了中断、整个可用区机房中所有的物理机都无法正常工作的时候,也就是整个可用区都宕了的情况下,能够由备可用区来继续提供服务,这就是可用区级别容灾的设计初衷。...
    文章 2017-10-09 11021浏览量
  • 闲鱼异地多活架构设计与实现

    当区域挂掉时,服务切至备份区域保证服务可用性。但异地备的问题是:a)另一个区域不跑流量,出了问题不敢切。b)备份全站,资源利用率低。c)存在跨地域访问。异地多活:异地多活从接入层开始做多区域多机房部署...
    文章 2021-10-14 55浏览量
  • OceanBase高可用实践

    主机尽力将数据同步到备机,而不管是否同步成功,当主机挂掉以后,将备机升级成主机以继续提供服务,这就意味着如果主机在宕机前有数据没有同步到备机,要么通过某种特殊的手段将数据从宕掉的主机同步到备机,要么就...
    文章 2019-07-28 1604浏览量
  • 今日头条在消息服务平台和容灾体系建设方面的实践与...

    头条的容灾系统建设 业务背景 今日头条的服务大量使用微服务,容器数目巨大,业务线繁多,Topic 的数量也非常多。另外,使用的语言比较繁杂,包括 Python,Go,C++,Java,JS 等,对于基础组件的接入,维护 SDK 的成本...
    文章 2019-11-04 2553浏览量
  • 高可用的本质

    假设单点的可靠性假设是99.99%,它要提升到99.999%是非常困难的,但是如果无单点而是依赖2个(1个挂掉没有关系,只要不同时挂就行),那整体可靠性就是99.999999%会有质的提升。单点故障会导致无法快速止血,拉长...
    文章 2021-02-22 995浏览量
  • 搜狐畅游高级DBA:Data Guard运维中的实战经验和技巧

    如果主库挂掉,备库能够进行Failover(故障转移),11g的备库现在被赋予了更多的责任,一主一备可以支持。批量查询。如果备库批量任务压力较大,本身对于CPU资源消耗较大;如果长年累月,本身硬件消耗就不可忽略;...
    文章 2017-05-02 2200浏览量
  • Gitlab从删库到恢复-数据库备份\恢复\容灾\HA的靠谱...

    如果你希望做到异地的0丢失,可以拉专线,使用异地同步流复制,这样的话即使主机房完全挂掉,也不会丢数据了。4.方法4,将本地机房的备份数据,异步或者通过调度的方式,定时的同步到异地机房的存储中。备份集校验 与...
    文章 2017-02-01 15602浏览量
  • 常见消息队列基础知识

    大量的并发不会直接挂掉你的mysql节点&xff0c;但是会拖慢速度&xff0c;降低吞吐量&xff0c;一个玩家的请求由于处理时间太长&xff0c;导致玩家放弃重试&xff0c;但是对于后端来说&xff0c;对该玩家之前的处理过程消耗的资源就...
    文章 2021-09-10 62浏览量
  • 饿了么技术往事(下)

    系统挂了可以恢复,各数据中心节点间数据发生不一致的话,数据订正的成本很高。多数据中心架构实施后的几年里面,发生过一次 DRC(我们的数据复制服务)变更引入的bug,导致同步出错,好在影响的数据库实例范围可控...
    文章 2020-11-26 4403浏览量
  • PolarDB-X 一致性共识协议(X-Paxos)

    在现实应用场景中,Follower 和 Leader 的状态机难免会存在回放延迟,比如一个大的 DDL 会导致 Follower 的回放延迟被无限放大,而如果在回放延迟存在的情况下 Leader 挂掉新主选出时,新主无法对外提供服务,而此时...
    文章 2021-01-18 960浏览量
  • 流量暴增,掌门教育如何基于 Spring Cloud Alibaba ...

    当一台或者几台同步服务器挂掉后,采用 Zookeeper 临时节点的 Watch 机制监听同步服务器挂掉情况,通知剩余同步服务器执行 reHash,挂掉服务的工作由剩余的同步服务器来承担。通过一致性 Hash 实现被同步的业务服务...
    文章 2020-09-10 767浏览量
  • 老司机的双11手记:这么牛的阿里云数据库,你造怎么用...

    还有一种跨数据中心的备方案,在历年的双11中,已经有很多用户实施过这样的方案,你可以选择在两个不同的数据中心部署数据库和应用,比如在杭州和上海两个地区部署,两个数据中心的数据同步采用DTS,以保证一个...
    文章 2016-11-19 5251浏览量
  • 【双11背后的技术】AliCloudDB——双11商家后台数据库...

    还有一种跨数据中心的备方案,在历年的双11中,已经有很多用户实施过这样的方案,你可以选择在两个不同的数据中心部署数据库和应用,比如在杭州和上海两个地区部署,两个数据中心的数据同步采用DTS,以保证一个...
    文章 2017-01-12 3625浏览量
  • 优秀工程师必备的一项技能,你解锁了吗?

    在我的领域“高可用线下收银系统”进行线下系统容灾的时候,有各种容灾方案的设计,会员容灾、商品容灾、交易容灾、支付容灾……不同的容灾手段看起来让你眼花缭乱,但是他们有没有共同遵循的原则呢?有,这就是“让...
    文章 2019-06-13 38609浏览量
  • 阿里云Kubernetes稳定性最佳实践

    如果应用只有一个实例,当实例挂掉的时候,虽然Kubernetes能够将实例重新拉起,但是中间不可避免的存在一段时间的不可用。甚至更新应用,发布一个新版本的时候,也会出现这种情况。在Kubernetes里,尽量避免直接使用...
    文章 2018-06-04 10071浏览量
  • 构建云上企业数据库架构分为哪五步?

    X-DB多region部署不是所有数据都能在各个Region中写入,比如库存数据一般只在单点写、多点读,在这种业务场景下,如果使用原来的业务架构,当一个中心挂掉实现异地容灾时,由于单元之间的数据是异步同步的,切过来后...
    文章 2017-12-18 2979浏览量
  • 阿里移动|《蚂蚁金服移动端高可用技术实践》

    为了实现这一点,我们利用了一些小技巧,比如对于Android系统而言,支付宝通过独立的轻量级进程来单独上报埋点,即便主进程已经挂掉了,但是埋点也能够实时上报上来;对于ios系统而言,采取在线上hold住进程使其报完...
    文章 2017-12-07 1777浏览量
  • 阿里搜索事业部故障快速恢复实践

    演习时,操作者不承担责任,哪个系统挂掉,对应的团队承担责任;一个小的触发因素导致一个超大的故障时,恶化的模块承担责任,而不是触发者;每个模块有责任保护自己声称容量以内的流量和用户,超出流量可以限流但是...
    文章 2018-03-16 2697浏览量
1 2 3 4 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化