• Facebook 史上最严重宕机:互联网企业是时候重新审视...

    而这也是此次宕机事件的原因所在。Janardhan 表示,在一项日常维护工作中,工程师们发出一条用于评估全球骨干网容量可用性的指令,但意外切断了骨干网络中的所有连接,这实质上就是断开了 Facebook 全球数据中心之间...
    文章 2021-12-09 66浏览量
  • 将关键性业务应用迁移至云环境前,必须弄清的五个问题

    将业务分布托管在多家云服务供应商站点中能够确保客户免受单站或者单一区域宕机的影响。作为另一项建议,大家还应当监控自己的全球网络,从而检测其当前负载水平。我们需要关注性能问题,并利用现有工具进行负载均衡...
    文章 2017-07-06 1047浏览量
  • 重新理解“无容灾不上云”:应用多活将成为云原生容灾...

    理论上来说是可以做到“永不宕机&xff0c;但为什么还有这么多规模大、时间长的系统故障发生&xff1f;如何减少宕机事故的发生&xff1f;InfoQ 采访了阿里云全局高可用技术团队&xff0c;谈谈如何保证复杂系统中的业务可持续...
    文章 2022-02-24 68浏览量
  • 家用宽带网络与服务器使用的网络有什么不同?

    家庭网络使用的各种网络设备,交换机路由器等等都是廉价的民用设备,过热宕机等等情况屡见不鲜。网络布置规范 去过服务器机房的都知道,IDC机房往往有着清晰地视觉效果,配线架上几百根网线就像梳理好头发一样整齐。...
    文章 2019-03-06 2681浏览量
  • 分库分表中间件的高可用实践

    将这个脚本接入发布平台,即可进行滚动式上下线了。现在可以解释下recover_time为何要较长了,因为新建连接也会导致脚本计算出来的 connection count数量增加,所以需要一个时间窗口不去建立心跳,从而能让这个脚本...
    文章 2019-05-15 1897浏览量
  • 高可用系统常用解决手段浅述

    出现系统不可用的原因,一种是人为的,比如发布了有 bug 的代码、不规范的发布流程导致的宕机或者网站访问量过载造成的雪崩等;另一种则是非人为的,由于外部系统和环境的变化造成的,比如硬盘老化造成的故障、机房...
    文章 2017-05-23 1559浏览量
  • ZooKeeper核心原理及应用场景

    如果主节点宕机了,这ZooKeeper对应的数据就会发生变更,既而监听这个数据的其余节点就会感知到主节点宕机了,然后重新进行选举。02/元数据管理 很多分布式的程序需要集中式的管理自己的元数据,这个时候ZooKeeper...
    文章 2020-06-09 871浏览量
  • VMware Vsphere高可用性(HA群集)

    (监视的ESXi从主机宕机后,首选主机将决定将其身上运行的虚拟己重新运行在其他从主机上) 2)监控所有受保护虚拟机的电源状况。如果有一台虚拟机出现故障,首选主机可确保重新启动该虚拟机。使用本地放置引擎,首选...
    文章 2017-11-15 1530浏览量
  • VMware Vsphere高可用性(HA群集)

    (监视的ESXi从主机宕机后,首选主机将决定将其身上运行的虚拟己重新运行在其他从主机上) 2)监控所有受保护虚拟机的电源状况。如果有一台虚拟机出现故障,首选主机可确保重新启动该虚拟机。使用本地放置引擎,首选...
    文章 2017-11-12 2281浏览量
  • 一种基于Lucene的实时搜索服务

    那么我们产品平台便采取了一种更低成本更稳定的实时架构方案来解决上述问题,其主要思路: 采用WAL机制保证上游系统写入磁盘的源数据不丢失,机器宕机重启保证让机器数据快速恢复到宕机前一致。 所有的更新操作...
    文章 2018-01-26 5511浏览量
  • 甩掉运维黑锅,容灾部署如何破?

    1.由于某些不可抗拒的原因,华北电信的数据中心两个接入IP地址:3.3.3.3、4.4.4.4全部出现故障,并无法及时恢复;2.网站监控及时发现故障,并通知云解析DNS暂停所有华北电信线路下IP解析;3.云解析DNS暂停解析后,会...
    文章 2017-04-19 12058浏览量
  • 给飞驰的法拉利换引擎-谈边做业务边做架构重构(1)

    S系统是游戏接入的核心系统,一旦S系统故障,大量游戏玩家就不能登录游戏,而S系统并不具备多中心的能力,一旦主机房宕机,整个S系统业务就不可用了。其大概架构如下,可以看出数据库主库是全局单点,一旦数据库主库...
    文章 2016-05-12 7920浏览量
  • 网络“高速公路”首秀双11|探秘阿里巴巴HAIL数据中心...

    实际运行过程中也体现了这一点,两台TOR由于堆叠系统的软硬件bug原因导致同时宕机的情况屡见不鲜,对业务系统的稳定性形成了很大的挑战。去堆叠设计 5.1网络架构中,我们创新性的实现了服务器双活接入+TOR去堆叠(如...
    文章 2018-11-22 2418浏览量
  • 互联网三高如何保障业务连续性

    很显然,此 Leader 存在单点隐患,那么 ZK 是怎么解决此问题的呢,首先 Follower 与 Leader 会用心跳机制保持连接,如果 Leader 出现问题了(宕机或者因为 FullGC 等原因无法响应),Follower 就无法感知到 Leader ...
    文章 2022-06-21 1浏览量
  • Apache Flink 在快手的过去、现在和未来

    二、Flink 在快手的发展Flink 在快手的发展历程,总的来说可以分为四个阶段:我们是从 17 年开始使用 Flink 的,17 年我们主要是初步试用,当时接入的业务是直播与短视频的质量监控业务。进入到 2018 年之后,在能力...
    文章 2021-02-26 1236浏览量
  • 网络“高速公路”首秀双11|探秘阿里巴巴HAIL数据中心...

    实际运行过程中也体现了这一点,两台TOR由于堆叠系统的软硬件bug原因导致同时宕机的情况屡见不鲜,对业务系统的稳定性形成了很大的挑战。去堆叠设计 5.1网络架构中,我们创新性的实现了服务器双活接入+TOR去堆叠(如...
    文章 2019-07-31 1558浏览量
  • 网易云音乐的消息队列改造之路

    另外消息系统也会出现宕机宕机选主也有一段时间(秒级),虽然客户端有重试能力,但是有些场景不能很好满足。因此,消息队列提供了降级组件,在系统异常时,客户端会将消息发送本地或者发送到容灾集群,降低系统...
    文章 2019-07-25 3867浏览量
  • 数据和云

    Sentinel 切换功能主要依赖 down-after-milliseconds 和failover-timeout 两个参数,down-after-milliseconds 决定了Sentinel 判断 Redis 节点宕机的超时,知乎使用 30000 作为阈值。而 failover-timeout 则决定了两...
    文章 2018-10-11 1704浏览量
  • 阿里基础设施的智能监控

    此外同一个安全域内不同采集域可以互相指定为备份采集域,如果某个采集域内的所有采集机都宕机,那么备份采集域的采集机会承担宕机的采集域所承担设备的采集任务,这个称之为跨采集域容灾。Syslog和AAA日志采集是由...
    文章 2019-07-30 1540浏览量
  • 蚂蚁金服褚霸:敲最牛的代码,骑最野的车|开发者必读...

    当 CPU 过于繁忙,就像“人脑”并发处理过多的事情,会降低做事的效率,严重时甚至会导致崩溃“宕机”。因此,理解 CPU 的工作原理,合理控制负载,是保障系统稳定持续运行的重要手段。亿级规模的 Feed 流系统,如何...
    文章 2019-08-26 1236浏览量
  • 小微企业阿里云最佳实践系列(四):云监控与 SLS ...

    案例一、云监控实时检测网站状态,宕机时第一时间响应和处理1、控制台打开云监控,进入站点管理 2、点击右侧的新建监控任务 3、填写所监控的网址并设置监控频率,这里我们为了让监控更灵敏,设置 1分钟 4、设置报警...
    文章 2020-04-29 1465浏览量
  • 海量数据下的注册中心-SOFARegistry 架构介绍

    SessionServer 集群部署,任何一台 SessionServer 宕机时 Client 会自动 failover 到其他 SessionServer,并且 Client 会拿到最新的 SessionServer 列表,后续不会再连接这台宕机的 SessionServer。数据模型 模型...
    文章 2019-08-01 828浏览量
  • 小微企业阿里云最佳实践系列(四):云监控与 SLS ...

    案例一、云监控实时检测网站状态,宕机时第一时间响应和处理 1、控制台打开云监控,进入站点管理 2、点击右侧的新建监控任务 3、填写所监控的网址并设置监控频率,这里我们为了让监控更灵敏,设置 1分钟 4、设置报警...
    文章 2019-06-03 1774浏览量
  • 海量数据下的注册中心-SOFARegistry 架构介绍

    SessionServer 集群部署,任何一台 SessionServer 宕机时 Client 会自动 failover 到其他 SessionServer,并且 Client 会拿到最新的 SessionServer 列表,后续不会再连接这台宕机的 SessionServer。数据模型 模型...
    文章 2019-08-06 3138浏览量
  • 你管这破玩意儿叫高可用

    宕机或者因为 FullGC 等原因无法响应&xff09;xff0c;Follower 就无法感知到 Leader 的心跳&xff0c;就会认为 Leader 出问题了&xff0c;于是它们就会发起投票选举&xff0c;最终在多个 Follower 中选出一个 Leader 来&xff08;...
    文章 2022-05-08 26浏览量
  • RedLock究竟是不是Redis分布式锁分布式环境下的银弹?

    我们回顾 1 观点,深究抽象出现这个缺陷的根本原因,就是为了解决由于系统宕机带来的锁失效而给锁强加了一个失效时间,异常情况下,程序(业务)执行的时间大于锁失效时间从而造成的一系列的问题,我们能否从这方面...
    文章 2020-06-29 701浏览量
  • 海量数据下的注册中心-SOFARegistry 架构介绍

    SessionServer 集群部署,任何一台 SessionServer 宕机时 Client 会自动 failover 到其他 SessionServer,并且 Client 会拿到最新的 SessionServer 列表,后续不会再连接这台宕机的 SessionServer。数据模型 模型...
    文章 2019-04-26 1039浏览量
  • HBase运维实践-聊聊RIT的那点事

    然而不幸的是,因为各种各样的原因,很多Region还是会掉长时间的RIT状态,甚至是永久的RIT状态,必须人为干预才能解决,下面一节内容让我们看看都有哪些常见的场景会导致Region会处于永久RIT状态,以及遇到这类...
    文章 2017-08-01 1724浏览量
  • 知乎技术分享:从单机到2000万QPS并发的Redis高性能...

    5)Sentinel 切换功能主要依赖 down-after-milliseconds 和 failover-timeout 两个参数,down-after-milliseconds 决定了 Sentinel 判断 Redis 节点宕机的超时,知乎使用 30000 作为阈值。而 failover-timeout 则...
    文章 2018-09-18 3163浏览量
  • 小微企业阿里云最佳实践系列(四):云监控与 SLS ...

    案例一、云监控实时检测网站状态,宕机时第一时间响应和处理 1、控制台打开云监控,进入站点管理 2、点击右侧的新建监控任务 3、填写所监控的网址并设置监控频率,这里我们为了让监控更灵敏,设置 1分钟 4、设置报警...
    文章 2019-04-28 1772浏览量
1 2 3 4 ... 24 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化