• 将关键性业务应用迁移至云环境前,必须弄清的五个问题

    将业务分布托管在多家云服务供应商站点中能够确保客户免受单站或者单一区域宕机的影响。作为另一项建议,大家还应当监控自己的全球网络,从而检测其当前负载水平。我们需要关注性能问题,并利用现有工具进行负载均衡...
    文章 2017-07-06 929浏览量
  • 高可用系统常用解决手段浅述

    比如对于接入层和服务层,可以平行扩展机器部署,这样一台机器宕机,可以将请求转移到其他机器。数据层的冗余比较复杂,增加一份备份数据,需要考虑一致性的问题。按照分布式系统的 CAP 理论三者不可用同时满足的...
    文章 2017-05-23 1487浏览量
  • 云监控与 SLS 日志服务

    案例一、云监控实时检测网站状态,宕机时第一时间响应和处理1、控制台打开云监控,进入站点管理 2、点击右侧的新建监控任务 3、填写所监控的网址并设置监控频率,这里我们为了让监控更灵敏,设置 1分钟 4、设置报警...
    文章 2020-04-29 1383浏览量
  • 一种基于Lucene的实时搜索服务

    那么我们产品平台便采取了一种更低成本更稳定的实时架构方案来解决上述问题,其主要思路: 采用WAL机制保证上游系统写入磁盘的源数据不丢失,机器宕机重启保证让机器数据快速恢复到宕机前一致。 所有的更新操作...
    文章 2018-01-26 5374浏览量
  • ZooKeeper核心原理及应用场景

    比如有5个ZooKeeper节点,其中有2个节点宕机了,这个时候还有3个节点存活,存活个数超过半数,此时集群还是正常提供服务,所以ZooKeeper集群本生是没有高可用问题的。又因为存活的判断依据是超过半数,所以我们一般...
    文章 2020-06-09 811浏览量
  • 分库分表中间件的高可用实践

    而重启的时间也会导致不可用,与物理机宕机的情况相比是其不可用的时间是可知的,重启的动作也是可控的,那么我们就可以利用这些信息去做到流量的平滑无损。让client端感知即将下线 在笔者所知的很多做法中,让...
    文章 2019-05-15 1779浏览量
  • Apache Flink 在快手的过去、现在和未来

    宕机快速发现方面,我们研发了 Hawk Service,它是一个多数派的连通性检测服务,具体的检测流程是 Hawk 集群中多个工作节点会周期性地检测集群中每台机器的连通性,由于它是多数派的,所以可信度是有保障的。...
    文章 2021-02-26 1078浏览量
  • 云监控与 SLS 日志服务

    案例一、云监控实时检测网站状态,宕机时第一时间响应和处理 1、控制台打开云监控,进入站点管理 2、点击右侧的新建监控任务 3、填写所监控的网址并设置监控频率,这里我们为了让监控更灵敏,设置 1分钟 4、设置报警...
    文章 2019-06-03 1720浏览量
  • 甩掉运维黑锅,容灾部署如何破?

    1.由于某些不可抗拒的原因,华北电信的数据中心两个接入IP地址:3.3.3.3、4.4.4.4全部出现故障,并无法及时恢复;2.网站监控及时发现故障,并通知云解析DNS暂停所有华北电信线路下IP解析;3.云解析DNS暂停解析后,会...
    文章 2017-04-19 11898浏览量
  • 实用技巧:如何用负载均衡构建高可用服务

    当单台服务器已经无法处理访问请求时,当我们的服务宕机时,当有人试图攻击我们的服务时,我们应该怎么办?升级后端服务时,怎样才能不中断服务?如何构建一个高可用的服务?连接级 服务器级 可用区级 Region级 健康...
    文章 2016-07-05 4829浏览量
  • 实用技巧:如何用负载均衡构建高可用服务

    当单台服务器已经无法处理访问请求时,当我们的服务宕机时,当有人试图攻击我们的服务时,我们应该怎么办?升级后端服务时,怎样才能不中断服务?如何构建一个高可用的服务?连接级 服务器级 可用区级 Region级 健康...
    文章 2017-12-03 1450浏览量
  • 云监控与 SLS 日志服务

    我们这里设置 90%或 95%即可,平均响应时间指超过多少毫秒无法打开网站即判定为失败,这里我们可以设置为 3000 毫秒,连续阀值这里,有时网站因为网络抖动的原因导致探测无法打开,这里设置为 1 的话,每次探测...
    文章 2019-04-28 1576浏览量
  • 海量数据下的注册中心-SOFARegistry 架构介绍

    SessionServer 集群部署,任何一台 SessionServer 宕机时 Client 会自动 failover 到其他 SessionServer,并且 Client 会拿到最新的 SessionServer 列表,后续不会再连接这台宕机的 SessionServer。数据模型 模型...
    文章 2019-08-01 751浏览量
  • 海量数据下的注册中心-SOFARegistry 架构介绍

    SessionServer 集群部署,任何一台 SessionServer 宕机时 Client 会自动 failover 到其他 SessionServer,并且 Client 会拿到最新的 SessionServer 列表,后续不会再连接这台宕机的 SessionServer。数据模型 模型...
    文章 2019-08-06 2973浏览量
  • 海量数据下的注册中心-SOFARegistry 架构介绍

    SessionServer 集群部署,任何一台 SessionServer 宕机时 Client 会自动 failover 到其他 SessionServer,并且 Client 会拿到最新的 SessionServer 列表,后续不会再连接这台宕机的 SessionServer。数据模型 模型...
    文章 2019-04-26 972浏览量
  • 给飞驰的法拉利换引擎-谈边做业务边做架构重构(1)

    S系统是游戏接入的核心系统,一旦S系统故障,大量游戏玩家就不能登录游戏,而S系统并不具备多中心的能力,一旦主机房宕机,整个S系统业务就不可用了。其大概架构如下,可以看出数据库主库是全局单,一旦数据库主库...
    文章 2016-05-12 7665浏览量
  • 支付宝灾备能力为何引发争议

    一位曾在汤森路透工作的阿里巴巴程序员亦向《财经》记者表示,汤森路透号称世界最大金融网络,处理全球实时金融数据,要求不能宕机,哪怕自然灾害或战争。他们机房这样建的:两条不同电信公司的光缆和不同电力公司的...
    文章 2017-09-01 1838浏览量
  • 日访问量百亿级的应用如何做缓存架构设计

    如果后面这个节点3又恢复了,它又加进来,加进来之后,节点3的访问又会回来,如果节点3因为网络原因或者机器本身的原因,它又宕机了,一些节点3的请求又会分给其他节点,这个时候就会出现问题,之前分散给其他节点写...
    文章 2018-05-07 2949浏览量
  • 掌门教育微服务体系 Solar|阿里巴巴 Nacos 企业级落地...

    下去我们对此做了优化,取消全量定时读取业务服务名列表,通过 DevOps 的发布系统平台实施判断,如果是迁移过来的业务服务或者新上 Nacos 的业务服务,由发布平台统一调用 Nacos 接口来增加新的待同步业务服务 Job...
    文章 2020-08-03 1129浏览量
  • 网络“高速公路”首秀双11|探秘阿里巴巴HAIL数据中心...

    实际运行过程中也体现了这一点,两台TOR由于堆叠系统的软硬件bug原因导致同时宕机的情况屡见不鲜,对业务系统的稳定性形成了很大的挑战。去堆叠设计 5.1网络架构中,我们创新性的实现了服务器双活接入+TOR去堆叠(如...
    文章 2018-11-22 2300浏览量
  • 网络“高速公路”首秀双11|探秘阿里巴巴HAIL数据中心...

    实际运行过程中也体现了这一点,两台TOR由于堆叠系统的软硬件bug原因导致同时宕机的情况屡见不鲜,对业务系统的稳定性形成了很大的挑战。去堆叠设计 5.1网络架构中,我们创新性的实现了服务器双活接入+TOR去堆叠(如...
    文章 2019-07-31 1316浏览量
  • 阿里巴巴为什么不用 ZooKeeper 做服务发现?

    发生这个异常的原因有很多,例如应用机器与 ZooKeeper 节点之间网络闪断,ZooKeeper 节点宕机服务端 Full GC 时间超长,甚至你的应用进程 Hang 死,应用进程 Full GC 时间超长之后恢复都有可能。要理解这个异常,...
    文章 2018-06-06 25959浏览量
  • 香港服务器租用 需看这几个步骤

    服务器租用是一个长期的过程,而且不管是自己操作不当,还是服务器宕机原因,在使用中难免会遇到一些问题,而有些问题使我们自己不能解决,这时候能够及时联系主机商并加以解决是非常重要的。因此,主机商的售后...
    文章 2017-08-02 1849浏览量
  • 阿里巴巴为什么不用 ZooKeeper 做服务发现?

    发生这个异常的原因有很多,例如应用机器与ZooKeeper节点之间网络闪断,ZooKeeper节点宕机服务端Full GC时间超长,甚至你的应用进程Hang死,应用进程 Full GC 时间超长之后恢复都有可能。要理解这个异常,需要了解...
    文章 2018-06-12 7807浏览量
  • 掌门教育微服务体系 Solar|阿里巴巴 Nacos 企业级落地...

    下去我们对此做了优化,取消全量定时读取业务服务名列表,通过 DevOps 的发布系统平台实施判断,如果是迁移过来的业务服务或者新上 Nacos 的业务服务,由发布平台统一调用 Nacos 接口来增加新的待同步业务服务 Job...
    文章 2020-08-03 455浏览量
  • 轻松玩转全链路监控

    3.缺少高可用保障:开源全链路监控方案并没有完整的高可用机制,当某个组件出现故障,比如服务器宕机的时候,无法自动恢复,需要人工介入进行解决,在这个过程中正常的监控会受到影响。4.无法支撑大规模场景:当接入...
    文章 2020-11-24 6100浏览量
  • 阿里云基础产品技术月刊 2019年2月

    通过Blink实时流计算平台,已经在Blink平台上完成了内存故障预测模型的搭建,并打通数据反馈路径并将预测宕机的相关结果回流到阿里云日志服务(SLS)的日志中。后续计划和ECS的调度系统打通,增加系统中宕机风险的...
    文章 2019-03-13 3018浏览量
  • RedLock究竟是不是Redis分布式锁分布式环境下的银弹?

    我们回顾 1 观点,深究抽象出现这个缺陷的根本原因,就是为了解决由于系统宕机带来的锁失效而给锁强加了一个失效时间,异常情况下,程序(业务)执行的时间大于锁失效时间从而造成的一系列的问题,我们能否从这方面...
    文章 2020-06-29 540浏览量
  • ​我们的系统需要什么样的分布式锁?

    同时,在接入分布式锁服务过程中,要考虑接入成本、服务可靠性、分布式锁切换精度以及正确性等问题,正确和合理的使用分布式锁,是需要持续思考并予以优化的。参考文章 How to do distributed locking-Martin ...
    文章 2020-07-06 1247浏览量
  • Spring Cloud Alibaba 构建微服务体系?

    节点宕机:其中某个节点宕机,其任务转移到其它节点,因为有虚拟节点的缘已经故,所以此节点的任务会均衡 ReSharding 到其它节点,那么,集群在任何时候,任务处理都是分片均衡的,如上图 2 中,B 节点宕机,#1、#2 ...
    文章 2020-09-10 767浏览量
1 2 3 4 ... 11 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化