• 热备份

    2、心跳检测链路并不是主机一旦宕机备机就会启动相关服务,而是主机宕机后,备机要经过反复验证后才可以确定主机确实已经停止工作或宕机了。而这个检测时间的安全阀值一般定为12秒左右。3、备机接管主机时,需要启动...
    文章 2013-12-09 1099浏览量
  • 阿里云HBase推出普惠性高可用服务,独家支持用户的自...

    HDFS是一个Master-Slave模式的分布式文件系统,存在中心节点Namenode,Namenode支持以HA方式部署,单Namenode故障可秒级恢复,在两个NN都宕机的情况下依然可以重启自愈,但恢复时间取决于回放日志大小,在分钟级别。...
    文章 2019-10-11 2339浏览量
  • 阿里云HBase推出普惠性高可用服务,独家支持用户的自...

    HDFS是一个Master-Slave模式的分布式文件系统,存在中心节点Namenode,Namenode支持以HA方式部署,单Namenode故障可秒级恢复,在两个NN都宕机的情况下依然可以重启自愈,但恢复时间取决于回放日志大小,在分钟级别。...
    文章 2019-10-17 4867浏览量
  • Apache Flink 在快手的过去、现在和未来

    宕机快速发现方面,我们研发了 Hawk Service,它是一个多数派的连通性检测服务,具体的检测流程是 Hawk 集群中多个工作节点会周期性地检测集群中每台机器的连通性,由于它是多数派的,所以可信度是有保障的。...
    文章 2021-02-26 1238浏览量
  • 独家支持用户自建、混合云环境集群,快收下这份HBase...

    HDFS是一个Master-Slave模式的分布式文件系统,存在中心节点Namenode,Namenode支持以HA方式部署,单Namenode故障可秒级恢复,在两个NN都宕机的情况下依然可以重启自愈,但恢复时间取决于回放日志大小,在分钟级别。...
    文章 2019-12-17 1235浏览量
  • 网管必读:交换技术简介及应用分析

    并且要求网络系统不宕机,稳定可靠,不间断运行。要在注重考虑高性能、可管理性、高可靠性、适用性和性能价格比的基础上选择产品。2.邮电行业:电信系统由于其经营特点和为公众服务的目的,决定了电信系统机构在地理...
    文章 2017-11-22 850浏览量
  • 蚂蚁智能监控

    AntMonitor 简 介 AntMonitor 是蚂蚁集团的智能监控系统,通过构建面向监控可观测数据的、实时的、稳定的采集、清洗、计算及存储数据链路,为技术风险大脑及体系提供实时、稳定、可靠、丰富的可观测数据与告警服务。...
    文章 2021-09-07 177浏览量
  • Redis的KEYS命令引起RDS数据库雪崩,RDS发生两次宕机...

    但是下面的原因也是一部分可能引起宕机的情况。某服务化项目的业务增速非常快&xff0c;在高峰期&xff0c;数据库QPS突破35000&xff0c;系统处于高负荷状态。在高峰期如果同时执行几个全表扫描的SQL&xff0c;会造成数据库压力...
    文章 2022-04-17 43浏览量
  • 轻松玩转全链路监控

    3.缺少高可用保障:开源全链路监控方案并没有完整的高可用机制,当某个组件出现故障,比如服务器宕机的时候,无法自动恢复,需要人工介入进行解决,在这个过程中正常的监控会受到影响。4.无法支撑大规模场景:当接入...
    文章 2020-11-24 8359浏览量
  • 面对大规模 K8s 集群,如何先于用户发现问题?

    比如,监控告警一般的告警可能如下:xx容器内存使用率 99%webhook 双副本全部挂掉了apiserver 三副本全部宕机了这些告警,往往内容中就包含了具体的故障点,而 KubeProbe 的链路探测告警就有很多不一样,比如:...
    文章 2021-04-25 2293浏览量
  • 历年双11实战经历者:我们是如何做数据库性能优化及运...

    在系统上,为了实现故障切换和资源对用户透明,系统设计中包括了众多组件,例如RDS的数据访问链路从DNS-SLB-Proxy-DB节点,也有管理控制链路从前端控制台-OPEN API-后端组件-DB节点,这样给问题的排查带来了巨大的...
    文章 2017-09-07 10141浏览量
  • 《阿里巴巴中台战略思想与架构实践》笔记

    但因为着急恢复系统,没有来得及定位之前造成开始服务实例出问题的根本原因,这样的系统恢复运行其实处于一个“脆弱”的状态,之前造成服务实例宕机的问题可能让“雪崩”事故再次上演。微服务架构的典型特征 分布式...
    文章 2020-01-10 1262浏览量
  • 重新理解“无容灾不上云”:应用多活将成为云原生容灾...

    理论上来说是可以做到“永不宕机&xff0c;但为什么还有这么多规模大、时间长的系统故障发生&xff1f;如何减少宕机事故的发生&xff1f;InfoQ 采访了阿里云全局高可用技术团队&xff0c;谈谈如何保证复杂系统中的业务可持续...
    文章 2022-02-24 73浏览量
  • 【MOS】RAC 环境中 gc block lost 和私网通信性能问题...

    描述:服务器上错误的网卡绑定或链路聚合配置,邻接的私网交换上错误的聚合配置会导致性能下降,出现由"port flapping"导致的block loss,交换上构成私网端口的聚合链路发生频繁的"UP"/"DOWN"状态切换。...
    文章 2017-06-24 1697浏览量
  • 玩转ECS第3讲|ECS自助服务之智能诊断和自动化修复

    接下来,进行数据处理,特征数据进入到实时预测模型中,进行非预测宕机模型、可预测宕机模型、混合模型、高准确率、高召回模型;下一步进入投票模型,投票到各种各样的优先级的sls预测数据中,当precision大于50%时...
    文章 2020-10-28 4816浏览量
  • 阿里如何做到百万量级硬件故障自愈?

    对于宕机的机器而言,无法进无盘(ramos)才开【无故宕机】维修工单,这样能够大量地减少误报,减少服务台同学负担。无盘中的压测可以完全消除当前版本的kernel或软件的影响,真实地判断出硬件是否存在性能问题。b....
    文章 2018-11-24 3622浏览量
  • 阿里HBase超详实践总结|一文读懂大数据时代的结构化...

    多链路业务多地多单元部署是阿里技术架构的一项重要特征,这要求基础存储具备数据链路的灵活流动性。今天,阿里HBase会在多地部署多集群,集群间数据相互流动,以满足单元化业务的需求。在支持数据多链路的生产应用...
    文章 2017-06-20 4857浏览量
  • 阿里如何做到百万量级硬件故障自愈?

    对于宕机的机器而言,无法进无盘(ramos)才开【无故宕机】维修工单,这样能够大量地减少误报,减少服务台同学负担。无盘中的压测可以完全消除当前版本的kernel或软件的影响,真实地判断出硬件是否存在性能问题。b....
    文章 2018-11-19 3229浏览量
  • 高可用系统常用解决手段浅述

    出现系统不可用的原因,一种是人为的,比如发布了有 bug 的代码、不规范的发布流程导致的宕机或者网站访问量过载造成的雪崩等;另一种则是非人为的,由于外部系统和环境的变化造成的,比如硬盘老化造成的故障、机房...
    文章 2017-05-23 1573浏览量
  • 数据时代的结构化存储—HBase在阿里的应用实践

    业务多地多单元部署是阿里技术架构的一项重要特征,这要求基础存储具备数据链路的灵活流动性。今天,阿里HBase会在多地部署多集群,集群间数据相互流动,以满足单元化业务的需求。在支持数据多链路的生产应用上,...
    文章 2017-02-21 10804浏览量
  • 《策略驱动型数据中心——ACI技术详解》一第1章 数据...

    更高的存储可用性:在传统环境中,维护、存储升级、断电、病毒等所导致的计划内或计划外宕机,会导致最终用户的应用中断。借助存储虚拟化和冗余,可快速配置新存储资源,减少了宕机所造成的影响。改善的存储性能:...
    文章 2017-05-02 2529浏览量
  • 重新定义数据库的时刻,阿里云数据库专家带你了解...

    首先介绍实现云原生的门槛(PPT内容如下图所示),一个云原生的数据库必须拥有出色的性能,有上百万的QPS,规模很容易扩展到上百TB,同时在版本升级时尽量满足零宕机,最重要的一点是百分百兼容开源生态。...
    文章 2018-05-23 3245浏览量
  • 618大促来袭,浅谈如何做好大促备战

    资源耗尽导致的刚启动 Pod 宕机事故。值得一提的是MSE 云原生网关也支持了小流量预热&xff0c;我们看一下实战中的效果&xff0c;68节点是刚扩容的实例。并行类加载JDK7上&xff0c;如果调用Classloader....
    文章 2022-06-09 45浏览量
  • DTCC 2020|阿里云王涛:阿里巴巴电商数据库上云实践

    机器不得不做两次操作,分别是数据链路和管控链路。考虑到数据需要双向联动和性能问题,所以使用了ENI,又考虑到安全性问题,使用了ENI+MyBase方式。3.上云方案选择 —— 网络拓扑图 如下图,最上层是数据库管控平面...
    文章 2021-01-06 2257浏览量
  • 《策略驱动型数据中心——ACI技术详解》——第1章 ...

    本节书摘来自异步社区《策略驱动型数据中心——ACI技术详解》一书中的第1章,第1.1节,作者...此外,经证明易于管理、易于排除故障和升级的设备,有助于确保更短的网络宕机时间,从而提高了网络(进而增加集群)的可用性...
    文章 2017-05-02 2089浏览量
  • 阿里云受邀参加KVM虚拟化重量级国际技术论坛

    分享了热迁移是如何帮助阿里云在面对软、硬件故障时降低用户的宕机时间和宕机次数、在集群资源管理中如何融入调度系统进行集群资源的管理和整合等一些非常实际的应用场景。通过以上这些优化技术,我们将全链路下,...
    文章 2017-11-15 4963浏览量
  • 618 大促来袭,浅谈如何做好大促备战

    资源耗尽导致的刚启动 Pod 宕机事故。值得一提的是 MSE 云原生网关也支持了小流量预热&xff0c;我们看一下实战中的效果&xff0c;68 节点是刚扩容的实例。2、并行类加载JDK7 上&xff0c;如果调用 Classloader....
    文章 2022-06-09 228浏览量
  • 虚拟基础设施资源监控的最佳实践

    在环境中的问题将导致出现的问题,一个编程循环可以使一个CPU宕机,或者甚至饱和的链接导致网络错误。你必须积极地制定此计划,让系统的正常运行。这意味着需要预测潜在的基础设施尖峰,并有能力处理。考虑下面这个...
    文章 2017-07-05 1262浏览量
  • 天梭M13为何具有大型水平的高可用性

    在研制第一代八路服务器天梭 TS850的时候,浪潮就开始了对大型机市场的调研,直到2016年,天梭M13研发成功,这款产品凝结了浪潮对大型机的认识、对技术的慎重考虑——将M13作为一个强数据一致性的大规模交易系统来...
    文章 2017-08-02 1544浏览量
  • 双 11 猫晚直播:看阿里文娱如何“擒住”高并发、多...

    由于双路摄像机的流,同通过不同的编码器、链路上传到云的,会存在进度不一致的问题。用户切换过程就会出现画面或声音回跳的问题,例如明星唱了一句歌词,切换后可能由于画面 回跳导致又唱了一遍,造成用户体验的...
    文章 2020-05-27 750浏览量
1 2 3 4 ... 8 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化