• 走近华佗,解析自动化故障处理系统背后的秘密

    在磁盘进入SLOW或WARNING状态时,在线应用一般会选择不再使用此磁盘,因为此时磁盘可能已经出现损坏的迹象,会造成延时大规模增加,但对于理想的应用则可以继续使用。一旦磁盘进入ERROR状态,则表明此磁盘可能马上...
    文章 2016-12-18 4668浏览量
  • Apache Flink 漫谈系列(02)-概述

    在一个分布式系统中由于单个进程或者节点宕都有可能导致整个Job失败,那么容错机制除了要保证在遇到非预期情况系统能够"运行"外,还要求能"正确运行",也就是数据能按预期的处理方式进行处理,保证计算结果的正确性...
    文章 2018-11-08 10308浏览量
  • 表格存储如何实现高可靠和高可用

    冗余可以实现容错,在数据层面一般表现为数据有个副本,任意一份损坏不会影响数据完整性,在服务层面可以表现为有个服务节点,任意一个节点宕可以将服务迁移到另外的节点。服务高可用依赖于数据高可靠,因为...
    文章 2017-11-08 7434浏览量
  • HBase的引出

    因此必然出现子网络,而对于分布式系统而言,网络问题又是一个必定会出现的异常情况,因此分区容错性也就成为了一个分布式系统必须需要面对和解决的问题,因此应该在C一致性和A可用性之间寻求平衡 BASE理论 基本可用...
    文章 2018-11-30 1290浏览量
  • Apache Flink 漫谈系列(05)-Fault Tolerance

    外部Sink的容错要求Apache Flink 要做到 End-to-End 的 Exactly-Once相对比较困难,以Kafka作为Sink为例,当Sink Operator节点宕时候,根据Apache Flink 内部Exactly-Once模式的容错保证,系统会回滚到上次成功的...
    文章 2018-11-11 5381浏览量
  • 实战、运维和调优》——1.1 什么是实时流计算

    StreamBase认为HA问题应该通过CEP方式处理,也就是说出现问题的部件肯定反映在System Container和HA Container的输出流上面,Monitor如果通过复杂事件处理这些Tuples就能够检测到机器故障等问题,并做出相应处理。...
    文章 2017-07-03 2255浏览量
  • Hadoop HDFS概念学习系列之HDFS Block(八)

    然后,客户端把文件名和Block索引发送给Master节点,Master节点将相应的Block标识和副本的位置信息返回给客户端,客户端用文件名和Block索引作为key缓存这些信息,之后客户端发送请求到其中的一个副本,一般会选择...
    文章 2017-11-21 1164浏览量
  • ElasticSearch Reading and Writing documents ...

    主分片也不会让其他分片(没有)出现故障(也就是不能让自己出现故障,因为自己故障了整个单点集群就算挂了),但是请求master节点检查自己,这样master节点就知道只有一个好的主分片,从这个意义上我们可以说...
    文章 2018-10-24 975浏览量
  • 万亿级数据洪峰下的分布式消息引擎

    对于前者,通过运维管控系统推送应用自身QoS数据,一般会输出如下表格。而引擎组件的服务QoS,如服务于消息问题追溯的链路轨迹组件,对于核心功能来说,定级相对较低,可在洪峰到来之前提前关闭。谈到熔断,不得不提...
    文章 2017-02-07 7047浏览量
  • 【双11背后的技术】万亿级数据洪峰下的分布式消息引擎

    对于前者,通过运维管控系统推送应用自身QoS数据,一般会输出如下表格。而引擎组件的服务QoS,如服务于消息问题追溯的链路轨迹组件,对于核心功能来说,定级相对较低,可在洪峰到来之前提前关闭。谈到熔断,不得不提...
    文章 2017-01-12 5712浏览量
  • 服务器驱动型存储系统什么东东?

    如果单一或者台主机出现故障,用户并不需要进行数据重建工作。这么设计的优势就是如果大家需要提升性能表现,则可以通过从Amazon手中以低廉价格购置SSD资源的方式进行服务器升级,从而改善运行于其中的应用程序的...
    文章 2017-07-04 1135浏览量
  • 分布式基础,通俗易懂CAP?

    分布式系统,往往有个节点,每个节点之间,都不是完全独立的,需要相互通信,当发生节点无法联通时,数据是否还能保持一致,系统要如何进行容错处理,是需要考虑的。同时,连通性和扩展性紧密相关,想要加机器扩展...
    文章 2019-08-08 486浏览量
  • 分布式基础,通俗易懂CAP?

    分布式系统,往往有个节点,每个节点之间,都不是完全独立的,需要相互通信,当发生节点无法联通时,数据是否还能保持一致,系统要如何进行容错处理,是需要考虑的。同时,连通性和扩展性紧密相关,想要加机器扩展...
    文章 2018-10-31 1249浏览量
  • 每秒处理1000万用户请求…云上架构如何实现高性能和高...

    整个过程其实是一个循环,即使某一次性能评估达标,但随着时间的推移业务的发展还是会出现新的性能需要。进一步分析 性能目标指的是制定的符合高性能的指标,比如页面响应时间小于1秒,并发用户可以达到1万,高峰期...
    文章 2018-06-13 3061浏览量
  • 双硬盘RAID 0全攻略

    4、出现硬盘故障的RAID系统不再可靠应当及时的更换损坏的硬盘否则剩余的镜像盘也出现问题那么整个系统崩溃。5、更换新盘后原有数据需要很长时间同步镜像外界对数据的访问不会受到影响只是这时整个系统的性能...
    文章 2014-08-12 2331浏览量
  • 通过支付宝服务中断事件看系统可靠性和YunOS的可靠性

    YunOS,是阿里巴巴集团旗下的一款智能设备操作系统产品,融合了阿里巴巴在云数据存储、云计算服务以及智能设备操作系统领域的技术成果,并且可搭载于智能手机、智能顶盒(DVB/IPTV/OTT)、互联网电视等多种智能...
    文章 2016-01-14 8299浏览量
  • Service Mesh 高可用在企业级生产中的实践

    一方面如上表中偶数节点4和奇数节点3可容忍的故障数是一样的,另一方面,偶数个节点在选主节点的时候可能会出现瓜分选票的情形(虽然 Consul 通过重置 election timeout 来重新选举),所以还是建议选取奇数个节点。...
    文章 2020-06-03 274浏览量
  • Facebook TSDB论文翻译

    大型互联网服务一般出现故障及时响应和保持高可用性为目标。为了提供正常稳定的服务,通常要每秒从大量系统中监控和分析数以千万计的数据(性能数据和业务数据)。一个特别高效的解决方案是用TSDB对这些数据进行...
    文章 2017-08-18 2151浏览量
  • 集群概述及原理笔记(1)

    高可用性集群的主要功能就是提供不间断的服务,运行于两个或个节点上,目的是在系统出现某些故障的情况下,仍能继续对外提供服务。有许多应用程序都必须一天二十四小时地不停运转,如所有的web服务器、工业控制器...
    文章 2017-11-08 1244浏览量
  • 盒子科技刘恒:聚合支付系统演讲

    查询网关:在交易系统中,查询业务量一般时支付业务的6倍,甚至更高,这样对查询服务性能就有更高的要求。减少对核心交易影响,提升稳定性。通道商户缓存:通道信息(机构号、商户号、密钥等)属于静态信息,在...
    文章 2018-05-25 1679浏览量
  • 反应式编程探索与总结

    反应式编程中,数据流Stream就像一条街道,汽车会出现在街道但会立即驶过,他们并没有停在那里。当我们观察街道时,只能看到汽车依次驶过,所以“记录汽车”在这个场景下是指持续观察一条定义好的道路。3.理论实践 3...
    文章 2019-11-25 946浏览量
  • Spring Cloud面试题万字解析(2020面试必备)

    除此之外,Eureka还有自我保护机制,如果在15分钟内超过85%的节点没有正常的心跳,那么Eureka就认为客户端与注册中心发生了网络故障,此时会出现以下几种情况: ①、Eureka不在从注册列表中移除因为长时间没有收到...
    文章 2020-05-12 789浏览量
  • 英雄所见略同:阿里云和XSKY如何实现应用无感的SDS...

    虚拟在打开ceph的卷时,建立的和ceph集群的网络通道,并不具备应用层面的容错处理,即如果ceph集群进行升级,则那些Inflight IO可能失去响应或者丢失,这样业务层就出错,如果虚拟系统卷使用的也是ceph的...
    文章 2020-12-17 201浏览量
  • 聊聊云原生

    进入云计算时代之后,我们发现,由于出现了公有云,而且提供公有云的各供应商也有自己不同的规格和操作系统,底层运行环境开始变得复杂起来。如果说是这些差别还只是停留在IaaS层面,那么更复杂的差异应该是应用层...
    文章 2021-01-05 185浏览量
  • 阿里P8架构师谈:什么是缓存雪崩?服务器雪崩的场景与...

    当缓存服务器重启或者大量缓存集中在某一个时间段失效,这样在失效的时候,也给后端系统(比如DB)带来很大压力,造成数据库后端故障,从而引起应用服务器雪崩。雪崩效应产生的几种场景 流量激增:比如异常流量、...
    文章 2018-09-14 1726浏览量
  • Flink最佳实践(一)流式计算系统概述

    有些同学到这里会出现一些概念上的混淆,我们不是已经定义过事件时间了吗,为什么还要定义处理时间?事件时间和处理时间两个管的维度不一样,事件时间是定义 切分数据集的时间边界,而 程序真正要触发计算 需要在...
    文章 2019-11-19 1770浏览量
  • 2020年SpringCloud 必知的18道面试题

    Hystrix是一个延迟和容错库,旨在隔离远程系统,服务和第三方库的访问点,当出现故障是不可避免的故障时,停止级联故障并在复杂的分布式系统中实现弹性。通常对于使用微服务架构开发的系统,涉及到许多微服务。这些...
    文章 2020-11-12 2873浏览量
  • 阿里云ECS七天训练营-SLB负载均衡

    以提高应用系统的可靠性,尽可能地减少终端时间为目标,确保服务的连续性,达到高可用(HA)的容错效果,例如,“故障切换”、“双热备”、“多机热备”等都属于高可用群集技术,HA的工作方式第一层:负载调度器:这是...
    文章 2020-09-25 240浏览量
  • 四层和七层负载的区别

    而是想使Pentium III服务器比Pentium II能接受更的服务请求,一台处理服务请求较少的服务器能分配到更的服务请求,出现故障的服务器将不再接受服务请求直至故障恢复等等。选择合适的负载均衡策略,使个设备能...
    文章 2020-07-30 236浏览量
  • 网络负载均衡详解

    而是想使Pentium III服务器比Pentium II能接受更的服务请求,一台处理服务请求较少的服务器能分配到更的服务请求,出现故障的服务器将不再接受服务请求直至故障恢复等等。选择合适的负载均衡策略,使个设备能...
    文章 2016-11-07 3805浏览量
1 2 3 4 ... 7 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化