• 如何设计高可用系统故障隔离

    因为前者是一个非实时的批处理系统,而后者是对实时性和稳定性要求很高的联机系统,是用户可以直接感知到的。拆分后,不会因为在批处理高峰期占用过多资源而影响借款系统的稳定性,而且两者在运维上,也可以更方便地...
    文章 2019-08-06 1405浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    在磁盘进入SLOW或WARNING状态时,在线应用一般会选择不再使用此磁盘,因为此时磁盘可能已经出现损坏的迹象,会造成延时大规模增加,但对于理想的应用则可以继续使用。一旦磁盘进入ERROR状态,则表明此磁盘可能马上...
    文章 2016-12-18 4935浏览量
  • 图解故障服务器下线:关于阿里云MongoDB高可用的探秘

    服务器容灾一直是云服务运维过程中无法避开的问题,我们常常讨论如何对出现故障的机器进行数据库方面的恢复,却很少考虑到在机器出现故障后,是用一套怎样的处理流程将三节点副本集恢复如初的。MongoDB采用的是...
    文章 2017-03-28 8242浏览量
  • Apache Flink 漫谈系列(02)-概述

    那么Apache Flink 是如何做到既支持流处理模式也支持批处理模式呢?统一的数据传输层 开篇我们就介绍Apache Flink 的"命脉"是以"批是流的特例"为导向来进行引擎的设计的,系统设计成为"Native Streaming"的模式进行...
    文章 2018-11-08 12400浏览量
  • Flink最佳实践(一)流式计算系统概述

    有些同学到这里会出现一些概念上的混淆,我们不是已经定义过事件时间了吗,为什么还要定义处理时间?事件时间和处理时间两个管的维度不一样,事件时间是定义 切分数据集的时间边界,而 程序真正要触发计算 需要在...
    文章 2019-11-19 1832浏览量
  • Storm vs.Kafka Streams vs.Spark ...处理框架一网打尽...

    这意味着每隔几秒就将传入记录一起批处理&xff0c;然后在一个小批量中处理&xff0c;延迟几秒钟。4.3 两种类型都有一些优点和缺点Native流&xff1a;每个记录在到达时都会被处理&xff0c;从而允许框架实现最小的延迟。但这也...
    文章 2022-06-12 28浏览量
  • Facebook的Hadoop应用与故障转移方案

    在Facebook的数据仓库中部署着最大的HDFS集群,数据仓库的使用情况是传统的Hadoop MapReduce工作负载——在大型集群中一小部分运行MapReduce批处理作业 因为集群非常庞大,客户端和众多DataNode节点与NameNode节点...
    文章 2017-09-28 1867浏览量
  • 带你读《企业数据湖》之三:Lambda架构:一种数据湖...

    分布式系统必然会出现网络故障,在这种情况下,只能接受网络分区。表3-1中会简要说明这3个重要方面。在数据湖背景中,Lambda架构的实现也采用了CAP定理。通常在这样的环境中,可用性与一致性难以兼顾。基于这方面的...
    文章 2019-10-20 3295浏览量
  • 浅谈IT运维

    运维人员在做这类工作的时候不能像应付任务那样,但求过关即可,否则日积月累下来,服务器会出现意想不到的情况。在处理这类工作上运维人员应当做到规范和文档记录,长期做下来,不但自己的运维专业水平会提高,对于...
    文章 2017-11-20 1582浏览量
  • 流式计算领域新霸主Flink的那些事儿

    而对于一个批处理系统,其节点间数据传输的标准模型是,在处理完成一条数据后,将其序列化到缓存中,当缓存写满时,就持久化到本地硬盘上;在所有数据都被处理完成后,才开始将其通过网络传输到下一个节点。图1.3 ...
    文章 2019-10-25 3042浏览量
  • [转载]Spark Streaming 设计原理

    传统的批处理系统,比如 Hadoop,一般运行的比较慢,主要是因为中间结果要进行持久化(注:这种也代表容错性比较好)。DStream 使用弹性分布式数据集(Resilient Distributed Datasets),也就是 RDD,来进行批处理...
    文章 2018-11-30 1907浏览量
  • 分布式系统解决之道:目录、消息队列、事务系统及其他

    这个广播的底层一般会由消息队列服务来承载,而类似Jgroups这样的软件,直接提供了广播服务。虽然现在我们在讨论事务系统,但实际上分布式系统经常所需的“分布式锁”功能,也是这个系统可以同时完成的。所谓的...
    文章 2017-05-11 1684浏览量
  • 高可用系统设计精要:定个能达到的小目标,比如先读完...

    这个方案一般会伴随着节点间的“心跳机制”,而且还会动用到SAN(Storage Area Network)或是本地的分布式存储系统,还会动用虚拟化技术来做虚拟机的迁移以降低宕机时间的概率。这个解决方案完全就是一个“全栈式的...
    文章 2017-05-02 1701浏览量
  • 性能专题:一文搞懂性能测试常见指标

    如果系统不能稳定的运行,上线后,随着业务量的增长和长时间运行,将会出现性能下降甚至崩溃的风险。参考标准: TPS曲线稳定,没有大幅度的波动。各项资源指标没有泄露或异常情况。8.可扩展性指标 定义和解释:是指...
    文章 2019-11-04 1671浏览量
  • 负载均衡SLB高可用的四个层次

    用户可能有两个疑问,一是负载均衡SLB产品本身有跨可用区切换能力,为什么注册系统还需要自己在两个可用区建立两个实例进行跨可用区容灾呢?负载均衡SLB产品本身的跨可用区切换是在非常极端的情况下(整个可用区不...
    文章 2017-09-02 10036浏览量
  • 流计算引擎数据一致性的本质

    在定义一中我们可以看到,流计算输入的数据是无边界的,所以系统中存在消息抵达流计算系统延迟、顺序错乱、数量/规模未知等不确定因素,这也是流计算系统一致性复杂性远远大于批处理系统的原因:批处理系统中的...
    文章 2021-10-12 2384浏览量
  • 我是一只老老鸟

    如果服务器发生故障先让田逸出马,判断是系统故障还是硬件故障。如果是系统故障,由田逸处理;如果是硬件故障,则转给专门的硬件维护人员。面对着眼前几十台崭新的服务器,田逸确定了一件事,那就是:今天必然又...
    文章 2017-11-10 982浏览量
  • 分布式系统,你真的了解吗?

    简单的依靠一层服务转发是不够的,所以我们增加一服务器,这些服务器根据用户的Cookie,或者用户的登录凭据,来再次转发给后面具体处理业务的服务器。除了登录的需求外,我们还发现,很多数据是需要数据库来...
    文章 2017-08-01 1171浏览量
  • 《Akka应用模式:分布式应用程序设计实践指南》读书...

    基于Akka或其他方式的分布式系统一般都会将入口点周围的计时器包裹到系统中,用来记录操作开始和结束的时间,计算差异值,然后存储。但需要特别说明的是,一定要注意时间字段获取的准确性!通常情况下,分布式节点的...
    文章 2018-06-14 1755浏览量
  • 【去重】当SYS和SYSTEM用户出现重复数据库对象时的...

    什么情况下会出现这种重复现象呢?一般情况下SYS和SYSTEM用户下的数据库对象都是在数据库安装的过程中完成的。不过个别情况下为了部署新特性需要手工执行创建脚本。一般规律是这样的:但凡涉及到手工操作的部分,就...
    文章 2021-11-07 41浏览量
  • 阿里如何做好双11技术保障?大队长霜波分享4点经验

    什么有全链路压测还会出现这些问题,全链路压测每次的数据都是一的数据,之前就已经是热的数据。这就是为什么在2016年的时候头2分钟下去然后自己会起来,是一个冷库下去了,但是当热起来的时候自己又会爬起来,...
    文章 2021-01-06 495浏览量
  • Storm概念学习系列之什么是实时流计算?

    数据的价值随着时间的流逝而降低,所以事件出现后必须尽快对它们进行处理,最好事件出现时便立刻对其进行处理,发生一个事件进行一次处理,而不是缓存起来成一批处理。例如商用搜索引擎,像 Google、Bing 和 Yahoo!...
    文章 2017-12-18 1615浏览量
  • 阿里如何做好双11技术保障?大队长霜波分享4点经验

    什么有全链路压测还会出现这些问题,全链路压测每次的数据都是一的数据,之前就已经是热的数据。这就是为什么在2016年的时候头2分钟下去然后自己会起来,是一个冷库下去了,但是当热起来的时候自己又会爬起来,...
    文章 2021-01-06 2991浏览量
  • 实战、运维和调优》——1.1 什么是实时流计算

    1.1.1 实时流计算背景数据的价值随着时间的流逝而降低,所以事件出现后必须尽快对它们进行处理,最好事件出现时便立刻对其进行处理,发生一个事件进行一次处理,而不是缓存起来成一批处理。例如商用搜索引擎,像...
    文章 2017-07-03 2354浏览量
  • 支付系统如何进行分布式改造

    运营支撑:贯穿于四个层的是运营支撑域:一般会划分运营支撑、安全、风控、营销子系统。垂直拆分本质上是服务化改造,除了上面讲的按业务拆分,还需要一套分布式服务框架的支撑。分布式改造之水平拆分 前面讲的垂直...
    文章 2019-08-03 903浏览量
  • 四步构建异地多活(3)

    会出现服务器和数据库同时宕机的情况。日志异地保存&xff0c;这种方式可以应对机房宕机的情况。以上不同方式&xff0c;应对的故障越严重&xff0c;方案本身的复杂度和成本就会越高&xff0c;实际选择时需要综合考虑成本和收益...
    文章 2022-01-23 40浏览量
  • 阿里百度华为等大厂是如何追踪微服务调用的?...

    一般通过运行MapReduce或者Spark批处理程序来对链路数据进行离线计算&xff0c;存储一般使用Hive。3.3 数据展示层数据展示层的作用就是将处理后的链路信息以图形化的方式展示给用户。主要用到如下两种图形展示&xff1a;...
    文章 2021-12-22 39浏览量
  • Flink 必知必经典课程8:Flink Connector 详解

    1.预提交阶段在预提交阶段里,由于我们的这个分布式系统一般是存在这种“协调者1+执行者n”的模式,那么在预提交的预提交阶段里,首先我们的协调者是需要请求提交的,也就是说他需要给所有的执行者来发送请求提交的...
    文章 2021-04-06 2257浏览量
  • 连载:阿里巴巴大数据实践—实时技术

    离线和准实时都可以在批处理系统中实现(比如Hadoop、MaxCompute、Spark等系统),只是调度周期不一样而已,而实时数据则需要在流式处理系统中完成。简单来说,流式数据处理技术是指业务系统每产生一条数据,就...
    文章 2020-08-19 3128浏览量
  • Monitoring Apache Spark 面临新挑战

    Spark是大数据处理的一种通用框架,主要应用在批处理和流式数据。下面我们来看一下Spark的执行模型以及Spark架构的组成部分。1.Spark Manager和Master Manager主要运行在以下模式中: Standalone:单一的cluster ...
    文章 2017-07-03 822浏览量
1 2 3 4 ... 24 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化