• 谷歌架构的转变:从单数据中心到故障转移系统,再到多...

  流处理系统所输出的内容通常存储在全球范围内的一些复制系统中,这样从任何地方都能可靠地对输出执行消费。在多宿主系统中,所有数据中心都会持续运行并处理事件,典型状况下部署三台数据中心。在稳定状态下,这...
  文章 2017-07-03 940浏览量
 • Flink最佳实践(一)流式计算系统概述

  有些同学到这里会出现一些概念上的混淆,我们不是已经定义过事件时间了吗,为什么还要定义处理时间?事件时间和处理时间两个管的维度不一样,事件时间是定义 切分数据集的时间边界,而 程序真正要触发计算 需要在...
  文章 2019-11-19 1780浏览量
 • 基于阿里云MaxCompute实现复杂事件检测

  随着信息化的不断发展,业务系统的不断完善,企业面临新的问题:1、现代工业中的输入事件流数量正成倍地增加,其中包含大量的原子事件,由原子事件构成的复合事件,甚至由复合事件构成的复杂事件。2、现代工业对于软...
  文章 2017-04-20 1961浏览量
 • 实战、运维和调优》——1.1 什么是实时计算

  (2)EsperEsper是EsperTech公司使用Java开发的事件流处理(Event Stream Processing,ESP)和复杂事件处理(Complex Event Processing,CEP)引擎。CEP是一种实时事件处理并从大量事件数据流中挖掘复杂模式的技术。...
  文章 2017-07-03 2276浏览量
 • Apache Flink 漫谈系列(02)-概述

  Apache Flink 提供了丰富的功能算子,对于数据流的处理来讲,可以分为单流处理(一个数据源)和多流处理(多个数据源)。多流操作 UNION-将多个字段类型一致数据流合并为一个数据流,如下示意: JOIN-将多个数据流(数据...
  文章 2018-11-08 10787浏览量
 • 反应式编程探索与总结

  反应式编程中,数据Stream就像一条街道,汽车会出现在街道但会立即驶过,他们并没有停在那里。当我们观察街道时,只能看到汽车依次驶过,所以“记录汽车”在这个场景下是指持续观察一条定义好的道路。3.理论实践 3...
  文章 2019-11-25 1000浏览量
 • 什么说传统分布式事务不再适用于微服务架构

  如果重复处理一条事件开销很小,或者可预见只有非常少的事件会被重复接收,可以选择重复处理一次事件,在将事件数据持久化时由数据库抛出唯一性约束异常。重复处理开销大事件使用事件存储过滤重复事件 如果重复处理...
  文章 2017-07-03 1583浏览量
 • 什么说传统分布式事务不再适用于微服务架构?

  一般情况下上面的方法能够运行得很好,如果我们的微服务是 RPC 类的服务我们需要更加小心,可能出现的问题在于,(1)过滤服务在业务处理完成后才将事件结果存储到事件存储中,但是在业务处理完成前有可能就已经收到...
  文章 2017-08-01 1309浏览量
 • 微服务架构下的事务一致性保证

  重试操作一般会指定重试次数上线,如果重试次数达到了上限就不再进行重试了。这个时候应该通过一种手段通知相关人员进行处理。对于等待重试的策略如果重试时仍然错误,可逐渐增加等待的时间,直到达到一个上限后,以...
  文章 2016-12-09 18075浏览量
 • 分布式事务一致性"看这一篇就够了

  重试操作一般会指定重试次数上线,如果重试次数达到了上限就不再进行重试了。这个时候应该通过一种手段通知相关人员进行处理。对于等待重试的策略如果重试时仍然错误,可逐渐增加等待的时间,直到达到一个上限后,以...
  文章 2018-04-17 10623浏览量
 • 计算引擎数据一致性的本质

  流计算系统中的数据一致性一般是用消息处理语义来定义的,如某引擎声称可以提供「恰好一次(Exactly-once Processing Semantics)流处理语义,表示(或暗示)引擎具备保证数据一致性的能力。事实上,「恰好一次...
  文章 2021-10-12 2227浏览量
 • 空学Kafka之二

  这也就是为什么我们相信 Kafka 能够让现代业务领域的流式处理大获成功——可以借助 Kafka 来捕捉和重播事件流。如果没有这项能力,流式处理充其量只是数据科学实验室里的一个玩具而已。这里额外提一下理念:prefer ...
  文章 2019-08-02 962浏览量
 • 重学计算机组成原理(十二)-异常和中断

  这些信号呢,在组成原理,一般叫发生了一个事件(Event)CPU在检测到事件的时候,其实也就拿到了对应的异常代码。这些异常代码里 I/O发出的信号的异常代码,是由操作系统来分配的,也就是由软件来设定的 像加法溢出...
  文章 2019-10-21 808浏览量
 • 面对大规模 K8s 集群,如何先于用户发现问题?

  比如,监控告警一般的告警可能如下:xx容器内存使用率 99%webhook 双副本全部挂掉了apiserver 三副本全部宕机了这些告警,往往内容中就包含了具体的故障点,而 KubeProbe 的链路探测告警就有很多不一样,比如:...
  文章 2021-04-25 2176浏览量
 • 稳定性保障6步走:高可用系统大促作战指南!

  考虑到成本最小化,非常规增量P计算时一般无需与常规业务流量W一起,全量纳入叠加入口流量K,一般会将非常规策略发生概率λ作为权重,即:2)节点流量节点流量由入口流量根据流量分支模型,按比例转化而来。...
  文章 2021-03-08 1890浏览量
 • Oracle内核技术揭密.2.1 调优排故的一般步骤

  因为一旦遇到问题,Oracle就事件告诉你此刻它正在做什么,如果你对事件不理解或者理解错了,就错失解决问题的良机。一般遇到性能问题时,通过查看事件即可解决,所以相对来说还是很简单的。但如果遇到故障,...
  文章 2017-05-02 1474浏览量
 • 流式计算领域新霸主Flink的那些事儿

  在大数据处理领域,批处理与流处理一般被认为是两种截然不同的任务,一个大数据框架一般会被设计为只能处理其中一种任务。比如,Storm只支持流处理任务,而MapReduce、Spark只支持批处理任务。Spark Streaming是...
  文章 2019-10-25 2820浏览量
 • 对Serverless的一点理解和思考

  还需要考虑云平台出现故障的情况,是否有异构容灾能力,是否对业务造成不可逆的影响等。虽然乍一看,因为业务代码是受控的,且不依赖特定环境,Faas似乎不像Baas那样有绑定问题,但是仔细看Serverless的使用范围...
  文章 2019-08-16 811浏览量
 • 云原生时代,企业多活容灾体系构建思路与最佳实践

  第二,5 分钟定位,原来同城的比如冷备容灾技术,往往做决策非常费劲,或者谁做切换要承担后果,我们更希望基于这个平台能直观看到今天故障影响的情况,相关对应出现什么问题干系人需要做什么样的动作,或者做什么...
  文章 2021-07-02 5393浏览量
 • 微博热点事件背后数据库运维的“功守道”

  微博拥有超过3.76亿月活用户,是当前社会热点事件传播的最主要平台,其中包括但不限制于大型活动(如里约奥运、十九大等)、春晚、明星动态(如王宝强离婚事件、女排夺冠、乔任梁去世、白百合出轨、TFBOYS生日、...
  文章 2018-09-27 1365浏览量
 • Flink 在爱奇艺广告业务的实践

  其实在一个里多个事件处理,可以用窗口来实现。但窗口的问题是:如果事件序列本身都在同一个窗口之内,数据没有问题;但是当事件序列跨窗口的时候,是达不到正常关联效果的。所以当时经过很多技术调研后,发现 ...
  文章 2021-08-03 1335浏览量
 • Flume学习指南

  这是最简单的情况,一般情况下,应该控制这种顺序连接的Agent 的数量,因为数据流经的路径变长了,如果不考虑failover的话,出现故障将影响整个Flow上的Agent收集服务。5.2、多个Agent的数据汇聚到同一个Agent 这种...
  文章 2018-09-04 2274浏览量
 • LinkedIn 开源其分布式对象存储系统 Ambry

  大量的小对象给元数据带来很高的负载,造成硬盘碎片,需要很多的随机IO,而大对象则需要很好的内存管理、端到端的流处理和有限的资源使用;廉价:媒体内容很快就占据很大的存储空间,它的另外一个特点是旧数据...
  文章 2017-07-03 1955浏览量
 • 双11数据大屏背后的秘密:大规模流式增量计算及应用

  其实这里例子就是想要告诉大家如果简单地将SQL语句用于描述数据流处理实际上在语义上是无法匹配的,所以这样例子中的Group By是不会有输出的,但是如果等所有的数据都输入之后再进行处理就无法达到低延时的效果了,...
  文章 2017-03-13 6149浏览量
 • 软件工程之软件需求分析

  尽管工作人员的姓名也可 以用做其身份标识,但不同的工作人员有可能会出现姓名重复,因此有必要为工作人员设置一 个专门的身份标识码。(4)仓库以商品品种为基本单位进行管理,所有商品都要由计划部门按品种进行...
  文章 2018-08-19 1109浏览量
 • golang 服务诡异499、504网络故障排查

  问题又来了,为什么网关调用内部系统会出现问题,但是答案已经很明显。简单的检查了下其中一个调用会走到外网,网关的接口会调用下游三个服务,其中第一个服务调用就是会出外网。这个问题是找到了,但是为什么下游...
  文章 2019-11-16 4643浏览量
 • 快手基于 Apache Flink 的优化实践

  下游一般会再次聚合&xff1b;Accumulating&xff0c;这个就是一个聚合的状态&xff0c;比如说第二次触发的时候是在第一次的结果上进行计算的&xff0c;下游只需要保存最新的结果即可&xff1b;Accumulating 和 retracting&xff0c;这...
  文章 2020-11-19 6986浏览量
 • 【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之...

  大家知道 K8s 社区只能够支撑五千个节点,当超过这个规模时,会出现各种性能瓶颈问题,比如:etcd 出现大量的读写延迟。kube-apiserver 查询 pods/nodes 延时很高,甚至导致 etcd oom。控制器无法及时感知数据变化,...
  文章 2021-05-17 724浏览量
 • Facebook TSDB论文翻译

  大型互联网服务一般出现故障及时响应和保持高可用性为目标。为了提供正常稳定的服务,通常要每秒从大量系统中监控和分析数以千万计的数据(性能数据和业务数据)。一个特别高效的解决方案是用TSDB对这些数据进行...
  文章 2017-08-18 2206浏览量
 • 双11数据大屏背后:大规模流式增量计算及应用(附资料...

  其实这里例子就是想要告诉大家如果简单地将SQL语句用于描述数据流处理实际上在语义上是无法匹配的,所以这样例子中的Group By是不会有输出的,但是如果等所有的数据都输入之后再进行处理就无法达到低延时的效果了,...
  文章 2017-05-22 1677浏览量
1 2 3 4 ... 11 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化