流计算与批量计算的区别|学习笔记

简介: 快速学习流计算与批量计算的区别

开发者学堂课程【分布式计算入门流计算与批量计算的区别 】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/375/detail/4702


流计算与批量计算的区别


内容介绍

一、离线数据处理与流数据处理的区别

二、增量计算的特点


一、离线数据处理与流数据处理的区别

离线数据处理-批处理

1.png

流数据处理-流水线

2.png

离线数据是将所有的数据进入一个计算节点,计算完进入下一个 stage。所以简单来看 map 输入到 map 到 shuffle 到 reduce 实际上大家可以从图上可以看到,他们是一个串行计算,也就是说所有的数据进入 map 的计算机用阶段到 shuffle 计算阶段到 reduce 计算的一个 stage 。当然这里 shuffle 是可以和 map 重叠的。他的延时是一个串行。

如图所示,一批数据进入 map、shuffle 、reduce 而后面的数据和前面的数据完全是进行并行的运行。如图所示,它一批数据的延时是相对离线计算大大降低。

3.png

批量计算如同这个食堂里头一口大锅,那么这口锅炒出来的菜一千个人一次就可以炒好,但是对于每个人来说,他这口大锅炒的菜可能要半个小时,对于每个人来说都要等半个小时,才能吃上这种菜。但是呢,他这个锅一次炒就炒一千人。

而流式计算它相当于这种小灶,你进来了它可能十分钟、几秒钟、几分钟肯定让你吃上这口饭。所以他对于每个个体来说、每个计算来说、每个数据来着它的时效性是更好的。那么我们进行对比。


粒度

计算

生命周期

容错监控

面向

DAG

全量

Partition/文件

局部

数据处理完,进程“退出”

进程

吞吐

串行

增量(流)

Batch/内存

有状态

keep alive

数据

延时

并行


二、增量计算的特点

大数据对分布式存储的需求

状态定义

存储,容量

管理,清理

容错

这将会给系统设计带来极大的挑战,大家都知道离线和批量计算器没有这些问题。

Temporal SQL

Update 语义

其实其实在数据库领域已经有比较完备的语义和语言的定义,大家可以去在网上查一下资料。另外,流式计算和增量计算因为流这样特殊的数据定义,他有诸多的时序上和实效性上以及通道上面的不可控性,所以我们引入了 update 语义。


相关文章
|
SQL 分布式计算 Hadoop
干翻Hadoop系列文章【02】:Hadoop、Hive、Spark的区别和联系
干翻Hadoop系列文章【02】:Hadoop、Hive、Spark的区别和联系
|
弹性计算 安全 Linux
使用阿里云ECS服务器和frp配置SSH反向代理
校园网、公司内网中的设备一般是没有公网ip的,所以没办法用SSH直接连接。但是平时VSCode远程连接调调代码啥的都是通过SSH来连接的,平时不在学校或者公司的时候会很麻烦。虽然说VPN、向日葵花生壳之类的方法都能解决这个问题,但是这些方法不是麻烦就是贵或者不安全。frp只需要一台有公网ip的服务器就能实现外网SSH访问,相对来说比较简单。
|
存储 缓存 分布式计算
Spark的Driver和Executor
Spark的Driver和Executor
1195 0
|
SQL 分布式数据库 数据库
OceanBase数据库
【8月更文挑战第8天】OceanBase数据库
460 2
|
算法 安全
金石原创 |【分布式技术专题】「分布式技术架构」一文带你厘清分布式事务协议及分布式一致性协议的算法原理和核心流程机制(Paxos篇)
金石原创 |【分布式技术专题】「分布式技术架构」一文带你厘清分布式事务协议及分布式一致性协议的算法原理和核心流程机制(Paxos篇)
748 1
金石原创 |【分布式技术专题】「分布式技术架构」一文带你厘清分布式事务协议及分布式一致性协议的算法原理和核心流程机制(Paxos篇)
淘宝粗排问题之对粗排阶段打分集合归因到对应的场景内和场景外成交如何解决
淘宝粗排问题之对粗排阶段打分集合归因到对应的场景内和场景外成交如何解决
|
搜索推荐 测试技术
淘宝粗排问题之在粗排模型中引入交叉特征如何解决
淘宝粗排问题之在粗排模型中引入交叉特征如何解决
|
搜索推荐
淘宝粗排问题之引入未曝光样本和随机负样本对粗排模型有何影响,如何解决
淘宝粗排问题之引入未曝光样本和随机负样本对粗排模型有何影响,如何解决
|
搜索推荐 测试技术 流计算
承上启下:基于全域漏斗分析的主搜深度统一粗排
文章首先介绍了淘宝搜索的多阶段检索系统,包括召回、粗排和精排阶段。粗排模型的目标是优化商品的排序,以提高在召回集合中选择优质商品的能力。文章提到,粗排模型与精排模型的目标有所不同,粗排更注重腰部商品的排序,而精排更注重头部商品的排序。 此外,文章还探讨了模型的损失函数形式,发现原始的softmax损失函数在处理多正样本时存在问题,提出了改进的损失函数,使得模型在粗排阶段的表现更佳。最后,作者们总结了优化工作的进展,以及优化样本对齐,以实现更好的整体效果。