【Flink】Flink 流处理和批处理

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 【1月更文挑战第26天】【Flink】Flink 流处理和批处理

数据处理有不同的方式。

对于具体应用来说,有些场景数据是一个一个来的,是一组有序的数据序列,我们把它叫 作“数据流”;而有些场景的数据,本身就是一批同时到来,是一个有限的数据集,这就是批量数据(有时也直接叫数据集)。

容易想到,处理数据流,当然应该“来一个就处理一个”,这种数据处理模式就叫作流处理;因为这种处理是即时的,所以也叫实时处理。与之对应,处理批量数据自然就应该一批读入、一起计算,这种方式就叫作批处理,也叫作离线处理。

那真实的应用场景中,到底是数据流更常见、还是批量数据更常见呢?

生活中,这两种形式的数据都有。比如我们日常发信息,可以一句一句地 说,也可以写一大段一起发过去。一句一句的信息,就是一个一个的数据,它们构成的序列就 是一个数据流;而一大段信息,是一组数据的集合,对应就是批量数据(数据集)。  

当然,有经验的人都会知道,一句一句地发,你一言我一语,有来有往这才叫聊天;一大 段信息直接砸过去,别人看着都眼晕,很容易就没下文了——如果是很重要的整篇内容(比如 表白信),写成文档或者邮件发过去可能效果会更好。  

所以我们看到,“聊天”这个生活场景,数据的生成、传递和接收处理,都是流式的;而 “写信”的场景,数据的生成尽管应该也是流式的(字总得一个个写),但我们可以把它们收集起来,统一传输、统一处理(当然我们还可以进一步较真:处理也是流式的,字得一个一个读)。 不论传输处理的方式是怎样的,数据的生成,一般都是流式的。

在IT应用场景中,这一点会体现得更加明显。企业的绝大多数应用程序,都是在不停地 接收用户请求、记录用户行为和系统日志,或者持续接收采集到的状态信息。所以数据会在不 同的时间持续生成,形成一个有序的数据序列——这就是典型的数据流。

所以流数据更真实地反映了我们的生活方式。真实场景中产生的,一般都是数据流。那处 理数据流,就一定要用流处理的方式吗?  

这个问题似乎问得有点无厘头。不过仔细一想就会发现,很多数据流的场景其实也可以用 “攒一批”的方式来处理。比如聊天,我们可以收到一条信息就回一条;也可以攒很多条一起 回复。对于应用程序,也可以把要处理的数据先收集齐,然后才一并处理。  

但是这样做的缺点也非常明显:数据处理不够及时,实时性变差了。流处理,是真正的即 时处理,没有“攒批”的等待时间,所以会更快、实时性更好。

另外,在批处理的过程中,必须有一个固定的时间节点结束“攒批”的过程、开始计算。 而数据流是连续不断、无休无止的,我们没有办法在某一时刻说:“好!现在收集齐所有数据 了,我们可以开始分析了。”如果我们需要实现“持续计算”,就必须采用流处理的方式,来处 理数据流。

很显然,对于流式数据,用流处理是最好、也最合理的方式。

但我们知道,传统的数据处理架构并不是这样。无论是关系型数据库、还是数据仓库,都 倾向于先“收集数据”,然后再进行处理。为什么不直接用流处理的方式呢?这是因为,分布 式批处理在架构上更容易实现。想想生活中发消息聊天的例子,我们就很容易理解了:如果来 一条消息就立即处理,“微信秒回”,这样做一定会很受人欢迎;但是这要求自己必须时刻关注 新消息,这会耗费大量精力,工作效率会受到很大影响。如果隔一段时间查一下新消息,做个 “批处理”,压力明显就小多了。当然,这样的代价就是可能无法及时处理有些消息,造成一定 的后果。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
2月前
|
消息中间件 Kafka Apache
Apache Flink 是一个开源的分布式流处理框架
Apache Flink 是一个开源的分布式流处理框架
477 5
|
5月前
|
Java Linux API
flink入门-流处理
flink入门-流处理
109 0
|
6月前
|
分布式计算 资源调度 监控
没有监控的流处理作业与茫茫大海中的裸泳无异 - 附 flink 与 spark 作业监控脚本实现
没有监控的流处理作业与茫茫大海中的裸泳无异 - 附 flink 与 spark 作业监控脚本实现
|
2月前
|
运维 监控 数据处理
【天衍系列 03】深入理解Flink的Watermark:实时流处理的时间概念与乱序处理
【天衍系列 03】深入理解Flink的Watermark:实时流处理的时间概念与乱序处理
|
3月前
|
存储 数据挖掘 Apache
【Flink】Flink 有状态的流处理
【1月更文挑战第26天】【Flink】Flink 有状态的流处理
|
3月前
|
机器学习/深度学习 算法 物联网
实时计算Flink版:引领流处理的新时代
实时计算Flink版:引领流处理的新时代
|
6月前
|
SQL 消息中间件 API
Flink---14、Flink SQL(SQL-Client准备、流处理中的表、时间属性、DDL)
Flink---14、Flink SQL(SQL-Client准备、流处理中的表、时间属性、DDL)
|
7月前
|
存储 大数据 API
大数据Flink流处理相关概念
大数据Flink流处理相关概念
57 0
|
消息中间件 资源调度 Oracle
对Flink流处理模型的抽象
对Flink流处理模型的抽象
对Flink流处理模型的抽象
|
流计算
《基于Kubernates的流处理平台实践 ——Flink为例》电子版地址
基于Kubernates的流处理平台实践 ——Flink为例
71 0
《基于Kubernates的流处理平台实践 ——Flink为例》电子版地址

热门文章

最新文章