【Flink】Flink 流处理和批处理

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 【1月更文挑战第26天】【Flink】Flink 流处理和批处理

数据处理有不同的方式。

对于具体应用来说,有些场景数据是一个一个来的,是一组有序的数据序列,我们把它叫 作“数据流”;而有些场景的数据,本身就是一批同时到来,是一个有限的数据集,这就是批量数据(有时也直接叫数据集)。

容易想到,处理数据流,当然应该“来一个就处理一个”,这种数据处理模式就叫作流处理;因为这种处理是即时的,所以也叫实时处理。与之对应,处理批量数据自然就应该一批读入、一起计算,这种方式就叫作批处理,也叫作离线处理。

那真实的应用场景中,到底是数据流更常见、还是批量数据更常见呢?

生活中,这两种形式的数据都有。比如我们日常发信息,可以一句一句地 说,也可以写一大段一起发过去。一句一句的信息,就是一个一个的数据,它们构成的序列就 是一个数据流;而一大段信息,是一组数据的集合,对应就是批量数据(数据集)。  

当然,有经验的人都会知道,一句一句地发,你一言我一语,有来有往这才叫聊天;一大 段信息直接砸过去,别人看着都眼晕,很容易就没下文了——如果是很重要的整篇内容(比如 表白信),写成文档或者邮件发过去可能效果会更好。  

所以我们看到,“聊天”这个生活场景,数据的生成、传递和接收处理,都是流式的;而 “写信”的场景,数据的生成尽管应该也是流式的(字总得一个个写),但我们可以把它们收集起来,统一传输、统一处理(当然我们还可以进一步较真:处理也是流式的,字得一个一个读)。 不论传输处理的方式是怎样的,数据的生成,一般都是流式的。

在IT应用场景中,这一点会体现得更加明显。企业的绝大多数应用程序,都是在不停地 接收用户请求、记录用户行为和系统日志,或者持续接收采集到的状态信息。所以数据会在不 同的时间持续生成,形成一个有序的数据序列——这就是典型的数据流。

所以流数据更真实地反映了我们的生活方式。真实场景中产生的,一般都是数据流。那处 理数据流,就一定要用流处理的方式吗?  

这个问题似乎问得有点无厘头。不过仔细一想就会发现,很多数据流的场景其实也可以用 “攒一批”的方式来处理。比如聊天,我们可以收到一条信息就回一条;也可以攒很多条一起 回复。对于应用程序,也可以把要处理的数据先收集齐,然后才一并处理。  

但是这样做的缺点也非常明显:数据处理不够及时,实时性变差了。流处理,是真正的即 时处理,没有“攒批”的等待时间,所以会更快、实时性更好。

另外,在批处理的过程中,必须有一个固定的时间节点结束“攒批”的过程、开始计算。 而数据流是连续不断、无休无止的,我们没有办法在某一时刻说:“好!现在收集齐所有数据 了,我们可以开始分析了。”如果我们需要实现“持续计算”,就必须采用流处理的方式,来处 理数据流。

很显然,对于流式数据,用流处理是最好、也最合理的方式。

但我们知道,传统的数据处理架构并不是这样。无论是关系型数据库、还是数据仓库,都 倾向于先“收集数据”,然后再进行处理。为什么不直接用流处理的方式呢?这是因为,分布 式批处理在架构上更容易实现。想想生活中发消息聊天的例子,我们就很容易理解了:如果来 一条消息就立即处理,“微信秒回”,这样做一定会很受人欢迎;但是这要求自己必须时刻关注 新消息,这会耗费大量精力,工作效率会受到很大影响。如果隔一段时间查一下新消息,做个 “批处理”,压力明显就小多了。当然,这样的代价就是可能无法及时处理有些消息,造成一定 的后果。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
2月前
|
消息中间件 Kafka Apache
Apache Flink 是一个开源的分布式流处理框架
Apache Flink 是一个开源的分布式流处理框架
750 5
|
8月前
|
Java Linux API
flink入门-流处理
flink入门-流处理
123 0
|
9月前
|
分布式计算 资源调度 监控
没有监控的流处理作业与茫茫大海中的裸泳无异 - 附 flink 与 spark 作业监控脚本实现
没有监控的流处理作业与茫茫大海中的裸泳无异 - 附 flink 与 spark 作业监控脚本实现
|
1月前
|
监控 大数据 Java
使用Apache Flink进行大数据实时流处理
Apache Flink是开源流处理框架,擅长低延迟、高吞吐量实时数据流处理。本文深入解析Flink的核心概念、架构(包括客户端、作业管理器、任务管理器和数据源/接收器)和事件时间、窗口、状态管理等特性。通过实战代码展示Flink在词频统计中的应用,讨论其实战挑战与优化。Flink作为大数据处理的关键组件,将持续影响实时处理领域。
279 5
|
2月前
|
存储 算法 API
Flink DataStream API 批处理能力演进之路
本文由阿里云 Flink 团队郭伟杰老师撰写,旨在向 Flink Batch 社区用户介绍 Flink DataStream API 批处理能力的演进之路。
486 2
Flink DataStream API 批处理能力演进之路
|
2月前
|
SQL 数据处理 API
实时计算 Flink版产品使用合集之流处理过程中,对于某一条数据的异常,该如何处理
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
2月前
|
SQL 大数据 数据处理
[AIGC大数据基础] Flink: 大数据流处理的未来
[AIGC大数据基础] Flink: 大数据流处理的未来
|
2月前
|
机器学习/深度学习 分布式计算 BI
Flink实时流处理框架原理与应用:面试经验与必备知识点解析
【4月更文挑战第9天】本文详尽探讨了Flink实时流处理框架的原理,包括运行时架构、数据流模型、状态管理和容错机制、资源调度与优化以及与外部系统的集成。此外,还介绍了Flink在实时数据管道、分析、数仓与BI、机器学习等领域的应用实践。同时,文章提供了面试经验与常见问题解析,如Flink与其他系统的对比、实际项目挑战及解决方案,并展望了Flink的未来发展趋势。附带Java DataStream API代码样例,为学习和面试准备提供了实用素材。
324 0
|
2月前
|
运维 监控 数据处理
【天衍系列 03】深入理解Flink的Watermark:实时流处理的时间概念与乱序处理
【天衍系列 03】深入理解Flink的Watermark:实时流处理的时间概念与乱序处理
103 5
|
2月前
|
存储 数据挖掘 Apache
【Flink】Flink 有状态的流处理
【1月更文挑战第26天】【Flink】Flink 有状态的流处理