【Flink】Flink 流处理和批处理

简介: 【1月更文挑战第26天】【Flink】Flink 流处理和批处理

数据处理有不同的方式。

对于具体应用来说,有些场景数据是一个一个来的,是一组有序的数据序列,我们把它叫 作“数据流”;而有些场景的数据,本身就是一批同时到来,是一个有限的数据集,这就是批量数据(有时也直接叫数据集)。

容易想到,处理数据流,当然应该“来一个就处理一个”,这种数据处理模式就叫作流处理;因为这种处理是即时的,所以也叫实时处理。与之对应,处理批量数据自然就应该一批读入、一起计算,这种方式就叫作批处理,也叫作离线处理。

那真实的应用场景中,到底是数据流更常见、还是批量数据更常见呢?

生活中,这两种形式的数据都有。比如我们日常发信息,可以一句一句地 说,也可以写一大段一起发过去。一句一句的信息,就是一个一个的数据,它们构成的序列就 是一个数据流;而一大段信息,是一组数据的集合,对应就是批量数据(数据集)。  

当然,有经验的人都会知道,一句一句地发,你一言我一语,有来有往这才叫聊天;一大 段信息直接砸过去,别人看着都眼晕,很容易就没下文了——如果是很重要的整篇内容(比如 表白信),写成文档或者邮件发过去可能效果会更好。  

所以我们看到,“聊天”这个生活场景,数据的生成、传递和接收处理,都是流式的;而 “写信”的场景,数据的生成尽管应该也是流式的(字总得一个个写),但我们可以把它们收集起来,统一传输、统一处理(当然我们还可以进一步较真:处理也是流式的,字得一个一个读)。 不论传输处理的方式是怎样的,数据的生成,一般都是流式的。

在IT应用场景中,这一点会体现得更加明显。企业的绝大多数应用程序,都是在不停地 接收用户请求、记录用户行为和系统日志,或者持续接收采集到的状态信息。所以数据会在不 同的时间持续生成,形成一个有序的数据序列——这就是典型的数据流。

所以流数据更真实地反映了我们的生活方式。真实场景中产生的,一般都是数据流。那处 理数据流,就一定要用流处理的方式吗?  

这个问题似乎问得有点无厘头。不过仔细一想就会发现,很多数据流的场景其实也可以用 “攒一批”的方式来处理。比如聊天,我们可以收到一条信息就回一条;也可以攒很多条一起 回复。对于应用程序,也可以把要处理的数据先收集齐,然后才一并处理。  

但是这样做的缺点也非常明显:数据处理不够及时,实时性变差了。流处理,是真正的即 时处理,没有“攒批”的等待时间,所以会更快、实时性更好。

另外,在批处理的过程中,必须有一个固定的时间节点结束“攒批”的过程、开始计算。 而数据流是连续不断、无休无止的,我们没有办法在某一时刻说:“好!现在收集齐所有数据 了,我们可以开始分析了。”如果我们需要实现“持续计算”,就必须采用流处理的方式,来处 理数据流。

很显然,对于流式数据,用流处理是最好、也最合理的方式。

但我们知道,传统的数据处理架构并不是这样。无论是关系型数据库、还是数据仓库,都 倾向于先“收集数据”,然后再进行处理。为什么不直接用流处理的方式呢?这是因为,分布 式批处理在架构上更容易实现。想想生活中发消息聊天的例子,我们就很容易理解了:如果来 一条消息就立即处理,“微信秒回”,这样做一定会很受人欢迎;但是这要求自己必须时刻关注 新消息,这会耗费大量精力,工作效率会受到很大影响。如果隔一段时间查一下新消息,做个 “批处理”,压力明显就小多了。当然,这样的代价就是可能无法及时处理有些消息,造成一定 的后果。

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
5月前
|
SQL 人工智能 JSON
Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
简介:本文整理自阿里云高级技术专家李麟在Flink Forward Asia 2025新加坡站的分享,介绍了Flink 2.1 SQL在实时数据处理与AI融合方面的关键进展,包括AI函数集成、Join优化及未来发展方向,助力构建高效实时AI管道。
867 43
|
5月前
|
SQL 人工智能 JSON
Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
本文整理自阿里云的高级技术专家、Apache Flink PMC 成员李麟老师在 Flink Forward Asia 2025 新加坡[1]站 —— 实时 AI 专场中的分享。将带来关于 Flink 2.1 版本中 SQL 在实时数据处理和 AI 方面进展的话题。
339 0
Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
|
5月前
|
SQL 人工智能 API
Apache Flink 2.1.0: 面向实时 Data + AI 全面升级,开启智能流处理新纪元
Apache Flink 2.1.0 正式发布,标志着实时数据处理引擎向统一 Data + AI 平台迈进。新版本强化了实时 AI 能力,支持通过 Flink SQL 和 Table API 创建及调用 AI 模型,新增 Model DDL、ML_PREDICT 表值函数等功能,实现端到端的实时 AI 工作流。同时增强了 Flink SQL 的流处理能力,引入 Process Table Functions(PTFs)、Variant 数据类型,优化流式 Join 及状态管理,显著提升作业稳定性与资源利用率。
596 0
|
3月前
|
存储 消息中间件 人工智能
云栖实录|实时计算 Flink 全新升级 - 全栈流处理平台助力实时智能
本文根据 2025 云栖大会演讲整理而成,演讲信息如下 演讲人:黄鹏程 阿里云智能集团计算平台事业部实时计算Flink版产品负责人
295 1
云栖实录|实时计算 Flink 全新升级 - 全栈流处理平台助力实时智能
|
10月前
|
SQL 算法 调度
Flink批处理自适应执行计划优化
本文整理自阿里集团高级开发工程师孙夏在Flink Forward Asia 2024的分享,聚焦Flink自适应逻辑执行计划与Join算子优化。内容涵盖自适应批处理调度器、动态逻辑执行计划、自适应Broadcast Hash Join及Join倾斜优化等技术细节,并展望未来改进方向,如支持更多场景和智能优化策略。文章还介绍了Flink UI调整及性能优化措施,为批处理任务提供更高效、灵活的解决方案。
446 0
Flink批处理自适应执行计划优化
|
监控 大数据 Java
使用Apache Flink进行大数据实时流处理
Apache Flink是开源流处理框架,擅长低延迟、高吞吐量实时数据流处理。本文深入解析Flink的核心概念、架构(包括客户端、作业管理器、任务管理器和数据源/接收器)和事件时间、窗口、状态管理等特性。通过实战代码展示Flink在词频统计中的应用,讨论其实战挑战与优化。Flink作为大数据处理的关键组件,将持续影响实时处理领域。
2263 5
|
Java 关系型数据库 MySQL
实时计算 Flink版操作报错合集之在使用批处理模式中使用flat_aggregate函数时报错,该如何解决
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
存储 算法 API
Flink DataStream API 批处理能力演进之路
本文由阿里云 Flink 团队郭伟杰老师撰写,旨在向 Flink Batch 社区用户介绍 Flink DataStream API 批处理能力的演进之路。
854 2
Flink DataStream API 批处理能力演进之路