文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink之前的批处理我是真不知道有啥用，手动调度用？

Flink之前的批处理我是真不知道有啥用，手动调度用？

展开

收起

嘟嘟嘟嘟嘟嘟 2024-01-17 09:17:03 172 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

Flink的批处理功能主要用于离线数据处理和分析，它可以将大量的历史数据进行处理和计算，以生成报表、指标等结果。相比于手动调度，使用Flink的批处理可以更加高效地处理数据，并且可以通过Flink提供的窗口、分组、聚合等功能进行复杂的数据分析。此外，Flink还支持流式处理和批量处理的混合处理模式，可以将实时数据和历史数据结合起来进行分析。因此，Flink的批处理功能在很多场景下都有广泛的应用价值。

2024-01-17 14:07:45

赞同展开评论
听风de歌
Apache Flink不仅仅是一个流处理框架，它也支持批处理任务，并且其批处理能力与流处理相结合，提供了统一的数据处理API。批处理在许多场景下是非常有用的，以下是一些批处理用途的例子：
1. 数据ETL（Extract, Transform, Load）：Flink可用于定期从不同的数据源提取数据，进行复杂的转换操作，然后加载到数据仓库或其他持久化存储中。批处理在这种一次性或周期性的离线数据迁移和清洗过程中发挥着重要作用。
2. 定期报表生成：企业常常需要每日、每周或每月统计业务指标，生成报表，这就需要批量处理历史数据，而不是实时计算。
3. 数据仓库的维护：批处理可以用于对数据仓库进行全量更新或增量更新，例如Hadoop Hive、AWS Redshift等。
4. 数据挖掘和机器学习预处理：在构建机器学习模型之前，通常需要对大量历史数据进行预处理，包括缺失值填充、特征工程等，这通常是批处理任务。
5. 数据一致性校验和修复：在数据集成过程中，可能会出现数据不一致的问题，批处理可以用来定期检查并修正这些问题。
虽然Flink最初因其流处理能力而受到关注，但其批处理能力并不逊色，它可以很好地与流处理结合起来，形成所谓的“流批一体”的解决方案，使得用户在面对不同类型的数据处理需求时，无需在不同的引擎之间切换，从而简化了开发和运维流程，提高了整体系统的效率和灵活性。此外，Flink批处理的性能也相当出色，它基于流式执行引擎，所以即使在处理大规模批数据时也能保证较高的吞吐量和较低的延迟。
2024-01-17 10:19:57

赞同展开评论

问答分类：

流计算调度实时计算 Flink版

问答标签：

实时计算 Flink版批处理实时计算 Flink版调度

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

在Flink大概什么样的场景会需要用到流批一体？一边处理实时流，一边批处理历史数据

287

1

0

在Flink CDC中批处理之后得度量数据为什么就不能拿了呢？

153

0

0

Flink任务编排可以跑 msyql同步到mysql的批处理任务吗？

283

2

0

Flink这个调度超过23h之后全都无法保存，为什么？

195

1

0

Flink 1.15 引入的自适应批处理调度器的主要优点是什么？

162

1

0

flink 批处理，source 和sink 都是holo ，有哪篇文章可以参考？

192

1

0

在 Flink 容错 2.0 中，从调度的角度有哪些改进？

135

1

0

简述 Flink 中资源调度流程是怎样的？

267

1

0

问一下flink批处理，join超20张表会报空指针，这边是不是有什么限制在里面？

329

7

0

Flink批处理之后得度量数据为啥就不能拿了呢？

248

7

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

WorkManager 可靠性实战：唯一任务、重试与幂等设计

分布式事务框架选型对比：Seata 与 ByteTCC 在 API 场景下的性能实测

凌晨2点的PR谁来回？AgentTeams 给 LoongSuite 配了个 7×24h 社区管理员

意图共鸣科技 · 平行思考 | 从WAIC主席声明，看AI治理的三个技术命题

同城外卖系统开发：用户端、商家端、骑手端业务协同与源码架构解析

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink CDC 能适配达梦不？

Flink CDC里这个问题怎么解决？

有用flink cdc同步mysql到hive这样搞过的源码吗?

FLink 1.13版本升级Flink 1.17 报错，怎么解决？

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

Flink 1.13版本升级Flink 1.17 报错有人知道为什么吗?

FLink 1.13版本升级Flink 1.17 报错，怎么处理？

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

flinkcdc在IDEA运行正常，打包就报错

展开全部

实时计算 Flink SQL 核心功能解密

流计算StreamCompute

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

接着！！Apache Flink 全领域干货合集（持续更新）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

Apache Flink 的迁移之路，2 年处理效果提升 5 倍

Flink Checkpoint 问题排查实用指南

如何在 PyFlink 1.10 中自定义 Python UDF？

Flink SQL 功能解密系列 —— 数据去重的技巧和思考

展开全部

还有其他疑问?