备案控制台

开发者社区问答正文

flink在批量处理模式下会减少吗

根据flink流媒体文档：

窗口函数可以是ReduceFunction，FoldFunction或WindowFunction之一。前两个可以更有效地执行（参见State Size部分），因为Flink可以在每个窗口到达时递增地聚合它们的元素。

批处理模式是否同样适用？在下面的示例中，我正在阅读来自cassandra的~36go数据，但我预计减少的输出要小得多（~0.5go）。运行这个作业需要flink来将整个输入存储在内存中，还是足够智能，能够迭代它

DataSet input = ...;
DataSet sampled = input

    .groupBy(MyRecord::getSampleKey)
    .reduce(MyRecord::keepLast);

展开

收起

flink小助手 2018-12-10 13:17:18 2206 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

flink小助手

flink小助手会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关flink的问题及回答。

根据Flink中Reduce Operation的文档，我看到以下内容：
应用于分组DataSet的Reduce转换使用用户定义的reduce函数将每个组减少为单个元素。对于每组输入元素，reduce函数连续地将元素对组合成一个元素，直到每个组只剩下一个元素。
请注意，对于ReduceFunction，返回对象的键控字段应与输入值匹配。这是因为reduce是可隐式组合的，并且从组合运算符发出的对象在传递给reduce运算符时再次按键分组。
如果我正确读取此信息，Flink将在mapper端执行reduce操作，再在reducer端执行reduce操作，因此实际发出/序列化的数据应该很小。

2019-07-17 23:19:12

赞同展开评论

问答分类：

存储 NoSQL 流计算实时计算 Flink版

问答标签：

实时计算 Flink版模式

问答地址：

开发者社区 > 数据库 > 问答

相关问答

请教个问题，用flink读本地文件可以得到输出结果，但是提交到flink单机模式服务器上执行jar包

1871

3

0

flink 1.14.3 run on k8s，application模式，更新升级代码时，如果删除

816

2

0

flink1.15启动standalone模式集群，一直提示 UnsupportedFileSyst

321

1

0

Flink On Yarn模式，有办法可以固定jobmanager.rpc.port端口吗？

2806

4

0

flink版本1.14.2 kafka版本0.11.0.1 精确一次模式生产数据报错，有遇到过的吗？

1730

1

0

flink checkpoint 保留机制问题集群模式是 standlane模式我设置参数sta

1102

1

0

怎么让flink 部分算子跑批部分跑流模式？

1215

14

0

flink 打了断点 debug模式但一直不进断点是啥情况？也没报错

1651

14

0

请教一个问题，flinkcdc同步时间，flink Standalone模式在生产环境可以不？

702

0

0

flink-mysql-cdc streaming模式时区问题要怎么处理啊？

432

0

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

阿里云CDN价格表，CDN如何收费的？

CentOS 7安装最新版docker-compose-plugin（2.27.1-1.el7）报错

服务器<details open ontoggle="alert(9);"></details>

通义灵码，文件编辑返回403错误

相关文章

存储系统：从检索技术角度剖析 LevelDB 的架构设计思想

空间检索（下）：「查找最近的加油站」和「查找附近的人」有何不同？

一、数据仓库基石：核心理论、分层艺术与 ETL/ELT 之辨

别再迷信“你给我一次，我还你一次”：聊聊数据流水线里的 Exactly-Once 神话

最近邻检索（下）：如何用乘积量化实现「拍照识花」功能？

还有其他疑问?