备案控制台

开发者社区问答正文

关于GroupCombine对部分结果的澄清

Flink的GroupCombine州文件：

注意：分组数据集上的GroupCombine在内存中使用贪心算法执行，该策略可能不会一次处理所有数据，而是以多个步骤处理。它也可以在各个分区上执行，而无需像GroupReduce转换那样进行数据交换。这可能会导致不完整的结果。

对于完整（非分组）DataSets，请注意以下注释：

完整DataSet上的GroupCombine与分组DataSet上的GroupCombine类似。数据在所有节点上分区，然后以贪心算法组合（即，只有一次合并到存储器中的数据）。

这是否意味着如果我的数据集包括，例如：

1
2
3
我想生成所有成对组合

(1, 2), (1, 3), (2, 3)
我不能通过GroupCombine转换以一般方式实现它，因为它不能保证整个组适合给定分区的内存？

展开

收起

社区小助手 2018-12-11 16:08:28 2019 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

GroupCombine在Flink中是一个非确定性的操作。它通常用于执行部分计算（如聚合），然后执行类似于GroupReduce消耗部分结果的确定性操作。GroupCombine通常用于通过执行较便宜的本地内存计算来降低确定性操作的成本。
如果您需要对记录组进行计算确定性结果，则应使用GroupReduce

2019-07-17 23:19:49

赞同展开评论

问答分类：

算法流计算实时计算 Flink版

问答地址：

开发者社区 > 大数据 > 问答

相关问答

购买阿里国外的云服务器是否可以访问谷歌？

83708

47

0

请问下我访问接口不通什么原因 Provisional headers are shown

3742

1

0

sql server的用户名和密码怎么查啊？

37517

21

0

重启Docker后报错：Error response from daemon

2308

0

0

this xml file does not appear to have any style in

51879

10

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

60936

32

0

OSS的endpoint如何查看

37498

6

0

域名在阿里买的，服务器在百度买的，域名备案在百度云也通过备案了，现在怎么将阿里云的域名解析到百度

3668

1

0

LoRa的网络覆盖能力范围是怎么样的？

3177

1

0

阿里云服务器如何重置系统？

24731

4

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

阿里云CDN价格表，CDN如何收费的？

CentOS 7安装最新版docker-compose-plugin（2.27.1-1.el7）报错

服务器<details open ontoggle="alert(9);"></details>

通义灵码，文件编辑返回403错误

相关文章

线程池

零拷贝

Thread.sleep(0) 到底有什么用(读完就懂)

负载均衡算法

Ribbon负载均衡

还有其他疑问?