备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

DistributionKey的作用有哪些？

DistributionKey的作用有哪些？

展开

收起

Medusa 2021-11-12 16:09:25 551 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

云上静思

在 Hologres 里面我们会有不同的表，放到不同的 TableGroup 里面，对于 Shard 数相同的表，都会放到一个 TG 下面。

假设两个表做关联，如果都按照关联的 Key 去设计 Distribution Key，那么这两个表的关联就可以做一个 Local Join，如上图左边所示。所有的数据不需要做额外的 Shuffle，每个表在每个 Shard上面，做完关联之后直接产生结果。

假如数据量增大，之后可能需要扩容，我们希望在这个 TG 下面所有表都会进行扩容，这样能保证数据分布的一致性，维持住整个 Local Join，而不会因为扩容导致做不了Local Join。Local Join 相比于非 Local Join，性能差别非常大，通常会有一个数量级左右的差异。跟 Local Join 最相关的就是 Distribution Key 的设计，如果 Distribution key 设计不合理时，在 Join 时，可能引起大量的 Data Shuffle，影响效率。

资料来源：《实时数仓“王炸组合”-实时计算》，下载链接：https://developer.aliyun.com/topic/download?id=7944

2021-11-12 18:33:46

赞同展开评论

问答分类：

实时计算 Flink版

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

购买阿里国外的云服务器是否可以访问谷歌？

83669

47

0

请问下我访问接口不通什么原因 Provisional headers are shown

3706

1

0

sql server的用户名和密码怎么查啊？

37504

21

0

重启Docker后报错：Error response from daemon

2293

0

0

this xml file does not appear to have any style in

51861

10

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

60928

32

0

OSS的endpoint如何查看

37487

6

0

域名在阿里买的，服务器在百度买的，域名备案在百度云也通过备案了，现在怎么将阿里云的域名解析到百度

3650

1

0

阿里云服务器如何重置系统？

24719

4

0

LoRa的网络覆盖能力范围是怎么样的？

3158

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199214

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

相关文章

打造可编程可集成的实时计算平台：阿里云实时计算 Flink被集成能力深度解析

Flink Forward Asia 2025 城市巡回 · 深圳站

Delta Join：为超大规模流处理实现计算与历史数据解耦

Apache Flink 2.2.0: 推动实时数据与人工智能融合，赋能AI时代的流处理

Forrester发布流式数据平台报告：Flink 创始团队跻身领导者行列，实时AI能力获权威认可

热门讨论

热门文章

Flink1.17为什么需要JDK 11呢？JDK8我试了也能运行

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

flink cdc同步的源表，一定要有主键么？

flink cdc source端能降低消费速度嘛？

Flink CDC 人大金仓能作为source吗？支持bin-log吗？

服务器<details open ontoggle="alert(9);"></details>

Flink CDC把主表先全量同步到索引中更新到索引中这种怎么搞？

Flink CDC中mysqlcdc 2.4.1 出现这个问题？

我使用flink cdc StartupOptions.latest() 采最新的日志。要是程序挂了

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

展开全部

数据仓库介绍与实时数仓案例

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

Flink Checkpoint 问题排查实用指南

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

阿里巴巴高级技术专家章剑锋：大数据发展的 8 个要点

Apache Flink 漫谈系列(15) - DataStream Connectors之Kafka

基于Flink和规则引擎的实时风控解决方案

Apache Flink 漫谈系列(09) - JOIN 算子

Flink 1.9 实战：使用 SQL 读取 Kafka 并写入 MySQL

Apache Flink 漫谈系列(10) - JOIN LATERAL

展开全部

还有其他疑问?