文档备案控制台

开发者社区问答正文

Apache Flink - 启用连接排序

我注意到Apache Flink没有优化表连接的顺序。目前，它保留了用户指定的连接顺序（基本上，它按字面顺序进行查询）。我想Apache Calcite可以优化连接的顺序，但由于某些原因，这些规则在Apache Flink中没有使用。

例如，如果我们有两个表' R '和' S '

private val tableEnv: BatchTableEnvironment = TableEnvironment.getTableEnvironment(env)
private val fileNumber = 1
tableEnv.registerTableSource("R", getDataSourceR(fileNumber))
tableEnv.registerTableSource("S", getDataSourceS(fileNumber))
private val r = tableEnv.scan("R")
private val s = tableEnv.scan("S")
我们假设' S '是空的，我们希望以两种方式加入这些表：

val tableOne = r.as("x1, x2").join(r.as("x3, x4")).where("x2 === x3").select("x1, x4")

    .join(s.as("x5, x6")).where("x4 === x5 ").select("x1, x6")

val tableTwo = s.as("x1, x2").join(r.as("x3, x4")).where("x2 === x3").select("x1, x4")

      .join(r.as("x5, x6")).where("x4 === x5 ").select("x1, x6")

如果我们想要计算tableOne和tableTwo中的行数，则两种情况下的结果都将为零。问题是评估tableOne所需的时间比评估tableTwo要长得多。

有没有什么办法可以自动优化连接的执行顺序，甚至通过添加一些统计数据来启用可能的计划成本操作？如何添加这些统计数据？

可能有必要更改表环境CalciteConfig，但我不清楚如何做到这一点。

展开

收起

flink小助手 2018-12-13 14:49:53 3256 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

flink小助手

flink小助手会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关flink的问题及回答。

未启用加入重新排序，因为Flink无法很好地处理统计信息。重新排序连接没有一些准确的基数估计基本上是赌博。因此，禁用连接重新排序，并按用户提供的顺序连接表。这给出了确定性和可控制的行为。
但是，你可以通过一个经过优化的规则进入优化TableConfig与CalciteConfig创建时TableEnvironment，即TableEnvironment.getTableEnvironment（ENV，yourTableConfig）。在CalciteConfig您可以添加优化规则不同的优化阶段。你可能想添加JoinCommunteRule和JoinAssociateRule到逻辑优化阶段。您可能还需要深入研究代码以检查如何将统计信息传递到优化程序。

2019-07-17 23:20:44

赞同展开评论

问答分类：

Apache 流计算实时计算 Flink版

问答标签：

Apache flink 实时计算 Flink版Apache 实时计算 Flink版连接 Apache连接 Apache flink连接

问答地址：

开发者社区 > 大数据 > 问答

相关问答

flink的elasticsearch8连接器上线了吗？

211

2

0

我用 flink 来连接 kafka和 hbase 进行 etl 等相关操作，怎么解决啊？

213

1

0

RocketMQ在docker部署apache/rocketmq:5.1.0 怎么配置能外网连接？

1553

2

0

Apache RocketMQ中发现在使用Rocketmq-clinets连接发送消息的时候并没有？

585

7

0

Flink CDC2.3.0连接oracle 运行久了会把连接池占满有人遇到过嘛？

451

1

0

Flink CDC mysql 连接超时这个怎解决的？

813

3

0

Flink CDC自己构建出来的连接器放到lib下，这个应该如何解决呀？

254

1

0

请问Flink有没有clickhouse的连接器分享下呗?

487

0

0

Flink收入报表为啥子要按收入科目排序哦？

172

0

0

Flink对list接口排序进行优化，请问现在发布了吗？

192

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

动态变量话术引擎对直播有什么作用？

新手如何进行OSS 图片处理 CDN 加速？

什么年代了，qoder cn还不支持多agent协同一起完成任务

qoder 资源包买完找不到记录也不知道再用，究竟是谁设计的，没见过这样的设计，

需要支持自定义Kimi k3 API

相关文章

Arduino IDE下载安装和汉化一篇搞定（2026最新）

EMR + Flink 实战：从离线T+1到实时数仓的完整迁移路径

Hologres + Flink 实时OLAP分析实战：从T+1报表到秒级洞察的数据平台

蚂蚁百灵发布 Ling-3.0-Flash 原生混合推理模型，124B 参数对标 1T 旗舰

还有其他疑问?