备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

flink sql topN去重 (row_number =1 )有没有调优参数，同样的执行语句和服

flink sql topN去重 (row_number =1 )有没有调优参数，同样的执行语句和服务器配置（都是基于hive表做的去重），发现Spark SQL的执行速度快一倍以上。是不是哪些优化参数没调整到位？

展开

收起

游客3oewgrzrf6o5c 2022-07-27 17:38:26 1032 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

在 Flink SQL 中，可以通过调整以下参数来优化 TopN 去重的性能：

设置合适的并行度：并行度是影响 Flink SQL 性能的重要因素之一。如果并行度设置过低，可能会导致任务处理能力不足，从而影响 TopN 去重的性能。建议您适当增加 Flink SQL 任务的并行度，以提高任务并发处理能力。

设置合适的内存配置：TopN 去重需要在内存中进行排序和去重操作，因此内存配置对性能影响较大。建议您根据数据量和内存大小适当调整 Flink SQL 任务的内存配置，以满足 TopN 去重的内存需求。

使用 RocksDB 状态后端：RocksDB 是 Flink SQL 的一种状态后端，可以提供更高效的状态管理和持久化能力。如果您的 TopN 去重任务需要频繁地读写状态数据，可以考虑使用 RocksDB 状态后端，以提高任务的性能和稳定性。

调整 TableConfig 参数：Flink SQL 提供了一些 TableConfig 参数供用户调整，例如 batch.size、max.concurrent.checkpoints 等等。您可以根据实际需求适当调整这些参数，以优化 TopN 去重任务的性能和效率。

2023-07-17 13:40:03

赞同展开评论

问答分类：

SQL 流计算实时计算 Flink版

问答标签：

实时计算 Flink版SQL flink SQL SQL调优实时计算 Flink版sql去重 SQL去重

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

Flink CDC oracle 的 number 类型做主键，这个问题大家遇到没？

157

1

0

flink多并行度大数据量去重，我们有没有什么好的方案？

181

1

0

这里两个不同版本的FLink 中如果设置了jdbc_fixed模式都会去重吗？如

154

4

0

Flink sql怎么按窗口先去重再统计？

106

2

0

请教下 flink sql ROW_NUMBER()回退更新的机制，有相关文档介绍吗？

786

3

0

Flink的EXCEPT ALL 作用不是差集不去重吗？

131

1

0

在Flink CDC中使用窗口去重然后进行累计求和计算，输出的求和结果会出现跳变，为什么？

124

0

0

Flink使用topN去重后写入ODPS为什么还会重复

72

1

0

在Blink SQL逻辑优化中，如何通过去重减少输出到sink算子的数据量？

130

1

0

Flink CDC中oraclecdc监听到的数据格式对于 number类型的字段应该怎么处理？

110

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199214

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

相关文章

常见的网络攻击

持久层框架MyBatisPlus

练习

练习

别让大数据“全表扫描”掏空你：数据分区策略与分区裁剪的实战心经

热门讨论

热门文章

Flink1.17为什么需要JDK 11呢？JDK8我试了也能运行

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

flink cdc source端能降低消费速度嘛？

flink cdc同步的源表，一定要有主键么？

Flink CDC 人大金仓能作为source吗？支持bin-log吗？

Flink CDC把主表先全量同步到索引中更新到索引中这种怎么搞？

Flink CDC中mysqlcdc 2.4.1 出现这个问题？

我使用flink cdc StartupOptions.latest() 采最新的日志。要是程序挂了

服务器<details open ontoggle="alert(9);"></details>

flink cdc 有没得官方介绍文档？

展开全部

流计算StreamCompute

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

阿里云实时计算产品案例&解决方案汇总

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

Flink SQL 功能解密系列 —— 数据去重的技巧和思考

阿里巴巴高级技术专家章剑锋：大数据发展的 8 个要点

【阿里内部应用】基于Blink为新商业调控打造实时大数据交互查询服务

Apache Flink 漫谈系列(06) - 流表对偶(duality)性

Flink on YARN（上）：一张图轻松掌握基础架构与启动流程

Flink 1.9 实战：使用 SQL 读取 Kafka 并写入 MySQL

展开全部

还有其他疑问?