备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink如果是 SELECT COUNTflink sql 如何去重？如果不把之前的存储下来，是如

Flink如果是 SELECT COUNT( DISTINCT orderId) FROM source_table；比较好奇，如果第一条数据的 orderId是 A00023，然后kafka推送到第 70W，条数据的orderId 也是 A00023，flink sql 如何去重？如果不把之前的存储下来，是如何做到过滤掉 A00023 这个重复 orderId的？

展开

收起

真的很搞笑 2023-08-01 12:02:34 94 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

芯在这

流式处理，数据是有状态，对应有ttl和状态后端，不会所有数据都存储在内存里，此回答整理自钉群“【③群】Apache Flink China社区”

2023-08-01 12:16:49

赞同展开评论

问答分类：

存储 SQL 消息中间件 Kafka 流计算实时计算 Flink版云消息队列 Kafka 版

问答标签：

SQL select 实时计算 Flink版SQL flink SQL 实时计算 Flink版存储实时计算 Flink版sql去重

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

Flink的 jar作业如果里面用了state 最终是保存在内存还是外部存储？

160

1

0

在Flink CDC中，pgsqlcdc 导致数据库服务器存储满了怎么解决？

107

1

0

在Flink CDC中，怎么查看我是用这个查所有 SELECT？

85

0

0

SelectNode 类是如何表示 SQL 查询中的 SELECT 子句的？

92

1

0

如何构造一个包含 select、from 和 where 子句的 SQL 节点树？

88

1

0

Pravega流批一体的存储设计如何与Flink的发展方向相契合？

85

1

0

在Flink CDC中使用窗口去重然后进行累计求和计算，输出的求和结果会出现跳变，为什么？

106

0

0

DataWorks一个sql脚本任务里面有多个select insert语句执行的时候是并行的吗？

126

1

0

Flink MySQL cdc 同步时状态存储的是全表的数据吗？

114

4

0

PolarDB开启SQL洞察支持如果不存储到sls的话，这个日志我只能通过控制台查询吗？

96

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

报表没完没了做不完，可能并不是程序员的问题

参照Yalla、Hawa等主流APP核心功能，开发一款受欢迎的海外语聊需要从哪些方面入手

商品类目属性查询接口技术实现详解

智能体协作革命：基于LangGraph实现复杂任务自动分工

RFID技术与传送带智能采集识别完美融合

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

在斗鱼，实时计算发展的历程如何？

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

Flink CDC中，有哪位大佬有flink 版本和cdc版本的适配统计啊？

在Flink CDC中ogg可以做实时同步吗？

Flink-CDC 文档网站地址是什么？

对于Flink CDC，各位同步oracle数据库的时候有延迟都怎么搞的啊？

flink standalone模式调用job/stop接口任务停不了，显示重启中。知道怎么回事嘛?

flink 1.15.3 standalone 模式，其中一个任务发生重启，导致集群都挂了又遇到?

Flink CDC里oracel cdc 的延时很大什么原因？

展开全部

数据仓库介绍与实时数仓案例

实时计算 Flink SQL 核心功能解密

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

阿里云实时计算产品案例&解决方案汇总

流计算精品翻译: The Dataflow Model

接着！！Apache Flink 全领域干货合集（持续更新）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

广告场景下的实时计算

史上超强阵容！大数据及人工智能领域顶级盛会，Flink Forward Asia 2019 不容错过！

展开全部

还有其他疑问?