备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

各位老师，flink 中 clickhouse 的实时去重怎么搞？

问题1：各位老师， clickhouse 的实时去重怎么搞？flink sink 到 ck 还是在某一时间点有重复的目前是执行一次手动去重
问题2：api 里 dataStream 开窗去重再S ink ？OPTIMIZE TABLE * 目前是每次查询前掉一次

展开

收起

真的很搞笑 2023-08-09 13:15:15 393 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

Flink sink到ClickHouse存在重复的原因可能是:
Flink的水位传递语义导致消息重试产生重复
方法是开启ExactlyOnce传输语义:

Copy
set "table.sink.failover-enabled" = true
set "table.sink.insert-only" = true
也可以在ClickHouse中配置去重表,在插入之前去重
在Flink中使用开窗去重:
java
Copy
// 按照某字段分组去重
dataStream
.keyBy(keySelector)
.window(TumblingEventTimeWindows.of(Time.minutes(15)))
.reduce(new ReducingStateDescriptor(new UniqueValueReducer(), ...))
ClickHouse OPTIMIZE定期动态优化表也可以,建议设置较长周期如每天。
另外可以开启本地压缩以减少开销。

考虑数据特征,选择适合的去重方式,一般地优先在计算层进行,减轻Db压力。

2023-08-10 17:27:09

赞同展开评论
芯在这

回答1：clickhouse就不支持实时去重啊，你要是数据本身重复，你可以在flink里做去重，在写。要是因为flink导致的重复。你就走端到端一致性搞
回答2：为啥呀开窗。。。直接用状态存一下然后进行数据比对嘛。。然后给个ttl，此回答整理自钉群“【③群】Apache Flink China社区”

2023-08-09 13:19:38

赞同展开评论

问答分类：

API 流计算实时计算 Flink版云数据库 ClickHouse

问答标签：

实时计算 Flink版clickhouse 实时计算 Flink版去重实时计算 Flink版Sink 云数据库 ClickHouse flink clickhouse实时计算 Flink版

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

E-MapReduce Flink如何导入数据至ClickHouse

95

1

0

mysql->flink-cdc->clickhouse数据传输不识别delete操作

312

1

0

用flinksql方式连接clickhouse作为sink端报错，请问是缺少什么jar包吗？

206

0

0

在Flink CDC中使用窗口去重然后进行累计求和计算，输出的求和结果会出现跳变，为什么？

121

0

0

在Flink CDC中flink-cdc没有抛出异常，而且ck一直成功，这个是正常现象吗？

183

8

0

云数据库ClickHouse社区版CK和企业版CK相同统计表使用相同VIEW写入后报表的统计值不一致

127

1

0

Flink clickhouse元数据管理不支持吗

104

1

0

Flink使用topN去重后写入ODPS为什么还会重复

69

1

0

在Flink CDC中实际是流和clickhouse是可以关联上，如何操作？

111

1

0

Flink ClickHouse结果表是否支持回撤更新数据

138

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

藏在Nginx配置里的“坑”：一个`if`指令引发的深夜告警

从外贸数据孤岛到智能引擎：信风AI多Agent架构深度解析

Promise深度解析：前端异步编程的核心

Vue 事件总线（EventBus）详解

电子元件item_search - 按关键字搜索商品接口对接全攻略：从入门到精通

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink1.17为什么需要JDK 11呢？JDK8我试了也能运行

Flink CDC中，有哪位大佬有flink 版本和cdc版本的适配统计啊？

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

有大佬遇到过flink web ui上的指标都是loading状态吗，flink版本是1.17.1？

hudi怎么删除某个分区（年、月两级分区）

Flink sql中的GROUP_CONCAT 函数得怎么实现？

Flink这个 busy 是啥意思？

Flink CDC 2.4版本支持多并发读取Postgresql存量数据并且无锁吗？

Flink的tmp的这个目录产生临时文件很大，我想配置到外面，有配置项可以配置吗？

展开全部

数据仓库介绍与实时数仓案例

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

实时计算 Flink SQL 核心功能解密

流计算StreamCompute

通过Flink实时构建搜索引擎的索引

阿里云实时计算产品案例&解决方案汇总

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

Flink Checkpoint 问题排查实用指南

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

Flink SQL 功能解密系列 —— 数据去重的技巧和思考

展开全部

还有其他疑问?