备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

insert into sink_kafka_table select from source_my

insert into sink_kafka_table select from source_mysql_table checkpoint生效，'scan.startup.mode'='initial'，会出现重复记录，即所有表记录再同步一份到kafka 请问还要设置哪里呢？

展开

收起

十一0204 2023-04-05 09:05:27 171 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

LittlePenguin

随心分享，欢迎友善交流讨论：）

出现重复数据的原因可能是由于 select from source_mysql_table 查询语句中未指定合适的 WHERE 条件或者 checkpoint 没有生效，导致数据重复写入到 sink_kafka_table 中。针对这个问题，您可以尝试以下几个方案：

在 select 语句中指定合适的 WHERE 条件，避免重复数据的写入。例如：

insert into sink_kafka_table select * from source_mysql_table where id > checkpoint; 其中，checkpoint 是被记录下来的最后一次同步的位置，可以通过查询 sink_kafka_table 表的 offset 字段获取。

确认 checkpoint 配置生效，可以通过查看 binlog 的位置信息以及 sink_kafka_table 表的 offset 字段确认是否生效。

将 scan.startup.mode 设置为 earliest-offset，强制从最早的 offset 位置开始同步数据。这样会将所有的数据都同步至 sink_kafka_table 中，但是也会增加同步的数据量。

{ "name": "mysql-connector", "config": { "connector.class": "io.debezium.connector.mysql.MySqlConnector", "tasks.max": "1", "database.hostname": "localhost", "database.port": "3306", "database.user": "debezium", "database.password": "dbz", "database.server.id": "184054", "database.server.name": "dbserver1", "database.whitelist": "inventory", "database.history.kafka.bootstrap.servers": "kafka:9092", "database.history.kafka.topic": "dbhistory.inventory", "include.schema.changes": "true", "scan.startup.mode": "earliest-offset" } } 注意：这个选项会在启动时把所有数据都同步，如果数据量非常大的话，可能会导致 Kafka 集群的负载过高。

如果以上方案都无法解决问题，您可以考虑在 sink_kafka_table 表中添加唯一约束，避免数据重复写入。例如：

alter table sink_kafka_table add constraint uk_sink_kafka_table unique (id); 其中，id 是主键或唯一索引字段，您可以根据实际情况进行调整。

2023-04-18 18:03:30

赞同展开评论

问答分类：

消息中间件 Kafka 云消息队列 Kafka 版云数据库 RDS MySQL 版

问答标签：

into云消息队列 Kafka 版

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

请问Flinkcdc中我用sql语句将数据insert into 到我kafka表怎么避免程序关闭？

162

2

0

有大佬知道这是怎么回事么 flink读不到kafka数据

1214

1

0

请问下当flink集群重启之后 kafka消息还是重复有什么办法解决吗 kafka sink 已设

1188

4

0

麻烦问一下，我们现在的架构是希望数据统一从 Kafka 中出，但是又想用 Flink CDC，请问

1117

1

0

各位, 请问: flink cdc, 用 flink sql 的方式 sink 到 kafka 可以

1405

2

0

flink cdc内置了kafka 监听binlog文件的时候是把所有监听的数据写入kafka的

1628

4

0

flink版本1.14.2 kafka版本0.11.0.1 精确一次模式生产数据报错，有遇到过的吗？

1701

1

0

有没有人试过ogg => kafka => flink-cdc （ogg-format ）呀？ o

364

0

0

各位kafka里多张表的数据 flink sql如何分别映射不同的表呢？

829

1

0

flink有api可以像 spark那样批出 kafka数据吗？

955

6

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199213

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

相关文章

Confluent 首席架构师万字剖析 Apache Fluss（一）：核心概念

构建企业级 AI 应用：为什么我们需要 AI 中间件？

“鸡蛋不能放一个篮子里”，如何确保千亿数据万无一失？

《聊聊线程池中线程数量》：不多不少，刚刚好的艺术

聊聊并发的本质《一场对资源与时间的极致博弈》

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

在斗鱼，实时计算发展的历程如何？

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

Flink CDC中，有哪位大佬有flink 版本和cdc版本的适配统计啊？

如何用实时数据同步打破企业数据孤岛？

在Flink CDC中ogg可以做实时同步吗？

对于Flink CDC，各位同步oracle数据库的时候有延迟都怎么搞的啊？

Flink CDC里3.0支持MySQL到MySQL的动态同步嘛，有没有yaml配置文件样例？

Flink这个未授权访问漏洞有什么解决方案吗？

Flink-CDC 文档网站地址是什么？

展开全部

数据仓库介绍与实时数仓案例

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

流计算StreamCompute

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

阿里云实时计算产品案例&解决方案汇总

流计算精品翻译: The Dataflow Model

接着！！Apache Flink 全领域干货合集（持续更新）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

为什么说流处理即未来？

展开全部

还有其他疑问?