备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC中世界是 20多万的数据，为啥落库的时候只有 10多万？

"Flink CDC中世界是 20多万的数据，为啥落库的时候只有 10多万？

批任务，我使用mysql 查询的数量都一致的，就是 flink 落库的时候不对。简单的etl 使用sql ，但是测试还是有问题。

flink 说的是流批一体，不想弄那么中间件。
"

展开

收起

十一0204 2023-08-09 08:55:42 162 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

如果在使用 Flink CDC 进行数据同步时，源数据有 20 多万条记录，但最终只有 10 多万条记录被成功写入目标数据库，可能有以下几个可能的原因：

过滤条件：检查你的 Flink CDC 应用程序是否设置了过滤条件，导致某些记录被过滤掉而没有写入目标数据库。确保过滤条件正确设置，以便包含所有需要同步的数据。

数据源问题：检查源数据的完整性和准确性。可能是源数据中存在重复记录、缺失记录或其他数据问题导致最终写入目标数据库的记录数量不符合预期。

数据转换或处理错误：如果你在 Flink CDC 应用程序中对数据进行了转换或处理操作，错误的处理逻辑可能导致数据丢失或数量减少。检查你的数据转换或处理逻辑，确保它们正确地处理源数据并生成正确的目标数据。

数据写入失败：在数据写入目标数据库时，可能发生写入失败的情况。这可能是由于数据库连接问题、目标表定义不匹配或其他写入错误导致的。检查你的目标数据库的配置和表定义，确保它们与写入操作相匹配，并查看日志或错误信息以获取更多关于写入失败的信息。

并发或同步延迟：如果你的 Flink CDC 应用程序使用并发处理或存在同步延迟，可能会导致最终写入目标数据库的记录数量不符合预期。在这种情况下，你可以调整并发度或处理延迟的配置，以满足你的需求。

2023-08-13 16:57:14

赞同展开评论

问答分类：

SQL 中间件关系型数据库 MySQL 流计算实时计算 Flink版云数据库 RDS MySQL 版

问答标签：

实时计算 Flink版CDC 实时计算 Flink版数据实时计算 Flink版cdc库实时计算 Flink版库实时计算 Flink版cdc数据

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

大家有没有使用flink cdc 3版本来全库同步mysql到doris或者sr？

149

0

0

在Flink CDC中，pgsql支持备库嘛？

94

1

0

在Flink CDC中MySQL 整库同步 Kafka，不支持动态加表功能吗？

246

1

0

Flink多表不是我想的那种多个 create 的方式吗？好像是同步整库，然后在库里面选表吗？

98

1

0

Flink CDC 连接 Oracle ADG 备库（只读模式）失败问题

368

2

0

flink cdc采集oracle 的adg备份库报错，这种情况如何解决？

447

7

0

Flink cdc连接mysql，配置的是从库的ip，但是有几个服务连到了从库，这种情况是什么原因？

170

6

0

在Flink CDC中使用flinkcdc整库同步到sr的时候，能够创建sr的分区表吗？

163

1

0

在Flink CDC中mysql ds 整库监控的话需要这个库下面的表都必须得有主键吗？

106

0

0

Flink CDC这个整库同步为啥一直找不到jar包呢？

109

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

阿里云轻量应用服务器介绍及支持的应用镜像说明

基于springboot的林业资源管理系统

2026基于springboot的人力资源管理系统

Dataphin功能Tips系列（87）Dataphin「X-分析」：自然语言开启自助取数新时代

数据慢半拍，问题可能不在“数据”：聊聊数据传播延迟的那些坑

热门讨论

热门文章

Flink1.17为什么需要JDK 11呢？JDK8我试了也能运行

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink CDC 人大金仓能作为source吗？支持bin-log吗？

flink cdc同步的源表，一定要有主键么？

flink cdc source端能降低消费速度嘛？

Flink CDC把主表先全量同步到索引中更新到索引中这种怎么搞？

我使用flink cdc StartupOptions.latest() 采最新的日志。要是程序挂了

请问一下Flink mysqlcdc获取到数据之后关联结果不更新这个怎么办?

flink datastream ，向clickhouse插入数据时怎么关闭插入时更新,

Flink CDC写 PG，列为数组，为什么？

展开全部

数据仓库介绍与实时数仓案例

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

实时计算 Flink SQL 核心功能解密

流计算StreamCompute

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

阿里云实时计算产品案例&解决方案汇总

流计算精品翻译: The Dataflow Model

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

为什么说流处理即未来？

基于实时计算（Flink）打造一个简单的实时推荐系统

展开全部

还有其他疑问?