备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC消费kafka停止后，使用sp启动，有的拿到的偏移量是-1，导致中间丢数据？

Flink CDC消费kafka停止后，使用sp启动，15个分区都有数据，但是有的拿到的偏移量是-1，导致中间丢数据？

展开

收起

真的很搞笑 2023-10-02 08:40:46 234 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

武当张三丰丶

存在即是合理
当Flink CDC消费Kafka停止后，使用sp启动时，如果某些分区的偏移量为-1，则表示该分区没有可用的数据。这可能是由于在停止Flink CDC消费Kafka时未正确提交偏移量或在重新启动时未正确重置偏移量所致。

要解决这个问题，可以尝试以下思路：
1. 检查Kafka消费者组是否已正确提交了偏移量。可以使用Kafka命令行工具或其他监控工具来查看消费者组的当前偏移量。
2. 如果发现某些分区的偏移量为-1，则可以尝试手动设置这些分区的偏移量。可以使用Flink CDC提供的setStartupMode方法来指定启动模式为“latest”，这将使Flink CDC从最新的偏移量开始消费数据。例如：
  
  Properties properties = new Properties(); properties.setProperty("bootstrap.servers", "localhost:9092"); properties.setProperty("group.id", "test"); properties.setProperty("enable.auto.commit", "false"); properties.setProperty("auto.offset.reset", "earliest"); FlinkKafkaConsumer<String> consumer = new FlinkKafkaConsumer<>( "test_topic", new SimpleStringSchema(), properties); DataStream<String> stream = env.addSource(consumer); stream.setStartupMode(StartupMode.LATEST);
3. 如果仍然无法解决问题，则可能需要重新部署Flink CDC应用程序并确保正确地提交和重置偏移量。
2023-10-23 15:26:34

赞同展开评论

问答分类：

消息中间件 Kafka 流计算云消息队列 Kafka 版实时计算 Flink版

问答标签：

云消息队列 Kafka 版flink 实时计算 Flink版CDC 实时计算 Flink版kafka 实时计算 Flink版数据实时计算 Flink版cdc kafka

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

flink cdc 采集oracle 间歇性丢数据，日志里也没报错的情况，怎么回事？

304

0

0

flink cdc mysql到kafka为啥会丢数据呢？

110

0

0

flink es connector7丢数据

160

0

0

在Flink CDC中oraclecdc丢数据日志只看到这个warn ，如何解决？

146

0

0

在Flink CDC中oraclecdc偶发丢数据，如何解决？

105

0

0

如何使用Kafka查看偏移量为23的消息？

116

1

0

请问有人用 NAS 挂载 Flink CP | SP 吗？效果怎么样？

145

6

0

flink作业数据来源是kafka ，配置偏移量策略是earlest，有什么办法吗？

108

1

0

flink cdc 同步pgsql 会丢数据吗？我这查的快照的数据都少为啥？

155

0

0

Flink CDC 里新加的表，从sp重启后，全量同步一会，就不同步了，数据条数一直不变为什么？

179

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

RocketMQ监控与运维实战：从底层原理到生产落地全解析

Delta Join：为超大规模流处理实现计算与历史数据解耦

企业实战RocketMQ：从API到架构开发的深度解析与落地实践

内附原文｜VLDB论文精读：AI进行时，数据分析迈入增量计算时代

到底该选谁？Hadoop、Spark、Flink、云大数据的“江湖全景图”

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink1.17为什么需要JDK 11呢？JDK8我试了也能运行

Flink sql中的GROUP_CONCAT 函数得怎么实现？

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

Flink sql将数组炸开，实现hive的explode函数的效果，还有什么其他好的方式？

有大佬遇到过flink web ui上的指标都是loading状态吗，flink版本是1.17.1？

Flink的tmp的这个目录产生临时文件很大，我想配置到外面，有配置项可以配置吗？

Flink CDC里用jdbc往达梦dm8推数据，老是显示字符被截断是咋回事？有人碰到过嘛？

Flink CDC中，有哪位大佬有flink 版本和cdc版本的适配统计啊？

请问下大家有没有遇到过这个错:Caused by: java.lang.ClassNotFoundE

展开全部

流计算StreamCompute

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

阿里云实时计算产品案例&解决方案汇总

基于实时计算（Flink）打造一个简单的实时推荐系统

Flink Checkpoint 问题排查实用指南

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

如何正确使用 Flink Connector？

Apache Flink 漫谈系列(04) - State

Flink SQL 功能解密系列 —— 数据去重的技巧和思考

展开全部

还有其他疑问?