备案控制台

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC里如果想断点续传mongodb change stream的话，我应该传什么？

Flink CDC里如果想断点续传mongodb change stream的话，我是应该传全局唯一的resumeToken呢还是传各分片的？类似Map<分片Id, resumeToken>。换句话说，resumeToken是全局唯一的吗？

展开

收起

小小鹿鹿鹿 2024-02-01 15:39:56 191 0

2 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
问题一：Flink CDC中，如果要断点续传MongoDB的Change Stream，应该传递全局唯一的resumeToken。Resume Token是用于标识MongoDB Change Stream中的特定位置的标记，它不是分片特定的。因此，在Flink CDC中，您只需要传递一个全局唯一的resumeToken即可。

问题二：如果数据源CDC binlog可以按分片独立消费的话，您可以将各分片的offset存储在SourceRecord的Map sourceOffset中。对于MongoDB，您可以使用Map来存储每个分片的offset。其中，key为分片ID，value为该分片对应的offset。

关于更新offsetMap的问题，您可以在每次消费获取到CDC record时，根据shardId和pos更新offsetMap。具体来说，您可以遍历record中的shards和pos数组，然后根据shardId找到对应的offset，并将其更新为新的pos值。这样，您就可以保持offsetMap的最新状态。

以下是一个示例代码片段，展示了如何更新offsetMap：
```
// 假设您已经获取到了包含shards和pos的CDC record对象
Map<String, String> offsetMap = new HashMap<>(); // 初始化offsetMap

for (int i = 0; i < record.getShards().size(); i++) {
    String shardId = record.getShards().get(i);
    String pos = record.getPos().get(i);
    offsetMap.put(shardId, pos); // 更新offsetMap
}
```
请注意，上述代码仅为示例，您需要根据实际情况进行适当的修改和调整。另外，如果您担心性能问题，可以考虑使用更高效的数据结构或缓存机制来管理offsetMap，以提高更新效率。
2024-02-02 13:58:55

赞同展开评论打赏
小小杳杳杳

resumeToken的结构是这样的，可以认为全局唯一的。此回答来自钉群Flink CDC 社区。

2024-02-01 18:36:03

赞同展开评论打赏

问答分类：

NoSQL MongoDB 流计算消息中间件 Kafka 数据格式 JSON 关系型数据库 MySQL 云消息队列 Kafka 版云数据库 MongoDB 版云数据库 RDS MySQL 版实时计算 Flink版

问答标签：

实时计算 Flink版CDC 实时计算 Flink版断点续传实时计算 Flink版stream flink云数据库 MongoDB 版实时计算 Flink版mongodb

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关产品：

实时计算 Flink版

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

实时计算 Flink版

Flink CDC里抽取mongodb的数据时，所用的流量直接到158mb/s，有没有参数限制？

88

1

0

flink接入Kafka断点续传问题

67

0

0

flink cdc同步MongoDB到mysql很慢，有什么方法可以就加快吗？

46

1

0

MongoDB CDC 在Flink CDC 2.2 版本中相比2.1版本有哪些改进？

36

1

0

在Flink CDC中，用的dinky还是stream park？

312

1

0

在Flink CDC中mongodb-cdc添加scan.full-changelog这参数后报错？

67

1

0

在Flink CDC中mongodb 运行在 atlas 是不是没法开启权限呀？

41

1

0

在Flink CDC中mongodb cdc拉不到数据，如何解决？

99

1

0

在Flink CDC中flink-connector-mongodb 这个不能像mysql那样吗？

64

1

0

在Flink CDC中mongodb为什么同步完表里面的数据之后，作业就变成finished了呀？

103

9

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关产品

实时计算 Flink版

文档详情产品详情

热门讨论

热门文章

FFA 2024 大会门票免费送！AI时代下大数据技术未来路在何方？

flinkcdc性能很差

Flink sql将数组炸开，实现hive的explode函数的效果，还有什么其他好的方式？

flink怎么能够快速消费kafka数据，需要设置什么参数呢？

Flink如何配置Task Manager？

Flink 集群重启后，所有的Jobs任务全都没有了。如果快速恢复所有的任务

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

请问如何用flink sql客户端用yarn application模式提交任务呢？

大佬们，flink cdc如何集成达梦数据库？或者有没有解决方案？

flinkcdc启动，怎么修改默认端口号，默认是8081。

展开全部

权威详解 | 阿里新一代实时计算引擎 Blink，每秒支持数十亿次计算

Flink SQL 功能解密系列 —— 维表 JOIN 与异步优化

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

阿里云实时计算产品案例&解决方案汇总

接着！！Apache Flink 全领域干货合集（持续更新）

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

Apache Flink 的迁移之路，2 年处理效果提升 5 倍

Flink Checkpoint 问题排查实用指南

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

如何在 PyFlink 1.10 中自定义 Python UDF？

展开全部

相关课程

更多

大数据Flink实时旅游平台环境篇 2020版

610

29

去学习

Apache Flink 入门到实战 - Flink开源社区出品

1646

16

去学习

实时计算 Flink 版产品入门与实操

4031

10

去学习

开源 Flink 极速上手教程

1873

7

去学习

大数据实时计算框架Spark快速入门

1029

93

去学习

Apache Flink 入门

5143

9

去学习

相关电子书

更多

Flink CDC Meetup PPT - 龚中强 立即下载

Flink CDC Meetup PPT - 王赫 立即下载

Flink CDC Meetup PPT - 覃立辉 立即下载

相关实验场景

更多