备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

flink cdc (2.4.1) 重启的时候作为参数传给flink cdc吗？

flink cdc (2.4.1) 从specified offset启动没有问题，但是停机后从savepoint恢复则报错binlog被purge（实际文件还在）。是需要停机前手工记录gtid，重启的时候作为参数传给flink cdc吗？

展开

收起

真的很搞笑 2023-12-31 08:55:19 189 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

3 条回答

写回答

取消提交回答

Skyund

重启策略作为 Flink 集群或作业级别的配置参数，并不会直接作为参数传递给 Flink CDC 组件。

2023-12-31 15:47:48

赞同展开评论
1941623231718325

Flink CDC在从MySQL读取binlog时，依赖于binlog的持久化以保证故障恢复后能够继续正确地从上次中断的地方开始处理变更数据。如果在停机后从savepoint恢复时遇到binlog被purged的错误，但实际上文件还在，这通常意味着MySQL已经清理了binlog历史记录，而这些记录是Flink CDC任务所需要的。

MySQL通过参数配置binlog的保留策略，例如expire_logs_days或binlog_expire_logs_seconds等，当达到设定的时间阈值后，MySQL会自动删除旧的binlog文件，即使文件物理上可能仍存在于磁盘上，但在数据库内部已不可见。

在使用Flink CDC进行故障恢复时，确实需要确保相关的binlog文件在任务重启时仍然可用。由于Flink CDC通常会保存GTID（全局事务标识符）或其他形式的位置信息到savepoint中以便恢复，因此不需要手动记录GTID并在重启时传给Flink CDC。

但是，如果因为MySQL的binlog清理策略导致必要的binlog文件不再可访问，那么即便GTID或其他位置信息还在savepoint中，也无法正常恢复。

为了解决这个问题，可以考虑调整MySQL的binlog保留策略，确保在Flink CDC任务可能需要恢复的时间窗口内不会自动清理binlog文件。另外，在计划维护或升级之前，也可以考虑暂停binlog清理，并确保所有的CDC任务都已成功checkpoint或者savepoint，然后再进行下一步操作。

如果确实遇到了因为binlog清理而导致无法恢复的情况，且物理binlog文件还存在，理论上可以通过手动方式将这些文件重新加入到MySQL的binlog列表中并设置正确的GTID范围，但这需要对MySQL有深入理解且操作较为复杂，一般不建议这样做。

2023-12-31 13:15:45

赞同展开评论
芯在这

最好的办法是一直开启gtid，
，此回答整理自钉群“Flink CDC 社区”

2023-12-31 11:34:19

赞同展开评论

问答分类：

流计算实时计算 Flink版

问答标签：

实时计算 Flink版CDC 实时计算 Flink版重启实时计算 Flink版参数实时计算 Flink版cdc参数实时计算 Flink版cdc重启

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

Flink通过接口提交任务，webui界面 Entry Class参数有值的话有知道怎么回事吗？

187

0

0

FLINK SQL 遇到这种异常，一直重启，这种异常怎么处理啊，跳过去？

282

0

0

在Flink CDC中，集群模式已经重启还是不行？

83

1

0

Flink页面外部传参是用这个参数么？

110

1

0

在Flink CDC中，我加了那个参数，初始化拉取的时候是返回了clob类型的数据，增量变更数据？

157

0

0

为什么用户可以通过调整 Flink 运行参数来进行个性化调优？

102

1

0

flink-cdc读取 postgresql，从savepoint重启后一直报这个错误，为什么?

101

1

0

在Flink CDC中s想重启flink以使lib的jar包生效，导致之前的容器不可用怎么办？

122

1

0

在Flink CDC中抽取数据凌晨失败了白天重启任务它还从之前零点失败时候的点位开始消费？

98

0

0

Flink生产集群用来限制作业占用资源的参数都有哪些，一般都会怎么设置呀？

160

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

《构建游戏实时流失预警模型的核心逻辑》

别再全量拉表了兄弟：一篇讲透增量数据处理与 CDC 的实战指南

用 Flink 做实时 ETL：别只盯着算子，真正的灵魂是「语义、状态和扛事能力」

别再迷信“你给我一次，我还你一次”：聊聊数据流水线里的 Exactly-Once 神话

OOM排查之路：一次曲折的线上故障复盘

热门讨论

热门文章

Flink1.17为什么需要JDK 11呢？JDK8我试了也能运行

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

flink cdc source端能降低消费速度嘛？

flink cdc同步的源表，一定要有主键么？

Flink CDC 人大金仓能作为source吗？支持bin-log吗？

Flink CDC把主表先全量同步到索引中更新到索引中这种怎么搞？

Flink CDC中mysqlcdc 2.4.1 出现这个问题？

我使用flink cdc StartupOptions.latest() 采最新的日志。要是程序挂了

服务器<details open ontoggle="alert(9);"></details>

请问一下Flink mysqlcdc获取到数据之后关联结果不更新这个怎么办?

展开全部

流计算StreamCompute

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

阿里云实时计算产品案例&解决方案汇总

为什么说流处理即未来？

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

Flink SQL 功能解密系列 —— 数据去重的技巧和思考

使用 Kafka 和 Flink 构建实时数据处理系统

阿里巴巴高级技术专家章剑锋：大数据发展的 8 个要点

【阿里内部应用】基于Blink为新商业调控打造实时大数据交互查询服务

展开全部

还有其他疑问?