实时计算 Flink版产品使用问题之遇到重启服务后重新执行DDL语句，该如何避免-阿里云开发者社区

实时计算 Flink版产品使用问题之遇到重启服务后重新执行DDL语句，该如何避免

2024-06-16 24

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： 实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

问题一：设置了includeSchemaChanges后怎么避免每次重启都执行DDL

1、基于flink cdc2.1.0版本，设置了checkpoints和savepoints；

2、DML变更正常监听；

3、但是表结构变更，每次重启服务后表结构的变更DDL语句都要重新执行，如：time1变更ddl1，同步ddl1，重启服务后仍然会执行ddl1；在time2变更ddl2，同步ddl2，重启服务后会执行ddl1、ddl2。

4、接步骤3，数据变更dml1，同步dml1，重启服务后不会执行dml1也不会执行ddl1、ddl2。

需要怎么设置才能避免步骤3的每次重启服务都执行已经执行的表结构同步sql？

参考答案：

在使用 Flink CDC（Change Data Capture）时，确实可能会遇到重启服务后重新执行DDL（Data Definition Language）语句的问题。这通常是因为CDC连接器会记录已消费的元数据变更事件，并在重启时从上次检查点（checkpoint）或保存点（savepoint）恢复时重新应用这些变更。

要避免每次重启服务都执行已经执行的DDL，你可以考虑以下几种方法：

使用持久化的元数据存储
确保你的CDC连接器配置了一个持久化的元数据存储，比如使用数据库或外部存储来记录已经同步的DDL。这样，在重启时，连接器可以检查这个存储来确认哪些DDL已经应用过，从而避免重复执行。
自定义DDL处理逻辑
你可以通过实现自定义的DDL处理逻辑来记录已经同步的DDL。例如，你可以在DDL执行后将其记录到一个外部的存储系统（如数据库或文件）中。当连接器启动时，它可以从这个存储系统中读取已经同步的DDL，并跳过这些DDL的执行。
使用Flink的Savepoint和Checkpoint
虽然你提到了使用了checkpoints和savepoints，但确保你正确地使用了它们。当你保存一个savepoint时，它应该记录了当时的状态，包括已经同步的DDL。在重启时，你应该从这个savepoint恢复，而不是从一个简单的checkpoint恢复。这样，Flink会恢复到savepoint时的状态，包括DDL的同步状态。
升级Flink CDC版本
如果你使用的是Flink CDC的一个较旧的版本，考虑升级到最新版本。新版本可能已经修复了与DDL重复执行相关的问题，或者提供了更好的配置选项来避免这个问题。
检查CDC连接器文档和社区
查阅你所使用的CDC连接器的官方文档和社区论坛，看看是否有其他用户遇到了类似的问题，并找到了解决方案。社区中可能有针对特定问题的修复或配置建议。

注意事项

确保你的CDC连接器配置正确，并且与你的Flink版本兼容。

在进行任何更改之前，最好备份你的数据和配置，以防万一出现问题。

监控你的同步过程，确保DDL和DML都被正确地处理和同步。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/603113

问题二：flinkcdc 社区的钉钉群满了。还有其他钉钉的群加入学习吗。求助

flinkcdc 社区的钉钉群满了。还有其他钉钉的群加入学习吗。求助

参考答案：

钉钉群

您可以扫描下方二维码进入实时计算Flink版交流群。在实时计算Flink版交流群中，您可以和其他用户进行交流。weima

说明

此钉钉群仅用于用户之间的交流，如果您有业务问题或者产品疑难问题，请您提交工单。https://selfservice.console.aliyun.com/ticket/createIndex?spm=a2c4g.11186623.0.0.343562c8ixMjO0&accounttraceid=f7b76db740fa486baa4b63bd5848fbc1idrb

参考 https://help.aliyun.com/zh/flink/support/technical-support?spm=a2c6h.13066369.question.7.5b77aa20jiwWnR

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/602962

问题三：flink cdc源表可以支持正则匹配多个库和表，请问目标表能支持正则匹配多个吗？

flink cdc源表可以支持正则匹配多个库和表，请问目标表能支持正则匹配多个吗？

参考答案：

Flink CDC主要用于实时捕获并处理数据库的变更数据，通常在配置CDC源的时候，确实支持通过正则表达式来匹配多个数据库或表，从而实现在同一任务中监听和同步多个数据库表。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/602879

问题四：flink cdc2.0.5 sql模式下可以获取到日志的op_status 吗？

flink cdc2.0.5 sql模式下可以获取到日志的op_status 吗？

参考答案：

Apache Flink CDC 从某个版本开始提供了更丰富的变更数据捕获信息，包括操作类型（INSERT、UPDATE、DELETE）以及可能的旧值和新值等。在 SQL 模式下（即通过 Flink SQL Client 或 Table API 编写作业），对于 MySQL CDC，在特定版本中确实增加了对 op_type 字段的支持，用于标识变更事件的类型。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/602877

问题五：Flink CDC 里能抽取达梦数据库嘛？

Flink CDC 里能抽取达梦数据库嘛？cdc好像不支持批的方式 jdbc 看了好像也不行。

参考答案：

在flink-connector-jdbc中增加对国产数据库达梦(V8)的支持

flink-connector-jdbc是Apache Flink框架提供的一个用于与关系型数据库进行连接和交互的连接器。它提供了使用Flink进行批处理和流处理的功能，可以方便地将关系型数据库中的数据引入Flink进行分析和处理，或者将Flink计算结果写入关系型数据库。

flink-connector-jdbc可以实现以下核心功能：

数据源连接：可以通过flink-connector-jdbc连接到各种支持JDBC标准的关系型数据库，如MySQL、PostgreSQL、Oracle等。

数据写入：可以将Flink的计算结果写入关系型数据库中，实现数据的持久化。

数据读取：可以从关系型数据库中读取数据，并将其作为Flink计算的输入数据。

数据格式转换：可以将关系型数据库中的数据转换为适合Flink计算的数据格式。

并行处理：可以根据数据源的并行度将数据进行分区和并行处理，以加速数据处理的速度。

flink-connector-jdbc为Flink提供了与关系型数据库集成的能力，可以方便地进行数据的导入、导出和处理，为开发人员提供了更强大和灵活的数据处理能力。

参考 https://blog.csdn.net/u010782920/article/details/132629644

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/602866

实时计算 Flink版产品使用问题之遇到重启服务后重新执行DDL语句，该如何避免

问题一：设置了includeSchemaChanges后怎么避免每次重启都执行DDL

问题二：flinkcdc 社区的钉钉群满了。还有其他钉钉的群加入学习吗。求助

问题三：flink cdc源表可以支持正则匹配多个库和表，请问目标表能支持正则匹配多个吗？

问题四：flink cdc2.0.5 sql模式下可以获取到日志的op_status 吗？

问题五：Flink CDC 里能抽取达梦数据库嘛？