实时计算 Flink版产品使用合集之实现异步删除操作如何解决-阿里云开发者社区

实时计算 Flink版产品使用合集之实现异步删除操作如何解决

2024-05-23 234

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

问题一：我想问的是，flinkcdc可否实现不同步删除的操作？

Flink CDC这边的业务数据了的某些表数据量达到一定的阈值会进行归档(把数据自动到另外一张表，但表名不固定，然后把源表里面的这部分数据删除)，我想问的是，flinkcdc可否实现不同步删除的操作？

参考回答：

Flink CDC是一个功能强大的开源项目，它可以实现从MySQL等数据库中实时同步数据变化，包括新增、更新和删除等操作。对于你的问题，Flink CDC确实支持在解析binlog时检测到删除操作并触发相应的删除逻辑。然而，如果Flink CDC作业未能正常消费对应的删除事件（例如由于网络问题或其他错误），那么源表中的数据可能会被删除，但结果表未被删除。

关于本问题的更多回答可点击原文查看：

https://developer.aliyun.com/ask/575942

问题二：Flink CDC1.13版本的checkpoint针对于大状态的设置调优能给下参考吗？

Flink CDC1.13版本的checkpoint针对于大状态的设置调优能给下参考吗？现在做了13个人员子集的聚合，然后关联到人员主体上老是checkpoint失败，过段时间task manger不可用以后导致整个源头重新摄取了，而且数据量比较大，这样导致永远初始不完数据？

参考回答：

Flink CDC 1.13版本的checkpoint针对大状态的设置调优，主要需要考虑以下两个方面：首先，应用程序需要能够可靠地创建checkpoints；其次，在应用故障后，需要有足够的资源追赶数据输入流。

对于大状态的作业，如果发现Checkpoint时间过长，可以考虑优化Checkpoint的时间间隔。具体来说，可以通过调整Checkpoint之间的最小间隔参数，让Checkpoint之间根据执行速度进行调整。也就是说，前面的Checkpoint没有完全结束，后面的Checkpoint就不会开始，这样可以有效地提高作业的运行效率。

此外，还可以通过观察每个Checkpoint的启动时间来检测每个Checkpoint之前和之后是否存在空闲时间间隔，以此来进一步微调Flink Checkpoint操作。

总的来说，Flink提供了丰富的运行参数，用户可以根据自己的作业特点进行个性化的调优。例如，可以限制Checkpoint的最小制作间隔来避免不合理的高频Checkpoint制作影响集群上的其他作业。

关于本问题的更多回答可点击原文查看：

https://developer.aliyun.com/ask/575938

问题三：Flink CDC有例子吗，传入的是字段数值？

Flink CDC有例子吗，传入的是字段数值？我只想sink 到部分表，表结构差不多的，我用RichSinkFunction 自定义sink到数据库表，但感觉还是用官方的jdbcsink性能好

参考回答：

Flink CDC是一个功能强大的工具，可以从MySQL等数据库中捕获变更数据，然后对这些数据进行处理和同步。例如，你可以使用Flink的CDC从SQL Server获取指定表的增量数据，或者将MySQL中的全增量数据实时采集、预计算、并同步到Elasticsearch中。

对于你的需求，即只向部分结构相似的表中sink数据，你可以自定义一个RichSinkFunction来实现。但是，如果感觉性能不佳，可以考虑使用Flink官方提供的JDBCSink。Flink SQL CDC + JDBC Connector本质上是一个Source和Sink并行度为1的Flink Stream Application，Source和Sink之间没有Operator，可以保证一致性。同时，采用YARN的per-job模式启动多个作业，能有更好的隔离性。

关于本问题的更多回答可点击原文查看：

https://developer.aliyun.com/ask/575932

问题四：Flink CDC中JdbcSink.sink中的sql 语句中的表可以做为参数传入吗？

Flink CDC中JdbcSink.sink中的sql 语句中的表可以做为参数传入吗，我现在只想到是写数据库函数实现？

参考回答：

是的，你可以在Flink CDC中的JdbcSink.sink方法中将SQL语句中的表名作为参数传入。你可以使用Java的字符串格式化功能来实现这个需求。

以下是一个示例：

String sql = "INSERT INTO %s SELECT * FROM source_table";
String tableName = "target_table";
String formattedSql = String.format(sql, tableName);
JdbcSink<Row> jdbcSink = JdbcSink.sink(formattedSql, (ps, row) -> {
    ps.setInt(1, row.getInteger(0));
    ps.setString(2, row.getString(1));
    // ... set other fields
}, env.getConfig().getGlobalJobParameters());

在这个示例中，我们首先定义了一个包含占位符的SQL语句，然后使用String.format方法将表名替换为实际的表名。最后，我们将格式化后的SQL语句传递给JdbcSink.sink方法。

关于本问题的更多回答可点击原文查看：

https://developer.aliyun.com/ask/575929

问题五：Flink CDC这个CDAS 在阿里云上可以实现，开源的flink 支持CDAS 整库同步吗？

Flink CDC这个CDAS 在阿里云上可以实现，开源的flink 支持CDAS 整库同步吗？

参考回答：

下个3.0大版本会有，此回答整理自钉群“Flink CDC 社区”

关于本问题的更多回答可点击原文查看：

https://developer.aliyun.com/ask/575928

实时计算 Flink版产品使用合集之实现异步删除操作如何解决

问题一：我想问的是，flinkcdc可否实现不同步删除的操作？

问题二：Flink CDC1.13版本的checkpoint针对于大状态的设置调优能给下参考吗？

问题三：Flink CDC有例子吗，传入的是字段数值？

问题四：Flink CDC中JdbcSink.sink中的sql 语句中的表可以做为参数传入吗？

问题五：Flink CDC这个CDAS 在阿里云上可以实现，开源的flink 支持CDAS 整库同步吗？