实时计算 Flink版产品使用合集之source多并发导致时序问题如何解决-阿里云开发者社区

实时计算 Flink版产品使用合集之source多并发导致时序问题如何解决

2024-05-23 89

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： 实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

问题一：Flink CDC的source 多并发会有时序问题吗？如何解决？

Flink CDC的source 多并发会有时序问题吗？如何解决？增量数据呢，不是历史的，通过正则匹配配了多张表会有时序问题吗？分库分表以后每个库有自己的 log

参考回答：

Flink CDC的source多并发可能会导致时序问题，因为多个并行的source同时读取binlog，可能会出现数据重复或者丢失的情况。为了解决这个问题，可以使用以下方法：

使用分布式事务：在写入Hudi表之前，可以先将数据写入一个共享的缓冲区（如Kafka），然后使用分布式事务确保数据的一致性和完整性。
使用Watermark：在处理数据流时，可以使用Watermark来标记已经处理过的事件的时间戳。这样，在出现延迟的情况下，可以跳过已经处理过的事件，避免时序问题。

对于增量数据，如果通过正则匹配配了多张表，也可能会出现时序问题。解决方法与上述类似，可以使用分布式事务或者Watermark来确保数据的一致性和完整性。

关于本问题的更多回答可点击原文查看：

https://developer.aliyun.com/ask/575918

问题二：Flink CDC如果中间结果集状态过大几百m的情况下，失败的是否是全量检查点？

Flink CDC如果中间结果集状态过大几百m的情况下，我设置了官网给出的100次restart-fixed，这时候用的rocksdb后段。我看check point其中有部分成功了部分失败了，那么下次再进行检查点设置时成功的是否为增量检查点，失败的是否是全量检查点？现在非常不稳定，因为checkpoint失败导致的全量数据刷新，如何能做到大状态高可用的检查点？增量检查点如果第一次失败了那么下一次是否是执行上一次的检查点，还是执行当前最新的检查点？就忽略了上次的失败？总检查点展开我可以看到会为每个执行计划生成检查点，如果总检查点失败，但是子检查点部分成功，那么下次总检查点时无需执行成功过的检查点吧

参考回答：

Flink CDC的检查点机制是其实现容错机制的核心功能，通过周期性地基于数据流中各个操作符的状态生成快照，将这些状态数据定期持久化存储下来。这样，当Flink程序因意外崩溃时，可以依靠这些检查点恢复流中的状态和位置，从而提供与无故障执行相同的语义。

对于大状态应用，Flink提供了一些优化策略来保证检查点的可靠性。首先，应用程序需要能够可靠地创建检查点。其次，发生故障后，作业的处理速度要能赶上输入数据流。同时，Flink支持高级的状态后端（State Backends），允许存取海量的状态数据。

关于你的问题：

增量检查点和全量检查点的概念是相对的，取决于上一次成功的检查点和当前状态的差异。如果第一次失败了那么下一次会执行最新的检查点，而不会忽略上次的失败。
如果总检查点失败，但是子检查点部分成功，那么下次总检查点时无需执行成功过的检查点。
关于RocksDB后端的使用，你提到有些检查点成功了有些失败了，这可能与配置有关。你可以尝试调整相关参数以优化结果。

关于本问题的更多回答可点击原文查看：

https://developer.aliyun.com/ask/575917

问题三：Flink CDC订阅关系不断增加的表同步怎么做比较好？

Flink CDC订阅关系不断增加的表同步怎么做比较好，就是有两个表a,b，订阅字段为m,b订阅a的m=2的数据，就这一部分数据进行同步，以后订阅关系不断增加m=1,2,3,4.........这种不断变化的怎么做同步比较好？订阅关系增加m=4的时候，a表中可能存在m=4的历史数据，要保持a和b表在订阅关系上数据最终一致，

这是那个包的问题？

参考回答：

在处理订阅关系不断增加的表同步问题时，如A表和B表，其中B表订阅A表的m=2的数据，可以采用Flink CDC进行数据的实时同步。随着订阅关系不断增加，例如新增m=1,2,3,4等，你可以结合Flink SQL的方式来完成。需要注意的是，对于每增加一个订阅关系，就需要为这个关系启动一个新的作业，因为Flink CDC基于API的方式，无法在同一个作业中新增表。

此外，Flink CDC在处理数据同步时，会先同步全量历史数据，然后无缝切换到同步增量数据。如果遇到新增的插入数据，会追加到实时一致性快照中；如果是更新的数据，则会在已有历史数据里做更新。因此，无论A表中是否存在新增订阅关系的历史数据，通过Flink CDC都能够保证A表和B表在订阅关系上的数据最终一致。

同时，Flink CDC对分库分表做了非常完善的支持，在声明CDC表时支持使用正则表达式匹配库名和表名，这意味着可以匹配多个库以及这多个库下的多张表。所以无论数据库是mysql还是数据湖表，Flink CDC都可以很好地满足需求。

关于本问题的更多回答可点击原文查看：

https://developer.aliyun.com/ask/575916

问题四：FlinkCDC 官方库里没有看到对RoketMq 的支持？

现在的诉求是想通过 FlinkCDC 捕获 mysql 的数据变更然后推到RoketMq 然后我去看了一下 FlinkCDC 的官方文档，官方库里没有看到对RoketMq 的支持？

所以我想知道是不是官方就是不支持 RoketMq，在 github 看到了这个项目 https://github.com/apache/rocketmq-flink

参考回答：

FlinkCDC是Flink社区针对MySQL数据库实现的一种Change Data Capture（数据变更捕捉）解决方案，可以将MySQL的binlog转化为Flink的DataStream，实现实时同步MySQL数据库的功能。然而，根据FlinkCDC官方文档和现有的资料，当前版本的FlinkCDC并未提供对RocketMQ的支持。

不过，这并不意味着无法实现您的需求。在实际使用中，我们可以通过一些间接方式来实现MySQL数据变更捕获并推送到RocketMQ。一种可能的方式是，首先通过FlinkCDC将MySQL的数据变更信息捕获并处理为Flink的DataStream，然后通过Flink的程序将DataStream中的数据转换为符合RocketMQ消息格式的数据，最后再将这个消息发送到RocketMQ中去。这样虽然步骤较为繁琐，但理论上是可以实现您的需求的。

关于本问题的更多回答可点击原文查看：

https://developer.aliyun.com/ask/575913

问题五：Flink CDC发现oracle-cdc不会受并行优化，如何缩放单个pod的内存呢？

Flink CDC发现oracle-cdc不会受并行优化，永远并行只能为1，现在只能加tak manger内存提升加载数据性能。operator自动缩放只针对pod，如何缩放单个pod的内存呢？或者有更好的方式实现我这个问题？我想将初始化完成后将pod的内存降下来按说好像不太可能？

参考回答：

对于Flink CDC的并行优化问题，您可以尝试调整Flink CDC的并行度。增加并行度可以提高同步速度，因为并行度决定了同时处理数据的任务数量。此外，Flink CDC支持并行读取数据，如果在读取Oracle数据库时遇到同步速度慢的问题，可以尝试增加fetchTimeout参数来优化读取性能。

对于如何缩放单个pod的内存，Kubernetes提供了两种自动缩放器：Horizontal Pod Autoscaler (HPA)和Vertical Pod Autoscaler (VPA)。HPA可以自动调整运行应用程序的Pod数，而VPA则允许您动态调整单个实例的资源容量，包括CPU和内存资源量。另外，当集群资源不足时，Cluster Autoscaler会自动配置新的计算资源并添加到集群中。因此，您可以根据业务需求和系统性能情况，选择适合的自动缩放策略进行优化。

关于本问题的更多回答可点击原文查看：

https://developer.aliyun.com/ask/575907