实时计算 Flink版产品使用合集之如何打包到Kubernetes（K8s）-阿里云开发者社区

实时计算 Flink版产品使用合集之如何打包到Kubernetes（K8s）

2024-05-23 301

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

问题一：Flink CDC有没有办法可以做到cdc表更新以后就去数据库查询最新的jdbc表呢？

Flink CDC中flinksql进行一个3张表的全量加增量实时联表同步，现在我如果3张表都用cdc连接器，flink程序的内存就会涨的很快，如果设置状态过期时间，就会导致数据丢失，因为不同表的时间跨度可能会比较长

现在，我把这三张表更新最迟的一个表使用cdc连接器，其余两个使用jdbc连接器，但是flink会缓存jdbc的表，所以联表执行的不是数据库的最新数据，有没有办法可以做到cdc表更新以后就去数据库查询最新的jdbc表呢

参考答案：

把jdbc的缓存关了，用look up join

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/577407

问题二：flinkcdc2.4版本实时采集oracle19c ADG备库（只读模式），这是什么情况啊？

flinkcdc2.4版本实时采集oracle19c ADG备库（只读模式），几秒钟后程序自动结束，这是什么情况啊？用flinksql的方式没有异常信息，用datastream方式提示找不到sid。我查v$instance表，用orcl2这个sid，就会提示用户名密码错误。是因为不能创建log_mining_flush表的原因吗？oracle上也不能执行这两句，ALTER TABLE inventory.customers ADD SUPPLEMENTAL LOG DATA (ALL) COLUMNS;ALTER DATABASE ADD SUPPLEMENTAL LOG DATA;

参考答案：

看看有没有异常信息

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/577406

问题三：Flink CDC一个场景中需要关联十几张表并聚合，每次变更都会更新到Kafka很多数据？

Flink CDC一个场景中需要关联十几张表并聚合，我现在使用了upsertkafaka将这个大融合切成多个，但是现在问题是这样每个新任务基于上次的upsert Kafka数据量非常大，每次变更都会更新到Kafka很多数据？有没有更好的方式比如结合ice格式的流融合？es8 table connector pls不想走中转感觉走upsertKafka会变慢？

参考答案：

您可以考虑使用Flink CDC的流融合功能来解决这个问题。流融合可以将多个表的数据进行关联和聚合，并将结果写入到目标表中。相比于将数据写入到Kafka中再进行处理，流融合可以减少数据传输和处理的开销，提高系统的性能。

对于Iceberg格式的流融合，您可以使用Flink CDC的Iceberg Connector来实现。该连接器支持将数据写入到Iceberg表中，并提供了一些高级功能，如数据分区、数据文件管理和版本控制等。通过使用Iceberg Connector，您可以将多个表的数据进行关联和聚合，并将结果写入到Iceberg表中。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/577405