实时计算 Flink版产品使用合集之采集Oracle数据库时，归档日志大小暴增的原因是什么-阿里云开发者社区

实时计算 Flink版产品使用合集之采集Oracle数据库时，归档日志大小暴增的原因是什么

2024-05-23 93

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： 实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

问题一：Flink CDC中datax可能了解多一点，觉得对比一下，为什么flink不适合做全量同步了吗？

Flink CDC中datax可能了解多一点，觉得对比一下，你知道为什么flink不适合做全量同步了，有哪些因素考虑？现在用到datax

参考答案：

flink针对oracle全量是基于闪回查询的模式，如果表DML特别多完全从undo里面构建前镜像的，这个速度快不起来，同时undo可能覆盖也会导致全量失败。针对oracle还不能多线程，只单线模式。其他工具单纯抽取全量且支持并行，速度肯定很快

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/579932

问题二：Flink CDC想了解选型哪个工具更适合，有对比过常用的大数据全量工具吗？

Flink CDC想了解选型哪个工具更适合，有对比过常用的大数据全量工具吗？

参考答案：

主要看你们自己常用全量同步工具，都差不多

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/579931

问题三：Flink CDC中oracle cdc 导致数据库日志空间暴增这个有办法解决嘛？

Flink CDC中oracle cdc 导致数据库日志空间暴增这个有办法解决嘛？

参考答案：

配置Oracle数据库进行日志切换和归档，确保旧的日志文件能够被清理，从而释放磁盘空间。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/579929

问题四：Flink CDC withIdleness 如果一直没有数据进入会触发吗？

Flink CDC withIdleness 如果一直没有数据进入会触发吗？但是某个分区是要数据的只是没有达到水印触发的阈值

参考答案：

在Flink CDC中，如果有窗口中没有数据，即使有数据的窗口的watermark到达了触发边界，由于barren没有对齐，这个窗口也不会被触发进行计算。这样的空窗口被称为空闲窗口。

对于你提到的某个分区有数据但是没有达到水印触发的阈值的情况，Flink CDC 的 withIdleness 参数可以解决。该参数允许设置一个空闲时间，当窗口在这个时间内没有接收到任何新数据时，就会触发计算。因此，即使你的某个分区的数据没有达到触发阈值，只要设置了合适的 withIdleness 时间，也能保证数据的同步处理。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/579928

问题五：pgsql的flinkcdc怎么用呀？

pgsql的flinkcdc怎么用呀？

参考答案：

使用Flink CDC进行PostgreSQL的实时数据同步，首先需要准备PostgreSQL的数据库配置。具体步骤如下：

进入PostgreSQL数据的容器。
编辑postgresql.conf配置文件，将wal日志方式更改为logical，solts最大数量设置为适合的值。

接下来，你可以开始创建Flink作业来读取PostgreSQL的数据变更。在Flink中，你可以使用DataStream API或者Flink SQL API来定义和执行CDC任务。具体的操作步骤，你可以参考一些在线教程。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/579927

实时计算 Flink版产品使用合集之采集Oracle数据库时，归档日志大小暴增的原因是什么

问题一：Flink CDC中datax可能了解多一点，觉得对比一下，为什么flink不适合做全量同步了吗？

问题二：Flink CDC想了解选型哪个工具更适合，有对比过常用的大数据全量工具吗？

问题三：Flink CDC中oracle cdc 导致数据库日志空间暴增这个有办法解决嘛？

问题四：Flink CDC withIdleness 如果一直没有数据进入会触发吗？

问题五：pgsql的flinkcdc怎么用呀？