问题一:flinkCDC任务执行一周后,task managers就会挂掉,请问一般是什么情况呢?
flinkCDC任务执行一周后,task managers就会挂掉,请问一般是什么情况呢?有什么办法去解决或者是内存调优的办法么?
参考回答:
建议看报错日志
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/572217
问题二:flink cdc oracle connector 是否支持从只读备库实时抽取数据?
flink cdc oracle connector 是否支持从oracle dataguard 只读备库实时抽取数据?看debezium从2.2版本已经支持
参考回答:
cdc dbz 版本是 1.9.7
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/566193
问题三:Flink CDC的增量同步,有没有要求一定要有HDFS?
Flink CDC的增量同步,有没有要求一定要有HDFS?也就是一定要有这样一个分布式的文件系统,对吧?
参考回答:
这就取决于你flink集群的状态后端怎么配置,也可以是oss,s3之类的,也可以放在内存里,只要你内存吃的住,目前只支持这些
不过你可以魔改实现
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/572214
问题四:只用Flink Cdc不用Flink集群,要保证同步效率这个应该如果做呢?
只用Flink Cdc不用Flink集群,要保证同步效率这个应该如果做呢?这个Flink CDC有没有同步效率相关的参考文档呢?代码层面允许有依赖,提交任务的也必须要依赖Flink集群吗?我看使用案例,没有Flink集群好像也可以获取到变动的数据的呢?
参考回答:
flink-cdc依赖flink,所有是必须有flink的,必须依赖flink,除非你自己独立部署debezium,使用debezium取采集数据
如果你i使用增量快照算法,并发越多越快,其次,还需要考虑下游数据的接受能力
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/572213
问题五:Flink CDC从select开始时间那个位置的binlog开始增量读取是吧?
Flink CDC读取数据的时候在读取全量select的时候就开始记录select开始那会的binlog的位置,然后全量读完了,就从select开始时间那个位置的binlog开始增量读取是吧?
参考回答:
是的,Flink CDC 在启动全量读取之前会记录 Binlog 的位置,当全量读取结束后,Flink CDC 会从记录的 Binlog 位点开始读取增量数据。这种机制允许 Flink CDC 精准地跟踪源数据库中的数据变更,并且只同步变更的数据,从而提高数据处理的效率。
需要注意的是,如果全量读取耗时太长,超过了 MySQL Binlog 的淘汰周期(默认为 7200 秒),可能会导致 Flink CDC 在全量读取结束后无法找到对应的 Binlog 位点,因为该位点的数据可能已经被 MySQL 清理掉了。在这种情况下,你可能需要重新运行一次全量读取操作。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/572212