问题一:flink cdc单测要配docker环境,这个有文档吗?
flink cdc单测要配docker环境,这个有文档吗?
参考答案:
Flink CDC是一个基于数据库日志CDC(Change Data Capture)技术的实时数据集成框架Flink CDC是一个基于数据库日志CDC(Change Data Capture)技术的实时数据集成框架,支持全增量一体化、无锁读取、并行读取、表结构变更自动同步、分布式架构等高级特性。这种机制可以很好地做到增量同步,支持全增量一体化同步,也支持断点续传和全量同步。因此,Flink CDC是非常适合用于线上环境的数据同步工具。
然而,要注意的是,不同的Kafka版本依赖可能会造成CDC报错。此外,在使用Flink CDC时,可能遇到的一些常见问题也需要提前了解和准备,以便及时解决可能出现的问题。
总的来说,Flink CDC具有很多优点,包括高效的海量数据实时集成能力、强大的管道能力和丰富的上下游生态等。但是,使用时也要考虑到其对环境和配置的一些特定需求和可能的问题。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/584672
问题二:Flink CDC有遇到在docker 里面相差8小时的吗?
Flink CDC有遇到在docker 里面相差8小时的吗?
参考答案:
参考下:docker获取数据库时间相差8小时
https://blog.csdn.net/qq_35746739/article/details/127071508
有时我们在用docker时总会发现Docker容器时间与主机时间不一致,其实在docker容器和系统时间不一致是因为docker容器的原生时区为0时区,而国内系统为东八区
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/584671
问题三:Flink CDC中oracle是两台组成的rac, 通过cdc采集只配置了一台,这个有影响吗?
Flink CDC中oracle是两台组成的rac, 通过cdc采集只配置了一台,这个有影响吗?
参考答案:
不会
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/584670
问题四:Flink-CDC-tidb在读取存量数据时是将数据直接全量的读取吗?
Flink-CDC-tidb在读取存量数据时是将数据直接全量的读取吗?自测发现Flink-CDC-tdib读取存量数据的时候都是需要不亚于存量数据大小的内存,也没做检查点,有大佬知道原因吗?Flink-CDC-2.3.0
参考答案:
Flink-CDC-TiDB在读取存量数据时,并不是将数据直接全量地读取。它使用了流式处理的方式,通过不断地监听数据库的binlog来获取增量数据。对于存量数据,Flink-CDC-TiDB会先进行一次全量数据的读取,并将结果存储在状态中,然后从该状态开始读取增量数据。
关于内存占用的问题,Flink-CDC-TiDB在读取存量数据时确实需要较大的内存空间。这是因为它需要将存量数据加载到内存中进行处理和存储。如果存量数据非常大,可能会导致内存不足的情况发生。此外,Flink-CDC-TiDB目前还没有实现检查点机制,因此在发生故障时可能会丢失一部分数据。
如果你遇到了内存不足的问题,可以尝试以下几种解决方法:
- 增加系统可用的内存资源;
- 调整Flink-CDC-TiDB的配置参数,如调整内存缓冲区的大小等;
- 优化数据处理逻辑,减少内存的使用;
- 如果可能的话,可以考虑使用其他支持检查点的流式处理框架来替代Flink-CDC-TiDB。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/584668
问题五:Flink CDC通过打印sourceRecord发现确实没有收到丢失的数据,有知道什么情况吗?
Flink CDC通过打印sourceRecord发现确实没有收到丢失的数据,有大佬知道什么情况吗?
参考答案:
建议从 archive log 是否是每台机器都会同步update 的方向去考虑 ,我没用过oracle ,你可以检查下 ,如果不是你配置的节点执行的CURD操作,相关日志是否会同步到你配置的节点,具体的命令需要你自己去找资料
关于本问题的更多回答可点击进行查看: