请问同一个oracle cdc表，如果flink job重新提交，是会全量读取一遍源数据还是增量呢？

请问同一个oracle cdc表，如果flink job重新提交，是会全量读取一遍源数据还是增量呢？我现在发现个现象，执行count语句时，重新开一个job，这个计数是慢慢从0往上加的

展开

收起

游客3oewgrzrf6o5c 2022-07-28 17:41:41 561 版权

阿里云 AI 助理回答

当您使用Oracle CDC源表配置Flink Job时，如果作业重新提交，其行为取决于作业配置及上一次作业的终止状态。通常情况下，Flink CDC connector为了保证数据的精确一次处理语义，会尝试从上次中断处继续读取增量数据，而不是全量重读源数据。这意味着，如果您的Flink Job是正常停止并保留了Checkpoint，那么重启后它应当从最新的Checkpoint位置开始读取binlog，进行增量同步。

您观察到执行count语句时计数从0开始慢慢增加，这可能表明存在以下几种情况： - Checkpoint未被利用：可能是新启动的Job没有成功加载之前的Checkpoint信息，导致从头开始读取。 - 配置问题：确保您的Flink Job配置正确地指定了Checkpoint存储位置，并且在重启时能够访问这些Checkpoint。 - 源数据变更：如果在Job重启前后的短时间内源表有大量数据变动（如大量插入或更新操作），而此时Job恰好从头开始读取，可能会给人以“全量读取”的错觉，实际上是在快速同步这段时间内的增量变化。 - 异常终止：如果上一个Job是非正常终止（例如因错误崩溃），Flink可能无法恢复Checkpoint，从而不得不重新开始读取数据。

为了解决这个问题，建议您检查以下几个方面： - 确认Flink配置中是否正确设置了Checkpoint，并且新启动的Job能够访问这些Checkpoint。 - 查看JobManager和TaskManager的日志，确认是否存在加载Checkpoint失败的错误信息。 - 验证您的Oracle CDC连接器配置，确保启用了恰当的起始位点策略，比如latest-offset（最新偏移量）或specific-offsets（特定偏移量），以及是否根据需要指定了正确的起始SCN或时间戳。 - 如果持续观察到从头开始读取的情况，考虑检查数据库日志，确认是否有任何可能导致CDC连接器认为需要重新初始化读取位置的事件。

综上所述，理论上Flink Job应尽可能从Checkpoint恢复进行增量读取，但实际表现需依据具体配置与运行状况来确定。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

Oracle 关系型数据库流计算实时计算 Flink版

问答标签：

实时计算 Flink版CDC oracle实时计算 Flink版 Oracle数据库一键上云flink 实时计算 Flink版数据实时计算 Flink版job

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199213

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

基于springboot的古树名木保护管理系统

数据同步神器-Canal

改了 Nacos 一行配置，搞崩线上支付系统！

基于springboot的民宿预定管理系统

云栖重磅｜瑶池数据库：从云原生数据底座向“AI就绪”的多模态数据底座演进

请问同一个oracle cdc表，如果flink job重新提交，是会全量读取一遍源数据还是增量呢？

实时计算 Flink

相关文章

热门讨论

热门文章