Flink CDC难道不该取解析的最后一个日志文件的endscn来递进吗？

Flink CDC难道不该取解析的最后一个日志文件的endscn来递进吗

展开

收起

真的很搞笑 2023-11-15 08:18:45 38 0

2 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
Flink CDC 通常应该使用最新事务的 SCN（System Change Number）作为下次解析的日志文件起始 SCN。这是因为 Flink CDC 需要在事件发生时立即捕获更改，并尽可能减少重复或丢失的数据。
如果 Flink CDC 使用上一次解析结束时的日志文件作为起始 SCN，则可能存在以下问题：
1. 数据延迟：因为 Flink CDC 需要在事件发生时立即捕获更改，所以如果它等待直到事务结束才能开始解析，则可能导致某些更改被忽略或延迟。
2. 重复数据：如果事务在 Flink CDC 开始读取新日志文件之前未完成，则 Flink CDC 可能会多次读取相同的更改。这种情况可能导致重复数据。
3. 错误检查：如果 Flink CDC 使用上一次解析结束时的日志文件作为起始 SCN，则可能无法检测到尚未完全记录到日志文件中的事务。
2023-11-15 22:26:17

赞同展开评论打赏
sunrr

Flink CDC在处理源数据库的变更时，通常是通过解析日志文件（如Transaction log、Binary log、Write-ahead log等）来获取数据的变动信息。当数据源表发生变动时，会将这些操作记录下来，然后下游可以通过订阅并消费这些事件，对数据库变动记录进行重放，从而实现同步。

对于如何确定读取的起始位置，Flink CDC确实会考虑使用最后解析到的日志文件的endscn作为起始点。这种方式可以保证从最新的数据变更开始读取，避免重复处理已经处理过的数据。然而，如果在这个过程中出现任何问题，比如无法解析某个日志文件，那么Flink CDC会跳过这个文件，继续处理下一个可用的文件。

总的来说，Flink CDC的设计旨在提供一种高效且可靠的方式，来捕获并处理源数据库的数据变更。无论是在全量同步阶段还是在后续的增量同步阶段，Flink CDC都会尽力确保数据的一致性和准确性。

2023-11-15 09:34:50

赞同 1 展开评论打赏