文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC里oracle启动，数据丢失的情况，打击碰到过吗？

Flink CDC里oracle启动，数据丢失的情况，打击碰到过吗？

展开

收起

小小鹿鹿鹿 2024-04-02 23:07:41 260 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

阿里云 AI 助理回答

在使用Flink CDC读取Oracle数据库时，数据丢失的情况确实可能发生。根据知识库中的相关资料，以下是可能导致数据丢失的原因及解决方案：

1. Oracle LogMiner配置问题

原因：如果Oracle数据库启用了PDB（Pluggable Database）模式，而未正确配置debezium.database.pdb.name参数，可能会导致LogMiner无法正确解析PDB的补偿日志，从而引发数据丢失。
解决方案：
- 确保在CDB（Container Database）中正确配置debezium.database.pdb.name参数，以支持PDB模式下的日志解析。
- 检查是否已开启补偿日志（Supplemental Logging），可以通过以下SQL命令确认：
```
SELECT * FROM dba_log_groups WHERE table_name = 'PF_ID_NAME_PK';
```
  如果未开启，需执行以下命令启用：
```
ALTER DATABASE ADD SUPPLEMENTAL LOG DATA (ALL) COLUMNS;
```

2. 表结构变更或字段名不匹配

原因：当Oracle表的字段名大小写与Flink作业中定义的字段名不一致时，可能会导致数据无法正确映射，进而被丢弃。
解决方案：
- 确保Flink作业中字段的大小写与Oracle表的字段完全一致。
- 如果表结构发生变更（如新增列），需要确保下游系统能够兼容这些变更。

3. Binlog位点设置不当

原因：如果Flink CDC作业从指定的Binlog位点启动（例如通过scan.startup.mode参数设置为specific-offset或timestamp），但位点设置不准确，可能会跳过部分数据，导致数据丢失。
解决方案：
- 使用scan.startup.mode参数时，确保位点设置正确。例如：
  - earliest-offset：从最早可用的Binlog位点开始读取。
  - latest-offset：从最新的Binlog位点开始读取。
  - timestamp：从指定时间戳开始读取。
- 如果不确定位点，建议从earliest-offset开始读取，以避免遗漏数据。

4. 全量阶段到增量阶段切换问题

原因：在Flink CDC作业从全量阶段切换到增量阶段时，如果未能正确记录Binlog位点，可能会导致部分数据丢失。
解决方案：
- 监控currentEmitEventTimeLag指标，判断作业是否已完成全量数据同步：
  - 当currentEmitEventTimeLag小于等于0时，表示仍在全量同步阶段。
  - 当currentEmitEventTimeLag大于0时，表示已进入增量同步阶段。
- 检查MySQL CDC源表所在的TaskManager日志，确认是否存在BinlogSplitReader is created日志，以验证全量数据是否已读取完成。

5. 连接器版本问题

原因：不同版本的Oracle CDC连接器可能存在Bug，例如Oracle CDC 2.4版本中存在LOG_MINING_FLUSH表重建问题，可能导致数据丢失。
解决方案：
- 确保使用最新版本的Oracle CDC连接器。例如，Dataphin V3.13版本后使用的是Oracle CDC 2.4版本。
- 如果遇到特定版本的Bug，可以参考社区或官方文档进行修复。例如，手动在CDB实例中重建LOG_MINING_FLUSH表。

6. 乱序数据处理不当

原因：如果Oracle数据库中存在乱序数据，且Flink作业未正确设置Watermark策略，可能会导致部分数据被误认为是迟到数据而被丢弃。
解决方案：
- 使用Print Sink或Log4j方式确认数据源中是否存在乱序数据。
- 根据乱序程度，合理设置Watermark生成策略。例如：
```
WATERMARK FOR event_time AS event_time - INTERVAL '5' SECOND;
```
- 对于迟到数据，可以通过延迟触发窗口计算的方式进行处理。

7. 其他潜在问题

权限不足：如果Flink CDC作业使用的数据库用户权限不足，可能会导致部分数据无法读取。
- 解决方案：确保用户具有足够的权限，例如SELECT ANY TRANSACTION和LOGMINING权限。
表名长度超限：如果表名或列名长度超过30个字符，可能会导致LogMiner无法正确解析。
- 解决方案：限制表名和列名长度不超过30个字符。

总结

数据丢失问题可能由多种原因引起，包括LogMiner配置、表结构变更、Binlog位点设置、连接器版本等。建议按照上述步骤逐一排查，并结合监控指标（如currentEmitEventTimeLag）和日志信息进行验证。如果问题仍未解决，可以提交工单联系阿里云技术支持团队获取进一步帮助。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

流计算关系型数据库 Oracle 实时计算 Flink版

问答标签：

实时计算 Flink版CDC Oracle数据库一键上云flink 实时计算 Flink版oracle flink cdc Oracle数据库一键上云 flink Oracle数据库一键上云

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

flink cdc oracle 19c 权限不足问题

363

1

0

在Flink CDC中，有没有发现同步Oracle数据，会出现部分列数据丢失的现象呢？

202

1

0

在Flink CDC中同步oracle的时候报这个错，怎么解决？

181

0

0

在Flink CDC中ORACLE19C CDB+PDB 抽取数据，是不是只能从主库去抽取？

351

1

0

flink cdc采集oracle 的adg备份库报错，这种情况如何解决？

672

7

0

oracle只读备库可以读取Flink CDC吗？

201

1

0

Flink CDC有没有人碰到oracle cdc 的scn不更新的问题？

321

0

0

Flink cdc3.0.1，oracle11,在源库首次插入数据的时候报错怎么办？

199

1

0

Flink CDC里oracle全量的时候卡在这里不动了怎么回事呀？

241

1

0

Flink CDC里oracle当表没有主键的时候，按照两个字段组合定义一个主键，怎么回事？

256

0

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

阿里云数据管理DMS对接使用全流程：从零搭建企业级数据管控平台

阿里云负载均衡 SLB 终极教程：从零构建高性能网站高可用部署方案

业务量暴增弹性扩展首选：阿里云 PolarDB-X 在线扩缩容不停机实践

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

Flink CDC 能适配达梦不？

flinkcdc在IDEA运行正常，打包就报错

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

有用flink cdc同步mysql到hive这样搞过的源码吗?

在Flink想实时汇总数据，类似数据大屏功能，应该用阿里云Flink的什么功能服务？

flink CDC 当第一次全量正常输出后，源表中数据任何变更就无法再被捕获到了，为什么？

如何用实时数据同步打破企业数据孤岛？

Flink CDC全量没问题，增量报错 file is not a valid field name

展开全部

数据仓库介绍与实时数仓案例

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

实时计算 Flink SQL 核心功能解密

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

流计算精品翻译: The Dataflow Model

接着！！Apache Flink 全领域干货合集（持续更新）

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

广告场景下的实时计算

史上超强阵容！大数据及人工智能领域顶级盛会，Flink Forward Asia 2019 不容错过！

展开全部

还有其他疑问?