问题一:请问下flink cdc有提供什么手段对比源端和目标端同步数据一致性的方案没?
请问下flink cdc有提供什么手段对比源端和目标端同步数据一致性的方案没?
参考回答:
看一下这个:社区开发了flink-cdc-connectors 组件,这是一个可以直接从 MySQL、PostgreSQL 等数据库直接读取全量数据和增量变更数据的 source 组件。目前也已开源,开源地址:
https://github.com/ververica/flink-cdc-connectors
flink-cdc-connectors 可以用来替换 Debezium+Kafka 的数据采集模块,从而实现 Flink SQL 采集+计算+传输(ETL)一体化,这样做的优点有以下:
· 开箱即用,简单易上手 · 减少维护的组件,简化实时链路,减轻部署成本 · 减小端到端延迟 · Flink 自身支持 Exactly Once 的读取和计算 · 数据不落地,减少存储成本 · 支持全量和增量流式读取 · binlog 采集位点可回溯
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/465765?spm=a2c6h.14164896.0.0.1bf2d9dfeERj61
问题二:请问 一个flink-cdc 任务 可以连 俩个不同mysql数据源吗? 二个完全不同的 mysql实例
请问 一个flink-cdc 任务 可以连 俩个不同mysql数据源吗? 二个完全不同的 mysql实例
参考回答:
可以
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/452531?spm=a2c6h.14164896.0.0.1bf2d9dfeERj61
问题三:我这边目前情况是:oracle cdc,flink1.16版本,我启动了三十多个job,每个job都是多张表进行关联,目前oracle源表数据量不大,但是启动之后会将oracle服务器(100G内存左右)资源耗尽,最后报错ora-04030,不知道有没有遇见过类似的情况,如何调优之类的
Flink CDC 大家好,请教个问题,我这边目前情况是:oracle cdc,flink1.16版本,我启动了三十多个job,每个job都是多张表进行关联,目前oracle源表数据量不大,但是启动之后会将oracle服务器(100G内存左右)资源耗尽,最后报错ora-04030,不知道有没有遇见过类似的情况,如何调优之类的
参考回答:
报错内存不足,建议先排查一下多表关联的时候是否有笛卡尔积的情况,如果代码整体没有问题,可以看一下PGA和SGA的占比,然后show parameter sga_max_size看一下单个进程的最大值,如果太小,可以调大再尝试
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/472013?spm=a2c6h.14164896.0.0.1bf2d9dfeERj61
问题四:需要create table,这样对用不是太方便。理想方式,只需要配置数据源连接,通过catalog 自动查找表。flink cdc 怎么定制这样的catalog? SELECT id, UPPER(name), description, weight FROM mysql_binlog;
需要create table,这样对用不是太方便。理想方式,只需要配置数据源连接,通过catalog 自动查找表。flink cdc 怎么定制这样的catalog? SELECT id, UPPER(name), description, weight FROM mysql_binlog;
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/470517?spm=a2c6h.14164896.0.0.1bf2d9dfeERj61
问题五:源端mysql中 A B C 三张表是同一个事物处理的,那我通过flink cdc实时同步到目标数据库,有没有也能够保证A B C三张表的数据同时同步过去呢?现在分成了3个JOB,发现有时候数据有点对不上
请教个问题,源端mysql中 A B C 三张表是同一个事物处理的,那我通过flink cdc实时同步到目标数据库,有没有也能够保证A B C三张表的数据同时同步过去呢?现在分成了3个JOB,发现有时候数据有点对不上
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/469584?spm=a2c6h.14164896.0.0.1bf2d9dfeERj61