问题一:Flink CDC首次全量同步几百万数据,状态后端增量方式的rocksdb,正常的吗?
Flink CDC首次全量同步几百万数据,状态后端增量方式的rocksdb,目前Checkpointed Data Size 基本接近Full Checkpoint Data Size大小,正常的吗?ck耗时也很长,请问可以从哪些方面优化优化?
参考答案:
Flink CDC首次全量同步几百万数据,状态后端增量方式的rocksdb,目前Flink CDC首次全量同步几百万数据,状态后端增量方式的rocksdb,目前Checkpointed Data Size基本接近Full Checkpoint Data Size大小,这是正常的。ck耗时也很长,可以从以下几个方面优化:
- 调整checkpoint间隔时间,缩短checkpoint时间。
- 调整statebackend的大小,增加statebackend的容量。
- 调整并行度,提高处理速度。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/587176
问题二:再确认下Flink CDC中, 解析100个库的binlog的账号密码,需要哪些权限,只读行不行?
再确认下Flink CDC中, 解析100个库的binlog的账号密码,需要哪些权限,只读行不行?
参考答案:
官方网站写的很清楚 https://ververica.github.io/flink-cdc-connectors/master/
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/587175
问题三:问个Flink CDC问题,如果我要把100个库合到一个库,那flink需要100个库权限?
问个Flink CDC问题,如果我要把100个库合到一个库,那flink需要100个库权限?
参考答案:
给个superadmin就行了
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/587173
问题四:我问一下flink-cdc postgresql应该配置哪个参数?
我问一下flink-cdc postgresql的配置只需要最新的数据不需要执行快照,应该配置哪个参数?
参考答案:
2.4
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/587172
问题五:各位有没有遇到过spark sql查询hudi 数据时没有办法查到flink cdc ?
各位有没有遇到过spark sql查询hudi 数据时没有办法查到flink cdc 同步到hudi实时数据的变化,用hive是没有问题的。但是我重开一个spark sql客户端数据就能发现变化了?
参考答案:
应该是 Spark 有缓存,设置 spark.sql.filesourceTableRelationCacheSize = 0 试下
关于本问题的更多回答可点击进行查看: