问题一:Flink CDC 里flink sql >= 这种底层不是filter算子么?
Flink CDC 里flink sql >= 这种底层不是filter算子么?
参考答案:
是啊,但是你开datastream。datastream可以针对不同算子设置并行度。sql是全局的。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/605836
问题二:Flink CDC 配置文档,如果需要在 sink 端配置 Doris 集群,我应该如何编写?
Flink CDC 配置文档,如果需要在 sink 端配置 Doris 集群,我应该如何编写?具体问题是,对于整库同步,我是否需要编写三个 IP 地址?如果是,这些 IP 地址和端口号的分隔符应该是逗号还是别的字符?
source:
type: mysql
name: MySQL Source
hostname: 127.0.0.1
port: 3306
username: admin
password: pass
tables: adb.., bdb.usertable[0-9]+, [app|web].order_.
server-id: 5401-5404
sink:
type: doris
name: Doris Sink
fenodes: 127.0.0.1:8030
username: root
password: pass
pipeline:
name: MySQL to Doris Pipeline
parallelism: 4
参考答案:
用doris提供的cdcjar呀。写个fe的就行,要是高可用的话,就写多个;假如你们给高可用的fe已经配代理的话,就写代理的域名就行。逗号隔开。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/605835
问题三:Flink cdc开了16并发,程序跑 < 1亿id 这里大概20分钟,怎么加快?
Flink cdc开了16并发,程序跑 < 1亿id 这里大概20分钟,后面开始同步快照数据,;
但是线上mongo的cpu扛不住,只能1个并发跑;
参考答案:
用jdbc抽数据历史数据吧,id毕竟带索引快点。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/605834
问题四:使用 MySQL CDC 同步数据到 MongoDB 时,因为 MySQL 源表数据量很大怎么办?
使用 MySQL CDC 同步数据到 MongoDB 时,因为 MySQL 源表数据量很大(3亿条记录),我尝试执行 insert into mongo select * from mysql where id > 1亿。但是程序在处理 id < 1亿 的数据时会卡住很长一段时间,之后才开始同步数据。有没有什么参数可以调整以减少这个卡顿时间?或者这个问题其实起始于 MySQL 源表的数据选择性能?有没有办法直接跳过不需要的前一亿条数据记录?
参考答案:
数据再减少拉取,用between;尽量分批,索引生效。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/605833
问题五:Flink CDC 里除了超时重试,还要什么配置调优?
Flink CDC 里除了超时重试,jobmanager、tasjmanager内存,flink还需要加什么配置去调优吗?
目前只配置了
jobmanager.memory.process.size: 1024mb
taskmanager.memory.process.size: 1600mb
延迟重试策略
akka.ask.timeout: 60s
web.timeout='1000000'
参考答案:
一般情况jobmanager内存给1个G就完全够用,tm内存根据任务的复杂度决定的,至于你说的参数无非就是配置本地预聚合,minibatch之类的,count(distinct)这种参数的优化等等还有check point的调度时长。
关于本问题的更多回答可点击进行查看: