实时计算 Flink版产品使用问题之需要在sink端配置Doris集群，该如何编写-阿里云开发者社区

实时计算 Flink版产品使用问题之需要在sink端配置Doris集群，该如何编写

2024-06-16 33

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： 实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

问题一：Flink CDC 里flink sql >= 这种底层不是filter算子么？

Flink CDC 里flink sql >= 这种底层不是filter算子么？

参考答案：

是啊，但是你开datastream。datastream可以针对不同算子设置并行度。sql是全局的。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/605836

问题二：Flink CDC 配置文档，如果需要在 sink 端配置 Doris 集群，我应该如何编写？

Flink CDC 配置文档，如果需要在 sink 端配置 Doris 集群，我应该如何编写？具体问题是，对于整库同步，我是否需要编写三个 IP 地址？如果是，这些 IP 地址和端口号的分隔符应该是逗号还是别的字符？

source:

type: mysql

hostname: 127.0.0.1

port: 3306

username: admin

password: pass

tables: adb.., bdb.usertable[0-9]+, [app|web].order_.

server-id: 5401-5404

sink:

type: doris

fenodes: 127.0.0.1:8030

username: root

password: pass

pipeline:

parallelism: 4

参考答案：

用doris提供的cdcjar呀。写个fe的就行，要是高可用的话，就写多个；假如你们给高可用的fe已经配代理的话，就写代理的域名就行。逗号隔开。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/605835

问题三：Flink cdc开了16并发，程序跑 < 1亿id 这里大概20分钟，怎么加快？

Flink cdc开了16并发，程序跑 < 1亿id 这里大概20分钟，后面开始同步快照数据，；

但是线上mongo的cpu扛不住，只能1个并发跑；

参考答案：

用jdbc抽数据历史数据吧，id毕竟带索引快点。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/605834

问题四：使用 MySQL CDC 同步数据到 MongoDB 时，因为 MySQL 源表数据量很大怎么办？

使用 MySQL CDC 同步数据到 MongoDB 时，因为 MySQL 源表数据量很大（3亿条记录），我尝试执行 insert into mongo select * from mysql where id > 1亿。但是程序在处理 id < 1亿的数据时会卡住很长一段时间，之后才开始同步数据。有没有什么参数可以调整以减少这个卡顿时间？或者这个问题其实起始于 MySQL 源表的数据选择性能？有没有办法直接跳过不需要的前一亿条数据记录？

参考答案：

数据再减少拉取，用between；尽量分批，索引生效。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/605833

问题五：Flink CDC 里除了超时重试，还要什么配置调优？

Flink CDC 里除了超时重试，jobmanager、tasjmanager内存，flink还需要加什么配置去调优吗？

目前只配置了

jobmanager.memory.process.size: 1024mb

taskmanager.memory.process.size: 1600mb

延迟重试策略

akka.ask.timeout: 60s

web.timeout='1000000'

参考答案：

一般情况jobmanager内存给1个G就完全够用，tm内存根据任务的复杂度决定的,至于你说的参数无非就是配置本地预聚合，minibatch之类的，count(distinct)这种参数的优化等等还有check point的调度时长。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/605832

实时计算 Flink版产品使用问题之需要在sink端配置Doris集群，该如何编写

问题一：Flink CDC 里flink sql >= 这种底层不是filter算子么？

问题二：Flink CDC 配置文档，如果需要在 sink 端配置 Doris 集群，我应该如何编写？

问题三：Flink cdc开了16并发，程序跑 < 1亿id 这里大概20分钟，怎么加快？

问题四：使用 MySQL CDC 同步数据到 MongoDB 时，因为 MySQL 源表数据量很大怎么办？

问题五：Flink CDC 里除了超时重试，还要什么配置调优？

实时计算 Flink

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景