问题一:Flink CDC里之前用mysql数据库join比较慢,这种join性能会比较好吗?
Flink CDC里之前用mysql数据库join比较慢,所以才改成同步宽表到es,不知道doris,starorcks 这种join性能会比较好吗?
参考答案:
Flink CDC 主要用于捕获和处理数据库变更数据流,而不是直接优化JOIN操作。MySQL数据库中JOIN性能慢可能是由于多种原因,例如索引不足、数据量大导致内存溢出、表结构设计不合理等。
Doris(百度智能云的列式存储数据分析系统)和StarRocks(一款高性能分析型数据库)都具有较好的JOIN性能特点:
- Doris:
- 列式存储:Doris采用列式存储格式,对于JOIN操作时只需要读取相关的列,大大减少了I/O开销。
- 压缩比高:列式存储压缩效率高,可以显著减少磁盘空间占用和网络传输的数据量。
- 向量化执行引擎:支持向量化计算,能够高效地对大量数据进行批量处理,提高JOIN运算效率。
- 分布式架构:通过分区、分桶等机制以及分布式查询优化技术,可以实现大规模数据上的快速JOIN。
- StarRocks:
- 极速列存:同样采用列式存储和先进的编码算法,优化了JOIN查询过程中的数据扫描和解压速度。
- MPP架构:基于大规模并行处理(MPP)架构设计,能够将JOIN计算分散到多个计算节点上并行执行,从而大大提高JOIN性能。
- 强大的索引支持:StarRocks提供Bloom Filter和主键索引等多种索引机制,有助于加速JOIN条件下的数据查找。
- 实时分析能力:支持实时数据加载与查询,即使在高并发写入场景下也能保持良好的JOIN查询性能。
因此,在实际使用中,如果将Flink CDC获取的数据同步到Doris或StarRocks这样的列式存储系统,并且合理设计表结构、利用好索引、分区等功能,JOIN性能相较于传统关系型数据库如MySQL可能会有显著提升,尤其是在大数据量的OLAP分析场景下。不过具体效果还取决于您的业务场景、数据规模及查询复杂度等因素。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/599212
问题二:Flink CDC里这个bug可以修复不?
Flink CDC里这个bug在flink-connector-oracle-cdc-3.0.1中有fix没?
https://github.com/ververica/flink-cdc-connectors/issues/2615
。finck-connector-oracle-cdc-3.0.x,依赖的debezium-core还是1.9.7.Final?
参考答案:
关于GitHub上的具体issue是否已经在flink-connector-oracle-cdc-3.0.1版本中得到修复,请直接访问提供的链接:https://github.com/ververica/flink-cdc-connectors/issues/2615 ,查看该issue的状态和讨论,以确定该问题是否已被解决或计划在哪个版本中修复。同时,针对依赖的debezium-core版本,也需要查阅Flink CDC Oracle Connector 3.0.1发布的Maven依赖信息或发行说明,以获取准确的版本信息。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/599211
问题三:flink cdc 3.0是不是还不支持flink on yarn模式?
flink cdc 3.0是不是还不支持flink on yarn模式?
参考答案:
application mode 暂时还不行, session mode 可以。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/599209
问题四:Flink CDC里有hudi的pipeline connector吗?
Flink CDC里有hudi的pipeline connector吗?
参考答案:
Flink CDC 官方并未提供与 Hudi 的直接 pipeline connector,但您可以实现自定义的 sink 将变更数据写入 Hudi。不过,社区中可能已经有第三方开发者实现了类似的集成方案。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/599208
问题五:在使用 Flink CDC 进行数据流处理时,这个 Kafka sink 是在哪里实现的?
在使用 Flink CDC 进行数据流处理时,我注意到在Flink的源码中似乎没有看到对应 Kafka 的 sink 连接器实现。然而,官方示例中提到了 Kafka sink,我想请问这个 Kafka sink 是在哪里实现的?此外,在尝试编译并运行相关的 pull request 时,无法控制发送 schema change,且发送的Log里字段名称变成了f1,f2序列,没有按预期展示字段名称。请问有人遇到相同的问题吗?
参考答案:
仅仅是demo, 具体的操作还是得看pipeline那一栏,kafka sink目前PR还没合并,
https://github.com/ververica/flink-cdc-connectors/pull/2938
关于本问题的更多回答可点击进行查看: