开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC里之前用mysql数据库join比较慢,这种join性能会比较好吗?

Flink CDC里之前用mysql数据库join比较慢,所以才改成同步宽表到es,不知道doris,starorcks 这种join性能会比较好吗?

展开
收起
小小鹿鹿鹿 2024-02-25 22:43:41 108 0
4 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在Flink CDC中,使用Doris和Starrocks进行join操作的性能可能会比MySQL数据库要好。这是因为Doris和Starrocks都是为大规模数据分析而设计的高性能数据库系统,它们在处理大量数据的join操作时具有优化的策略和技术。具体如下:

    Doris的优势

    • Doris是一个MPP(大规模并行处理)架构的数据库,它能够支持高速的数据加载和实时分析查询。
    • Doris支持向量化执行引擎,这可以显著提高数据处理的效率。
    • Doris还提供了多种优化手段,如数据分区、列存等,这些都有助于提高查询性能。

    Starrocks的优势

    • Starrocks支持多种分布式Join策略,并且其CBO(成本基于优化器)可以自动选择最适合当前场景的Join策略。
    • Starrocks的设计目标是提供极速的分析查询性能,特别是在大数据量和复杂查询的场景下。
    • Starrocks与Flink有很好的集成方案,可以构建实时数仓,这对于需要实时分析和决策的业务场景非常有利。

    综上所述,如果之前使用MySQL数据库在Flink CDC中进行join操作时遇到性能瓶颈,那么考虑使用Doris或Starrocks可能会带来性能上的提升。不过,具体的性能提升程度还需要根据实际的数据量、查询复杂度以及系统配置等因素进行测试和评估。此外,选择哪个数据库还需要考虑其他因素,如系统的易用性、稳定性、社区支持和成本等。在实际应用前,建议进行充分的测试和评估,以确保选择的数据库能够满足业务需求并发挥最佳性能。

    2024-02-26 13:19:17
    赞同 展开评论 打赏
  • 如果你使用Flink做的是流与流之间的JOIN或者是流与静态数据集的JOIN,并且能够充分利用其时间窗口、事件时间特性以及状态管理机制的话,在合理设计的状态大小和数据倾斜控制下,JOIN性能可以得到较好保证。

    2024-02-26 12:32:27
    赞同 展开评论 打赏
  • Flink本身具有良好的流式处理能力,而Doris、StarRocks等列式存储数据库系统设计上优化了OLAP查询性能,特别是JOIN操作。相较于传统的关系型数据库如MySQL,它们在处理大规模数据JOIN时可能会有更好的表现。但是,JOIN性能还取决于多种因素,包括索引策略、数据分布、并发度、硬件资源等。建议根据实际业务场景测试验证不同方案下的JOIN性能。

    2024-02-26 11:06:12
    赞同 展开评论 打赏
  • Flink CDC 主要用于捕获和处理数据库变更数据流,而不是直接优化JOIN操作。MySQL数据库中JOIN性能慢可能是由于多种原因,例如索引不足、数据量大导致内存溢出、表结构设计不合理等。

    Doris(百度智能云的列式存储数据分析系统)和StarRocks(一款高性能分析型数据库)都具有较好的JOIN性能特点:

    1. Doris

      • 列式存储:Doris采用列式存储格式,对于JOIN操作时只需要读取相关的列,大大减少了I/O开销。
      • 压缩比高:列式存储压缩效率高,可以显著减少磁盘空间占用和网络传输的数据量。
      • 向量化执行引擎:支持向量化计算,能够高效地对大量数据进行批量处理,提高JOIN运算效率。
      • 分布式架构:通过分区、分桶等机制以及分布式查询优化技术,可以实现大规模数据上的快速JOIN。
    2. StarRocks

      • 极速列存:同样采用列式存储和先进的编码算法,优化了JOIN查询过程中的数据扫描和解压速度。
      • MPP架构:基于大规模并行处理(MPP)架构设计,能够将JOIN计算分散到多个计算节点上并行执行,从而大大提高JOIN性能。
      • 强大的索引支持:StarRocks提供Bloom Filter和主键索引等多种索引机制,有助于加速JOIN条件下的数据查找。
      • 实时分析能力:支持实时数据加载与查询,即使在高并发写入场景下也能保持良好的JOIN查询性能。

    因此,在实际使用中,如果将Flink CDC获取的数据同步到Doris或StarRocks这样的列式存储系统,并且合理设计表结构、利用好索引、分区等功能,JOIN性能相较于传统关系型数据库如MySQL可能会有显著提升,尤其是在大数据量的OLAP分析场景下。不过具体效果还取决于您的业务场景、数据规模及查询复杂度等因素。

    2024-02-26 10:01:03
    赞同 1 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载