开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC更适合做报警这类实时性要求高,对数据准确性没有很高要求的?

Flink CDC不用来做多张大表的实时join,理由是状态太大,出问题不好排查,flink更适合做报警这类实时性要求高,对数据准确性没有很高要求的?

展开
收起
真的很搞笑 2023-11-07 08:05:17 60 0
3 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    Flink CDC 能够用于多张大表的实时 Join,但也需要注意一些问题。
    首先,由于 Flink CDC 在处理大量数据时需要存储中间状态,所以在处理多张大表的实时 Join 时可能会导致状态过大。如果状态过大,会导致内存溢出等问题,严重影响系统的稳定性和性能。此时,可以考虑减少 Join 操作的规模,采用分批或分片的方式,降低单次 Join 的数据量。
    其次,Flink CDC 本身也存在一定的局限性,例如其对状态管理的能力相对较弱,不能很好地应对大数据量和复杂的查询场景。在这种情况下,可能需要借助其他工具或服务进行配合,比如 Apache Spark、Apache Hive 等。
    最后,在进行实时 Join 时,还需要考虑数据质量问题,包括数据延迟、数据乱序等问题,这些问题可能导致 Join 结果的准确性受到影响。

    2023-11-07 14:28:20
    赞同 1 展开评论 打赏
  • 是的,你的理解是正确的。Flink CDC的主要目的是用于实时的数据同步和事件驱动型的应用,例如数据仓库的增量更新,或者是实时的数据分析。在这些场景下,数据的正确性和完整性是非常重要的,因此Flink CDC提供了丰富的处理机制,包括事务的完整捕获,以及数据的校验和重放等。

    然而,对于多张大表的实时join,由于需要处理大量的状态,并且需要对数据进行复杂的计算,这可能会对Flink的任务性能和稳定性产生影响。此外,如果数据出现问题,例如数据的不一致,或者数据的丢失等,这可能会对join的结果产生影响,从而影响到最终的数据准确性。

    因此,对于多张大表的实时join,我们通常会推荐使用其他的数据处理框架,例如Apache Spark,或者是专门的实时数据处理平台,例如Google Cloud Dataflow,Amazon Kinesis Analytics等。这些框架和平台通常提供了更强大的数据处理能力,以及更完善的错误处理机制,可以更好地应对这类复杂的数据处理任务。

    2023-11-07 10:04:44
    赞同 展开评论 打赏
  • Flink CDC可以用于多张大表的实时join操作,在处理大规模数据时,Flink CDC可能会面临状态过大导致的问题,这可能会对系统的稳定性和性能产生影响。

    Flink是一个开源的分布式流处理框架,适用于处理大规模的数据流。它具有高效的分布式计算能力,能够处理实时数据流并快速响应事件。

    对于需要实时join多张大表的情况,Flink在处理状态较大的情况下可能会遇到性能问题。

    对于大规模数据的实时join操作,可以考虑使用其他更适合的解决方案。例如,可以将数据流进行分片或者分区,然后使用Flink或其他流处理框架进行局部join操作。

    Flink CDC核心技术解析https://help.aliyun.com/zh/flink/videos/core-technologies-of-flink-cdc/?spm=a2c4g.11186623.0.i19

    2023-11-07 08:48:19
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载