开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

咨询一个Flink问题, 非开窗,非聚合的数据倾斜有什么优化思路?

咨询一个Flink问题, 非开窗,非聚合的数据倾斜有什么优化思路?在保证相同key的数据在一个task 里面处理的前提下,上游kafka的数据是用户每个时间点的属性变化信息, 需要写入到下游数据库,比如这条数据需要给用户的属性做要求和动作,下一条相同用户可能需要做局部更新动作,在或者相同用户做保留首次属性动作
我目前的算子结构是: map.filter.keyby.process.sink ==> key 是用户的ID

展开
收起
三分钟热度的鱼 2024-04-17 18:53:21 51 0
1 条回答
写回答
取消 提交回答
  • 1、可以对数据进行预处理,减少下游的数据量
    2、是因为key分组导致数据倾斜,所以可以尝试结合其他字段创建复合键。还有一个方法,增加并行度,可以分散负载,就可以减轻压力。此回答整理自钉群“实时计算Flink产品交流群”

    2024-04-17 19:34:27
    赞同 2 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载