开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

咨询一个Flink问题, 非开窗,非聚合的数据倾斜有什么优化思路?

咨询一个Flink问题, 非开窗,非聚合的数据倾斜有什么优化思路?; 前提条件需要保证相同key的数据在一个task 里面处理;

场景大概是: 上游kafka的数据是 用户 每个时间点的 用户 属性变化信息(可能这个时间点是 f1, f2, f3,属性变更; 下一个时间点是: f2, f4 属性变更), 需要写入到下游数据库
属性变化信息也分几种, 同一条数据中的 属性操作都是一样, 比如这条数据需要 给用户的 属性做求和动作,下一条相同用户可能需要做 局部更新动作,在或者相同用户做 保留 首次属性动作

我目前的算子结构是: map.filter.keyby.process.sink ==> key 是用户的ID

展开
收起
cuicuicuic 2024-04-17 14:05:44 14 0
0 条回答
写回答
取消 提交回答

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关电子书

更多
Flink CDC Meetup PPT - 龚中强 立即下载
Flink CDC Meetup PPT - 王赫 立即下载
Flink CDC Meetup PPT - 覃立辉 立即下载