咨询一个Flink问题, 非开窗,非聚合的数据倾斜咋优化呀? 前提条件需要保证相同key的数据在一个task 里面处理;
场景大概是: 上游kafka的数据是 用户 每个时间点的 用户 属性变化信息(可能这个时间点是 f1, f2, f3,属性变更; 下一个时间点是: f2, f4 属性变更), 需要写入到下游数据库
属性变化信息也分几种, 同一条数据中的 属性操作都是一样, 比如这条数据需要 给用户的 属性做求和动作,下一条相同用户可能需要做 局部更新动作,在或者相同用户做 保留 首次属性动作
我目前的算子结构是: map.filter.keyby.process.sink ==> key 是用户的ID
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。