有损的方法: 找到异常数据,过滤掉 无损的方法: 对分布不均匀的数据,单独计算 先对key做一层hash,先将数据打散让它的并行度变大,再汇集
本质:让各个分区的数据均匀分布,并且根据自己的业务特点设置合适的 partition 策略,具体的设置方法可以上网查询一下,这里就不过多的介绍了。如果事先不知道业务数据的分布规律,只能利用随机抽样之后生成 partition 策略后再做处理
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。