开发者社区> 问答> 正文

用 mapreduce 怎么处理数据倾斜问题

用 mapreduce 怎么处理数据倾斜问题

展开
收起
愚笨如你 2020-02-14 19:49:59 2116 0
2 条回答
写回答
取消 提交回答
  • 有损的方法: 找到异常数据,过滤掉 无损的方法: 对分布不均匀的数据,单独计算 先对key做一层hash,先将数据打散让它的并行度变大,再汇集

    2020-03-19 20:06:40
    赞同 展开评论 打赏
  • 本质:让各个分区的数据均匀分布,并且根据自己的业务特点设置合适的 partition 策略,具体的设置方法可以上网查询一下,这里就不过多的介绍了。如果事先不知道业务数据的分布规律,只能利用随机抽样之后生成 partition 策略后再做处理

    2020-02-14 19:50:15
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
HBase中Coprocessor的介绍以及实际业务场景中的使用 立即下载
HBase 吞吐量提升实践 立即下载
HBase Rowkey设计要点 立即下载