Hadoop知识点总结——数据倾斜解决方法-阿里云开发者社区

Hadoop知识点总结——数据倾斜解决方法

2023-06-01 388

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据倾斜解决方法

1、提前在map端进行combine，减少传输的数据量

在Mapper加上combiner相当于提前进行reduce，即把一个Mapper中的相同key进行了聚合，减少shuffle过程中传输的数据量，以及Reducer端的计算量。

2、导致数据倾斜的key，大量分布在不同的mapper

2.1 局部聚合加全局聚合

第一次在map阶段对那些导致了数据倾斜的key 加上随机前缀，这样本来相同的key 也会被分到多个Reducer中进行局部聚合，数量就会大大降低。

第二次mapreduce，去掉key的随机前缀，进行全局聚合。

思想：二次mr，第一次将key随机散列到不同reducer进行处理达到负载均衡目的。第二次再根据去掉key的随机前缀，按原key进行reduce处理。

这个方法进行两次mapreduce，性能稍差。

2.2 增加Reducer，提升并行度

可以通过参数设置，提升Reduce的并行度：JobConf.setNumReduceTasks(int)

2.3 实现自定义分区

根据数据分布情况，自定义散列函数，将key均匀分配到不同Reducer。

Hadoop知识点总结——数据倾斜解决方法

1、提前在map端进行combine，减少传输的数据量

2、导致数据倾斜的key，大量分布在不同的mapper

2.1 局部聚合加全局聚合

2.2 增加Reducer，提升并行度

2.3 实现自定义分区

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Hadoop知识点总结——数据倾斜解决方法

1、提前在map端进行combine，减少传输的数据量

2、导致数据倾斜的key，大量分布在不同的mapper

2.1 局部聚合加全局聚合

2.2 增加Reducer，提升并行度

2.3 实现自定义分区

热门文章

最新文章

相关课程

相关电子书

相关实验场景