大数据计算MaxCompute中为什么reducer有倾斜？

问题一：大数据计算MaxCompute中为什么reducer有倾斜？
https://logview.aliyun.com/logview/?h=http://service.cn.maxcompute.aliyun-inc.com/api&p=inf_data_platform&i=20230714003429552g9sjnjcdpcg&token=VVN5bmkyKzRsZ2VtU0V1cFJHamZua1g5R1FnPSxPRFBTX09CTzoxMTM0MTU1NTMwNDE4Nzc0LDE2OTE4ODY4NjkseyJTdGF0ZW1lbnQiOlt7IkFjdGlvbiI6WyJvZHBzOlJlYWQiXSwiRWZmZWN0IjoiQWxsb3ciLCJSZXNvdXJjZSI6WyJhY3M6b2RwczoqOnByb2plY3RzL2luZl9kYXRhX3BsYXRmb3JtL2luc3RhbmNlcy8yMDIzMDcxNDAwMzQyOTU1Mmc5c2puamNkcGNnIl19XSwiVmVyc2lvbiI6IjEifQ==

问题二：按说我不按照动态分区做reshuffle，才不会因为动态分区本身数据分布不均匀导致长尾？

展开

收起

青城山下庄文杰 2023-07-17 18:08:47 223 版权

3 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

reducer 倾斜主要有以下几个原因:

数据分布不均衡。如果输入数据的键值分布高度倾斜,那么相同key值的records将分配给同一个reducer,从而形成reducer间计算负载的不均衡。

join/group by 操作。当对有相同键值的大量记录进行join或group by操作时,它们会分配给同一个reducer,形成热点。

算子的位置。一些算子如聚合聚合等,如果放置在reduce端,容易形成热点。

流水线。过多的map task 输出到少量的reduce task也会形成reducer倾斜。

Job参数。如设置reduce task数较少也会形成热点。

解决 reducer 倾斜的方法:

调整Job参数,增加更多的reducer task数。

分区技术,将高倾斜key应用不同的分区策略,分配到更多reducer上。

控制map output,限制map输出到单个reduce的最大record数。

调整操作位置,将聚合等算子从reduce端调整到map端。

优化数据,减少倾斜key数量。

削峰填谷,应对突发流量高峰。

2023-07-29 13:08:43

赞同展开评论

Star时光
在大数据计算MaxCompute中，Reducer倾斜是指在MapReduce任务中某个Reducer的输入数据量远远超过其他Reducer的情况。这种倾斜可能会导致任务执行时间延长，资源利用不均衡，甚至使整个任务失败。

以下是一些常见导致Reducer倾斜的原因：
1. 数据分布不均匀：数据在进行划分和分配到各个Reducer时，某些键值对的数量明显多于其他键值对，造成了数据倾斜。这可能是因为某些键具有更多的重复值或更高的频率。
2. 数据倾斜问题扩散：在数据处理过程中，某些特定的操作或逻辑可能导致数据倾斜问题进一步扩散。例如，在进行聚合操作时，如果某个键的值远远大于其他键的值，那么该键的聚合结果将导致输出数据倾斜。
3. 自定义Partitioner问题：如果您使用自定义的Partitioner来决定键值对分发给哪个Reducer，可能会出现不均匀的分发，导致Reducer倾斜。
解决Reducer倾斜的方法包括：
1. 增加Reducer数量：通过增加Reducer的数量，可以减少单个Reducer所处理的数据量，从而缓解倾斜问题。但是需要注意，过多的Reducer数量可能会增加任务的整体开销。
2. 调整数据分区策略：根据实际情况，可以尝试调整数据分区策略，例如使用自定义Partitioner，在划分数据时考虑到数据的分布情况，避免数据倾斜。
3. 预聚合操作：在某些场景下，可以在Map阶段对数据进行预聚合，减少数据量并均匀分布到各个Reducer。
4. 动态调整Reducer任务：可以通过动态调整任务的配置参数，如调整Reducer的任务数、内存配置等，以优化任务的执行。
5. 数据重分配：根据数据倾斜情况，将倾斜的数据重新分配给其他Reducer进行处理。
请注意，具体解决Reducer倾斜问题的方法需要根据您的实际场景和数据特征进行评估和选择。可以结合任务日志和统计信息进行分析，并根据实际情况进行尝试和调整。
2023-07-28 21:27:21

赞同展开评论
Ð

针对问题一的回答：set odps.sql.reshuffle.dynamicpt=true;
SQL前加这个参数，怀疑是动态分区数过多导致的长尾

针对问题二的回答：查一下dwd_13B_data_split的小文件
desc extended dwd_13B_data_split，此回答整理自钉群“MaxCompute开发者社区1群”

2023-07-18 18:37:05

赞同展开评论

大数据计算MaxCompute中为什么reducer有倾斜？

大数据计算 MaxCompute

相关文章

热门讨论

热门文章