开发者社区云计算文章正文

MapTask 、ReduceTask 数量的决定因素

2023-07-29 639

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： MapTask 、ReduceTask 数量的决定因素

1.MapTask 的数量是由切片的个数决定，切片的个数由（1）输入文件的数量、大小（2）切片规则决定。（参数的大小：minsize 、maxsize、blocksize）

切片大小默认为 block=128M，切片时不针对数据集整体，而是针对每一个文件单独进行切分，计算 spiltsize 大小的公式：

splitSize = Math.max(minSize, Math.min(maxSize, blockSize));。

2.ReduceTask 的数量可以自定义配置，但要考虑业务需求、并且根据集群性能来定，默认数量为 1，conf.setNumReduceTasks (int num)。

osc_06552749

阿里云社区

SQL 分布式计算 Hadoop

Azkaban--使用实战--hive 调度 | 学习笔记

快速学习 Azkaban--使用实战--hive 调度

阿里云社区

948 0 0

码界西柚

存储分布式计算算法

【底层服务/编程功底系列】「大数据算法体系」带你深入分析MapReduce算法 — Shuffle的执行过程

码界西柚

506 0 1

yuanzhengme

分布式计算 Hadoop 大数据

MapReduce的详细过程是什么？

【10月更文挑战第9天】MapReduce的详细过程是什么？

yuanzhengme

668 0 0

云祁

数据库

数仓建设：数据域和主题域是什么关系？

云祁

10136 2 9

Z_sorrain

SQL 存储 HIVE

hive分区与分桶

Z_sorrain

475 1 1

wljslmz

存储运维分布式计算

HDFS 如何容错？

【8月更文挑战第31天】

wljslmz

635 0 0

听风de歌

数据采集 SQL 分布式计算

Hadoop性能优化MapReduce任务中的小文件问题

【6月更文挑战第4天】

听风de歌

374 3 3

kng32f3vbngrm

SQL 缓存分布式计算

手把手教你解决 Hive 的数据倾斜

数据倾斜是 Hive 中影响任务执行效率的现象，表现为某些任务处理的数据量或耗时远超其他任务。根本原因是 Shuffle 后 Key 分布不均，导致部分 Reduce 负载过高。常见场景包括空值聚合、不可拆分大文件、数值膨胀、不同数据类型 Join、Count(distinct) 计算以及表 Join 操作。解决方法包括过滤空值、转换数据类型、调整聚合策略、使用 MapJoin 等。通过合理优化，如设置 `hive.groupby.skewindata` 和 `hive.map.aggr` 参数，可以有效缓解数据倾斜问题。

kng32f3vbngrm

2215 2 3

1175223700484759

SQL 分布式计算大数据

大数据面试题：Hive count(distinct)有几个reduce，海量数据会有什么问题

count(distinct)只有1个reduce。为什么只有一个reducer呢，因为使用了distinct和count(full aggreates)，这两个函数产生的mr作业只会产生一个reducer，而且哪怕显式指定set mapred.reduce.tasks=100000也是没用的。当使用count(distinct)处理海量数据（比如达到一亿以上）时，会使得运行速度变得很慢，熟悉mr原理的就明白这时sql跑的慢的原因，因为出现了很严重的数据倾斜。

1175223700484759

1081 0 0

孙玉洁-47170

SQL OLAP HIVE

HQL的中级题目---炸裂函数、窗口函数

孙玉洁-47170

547 2 2

MapTask 、ReduceTask 数量的决定因素

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

MapTask 、ReduceTask 数量的决定因素

热门文章

最新文章

相关电子书