文档备案控制台

开发者社区问答正文

Hive如何自定义map/reduce数目？

Hive如何自定义map/reduce数目？

展开

收起

芯在这 2021-12-11 23:15:55 554 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

减少map数目：

　　set mapred.max.split.size

　　set mapred.min.split.size

　　set mapred.min.split.size.per.node

　　set mapred.min.split.size.per.rack

　　set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

增加map数目：

当input的文件都很大，任务逻辑复杂，map执行非常慢的时候，可以考虑增加Map数，来使得每个map处理的数据量减少，从而提高任务的执行效率。

假设有这样一个任务：

select data_desc, count(1), count(distinct id),sum(case when …),sum(case when …),sum(…) from a group by data_desc 如果表a只有一个文件，大小为120M，但包含几千万的记录，如果用1个map去完成这个任务，肯定是比较耗时的，这种情况下，我们要考虑将这一个文件合理的拆分成多个，这样就可以用多个map任务去完成。

　　set mapred.reduce.tasks=10;

　　create table a_1 as select * from a distribute by rand(123); 这样会将a表的记录，随机的分散到包含10个文件的a_1表中，再用a_1代替上面sql中的a表，则会用10个map任务去完成。每个map任务处理大于12M（几百万记录）的数据，效率肯定会好很多。

reduce数目设置：

参数1：hive.exec.reducers.bytes.per.reducer=1G：每个reduce任务处理的数据量

参数2：hive.exec.reducers.max=999(0.95TaskTracker数)：每个任务最大的reduce数目

reducer数=min(参数2,总输入数据量/参数1)

set mapred.reduce.tasks：每个任务默认的reduce数目。典型为0.99reduce槽数，hive将其设置为-1，自动确定reduce数目。

2021-12-11 23:16:53

赞同展开评论

问答分类：

SQL 分布式计算 HIVE

问答标签：

Map reduce 自定义Map Map自定义 Hive自定义 Map hive

问答地址：

开发者社区 > 大数据 > 问答

相关问答

Flink CDC map reduce是什么意思啊？

206

1

0

在大数据计算MaxCompute中内存是map和reduce或者join阶段的内存吗？

137

0

0

在大数据计算MaxCompute是如何设置map和reduce个数的？

158

1

0

DataWorks提交CDH hive任务时，能否自定义任务名称？

126

1

0

大数据计算MaxCompute M 开头的就是 Map 阶段，R 开头的就是 reduce 阶段吗？

386

6

0

应用研发平台EMAS中收集到报错以后，返回的自定义map可以在控制台的哪里看到上传的数据呢？

135

1

0

Flink CDC map reduce是什么东东？

186

1

0

大数据计算MaxCompute自定义 udaf 中如何输入 map 类型，怎么从 args 中读取？

145

1

0

求问各位大佬：flink运行大量数据（自定义数据源）写入hudi和hive的作业运行一段时间后，？

530

1

0

在map阶段前先合并小文件，然后增大block，map输出合并，reduce输出合并这些优化参数有吗

538

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

阿里云免费云服务器申请入口链接在哪？个人和企业0元创建、免费云服务器配置教程

阿里云百炼大模型是什么？阿里云百炼大模型官网首页及后台登录入口链接在哪？

阿里云服务器一个月多少钱？新老用户租阿里云服务器价格表更新！

2026年最新阿里云服务器官网链接在哪？以及阿里云服务器官网登录入口

OpenClaw是什么?OpenClaw 能做什么?2026年OpenClaw详细介绍及部署图文教程

相关文章

从 OpenSearch 到阿里云 SLS：极致弹性、更低成本、生态兼容

银保监现场检查倒计时：如何 1 天内生成全量口径文档？

数据治理不是“做报表”：从混乱到可控，我是怎么把一家公司数据救活的？

SQL Server 2022数据库管理工具安装教程：数据库引擎配置+SSMS管理工具（64位）

【全网最详细】DBeaver官网下载安装教程：DBeaver数据库管理工具使用指南

还有其他疑问?