备案控制台

开发者社区> 问答> 正文

请简述 mapreduce 中，combiner，partition 作用？

请简述 mapreduce 中，combiner，partition 作用？

展开

收起

愚笨如你 2020-02-14 20:58:40 2121 0

1 条回答

写回答

取消提交回答

愚笨如你

combiner是reduce的实现，在map端运行计算任务，减少map端的输出数据。

作用就是优化。

但是combiner的使用场景是mapreduce的map输出结果和reduce输入输出一样。

partition的默认实现是hashpartition，是map端将数据按照reduce个数取余，进行分区，不同的reduce来copy自己的数据。

partition的作用是将数据分到不同的reduce进行计算，加快计算效果。

1、combiner最基本是实现本地key的聚合，对map输出的key排序，value进行迭代。如下所示：

　　map: (K1, V1) → list(K2, V2)

　　combine: (K2, list(V2)) → list(K2, V2)

　　reduce: (K2, list(V2)) → list(K3, V3)

　　2、combiner还具有类似本地的reduce功能.

　　例如hadoop自带的wordcount的例子和找出value的最大值的程序，combiner和reduce完全一致。如下所示：

　　map: (K1, V1) → list(K2, V2)

　　combine: (K2, list(V2)) → list(K3, V3)

　　reduce: (K3, list(V3)) → list(K4, V4)

　　3、如果不用combiner，那么，所有的结果都是reduce完成，效率会相对低下。使用combiner，先完成的map会在本地聚合，提升速度。

　　4、对于hadoop自带的wordcount的例子，value就是一个叠加的数字，所以map一结束就可以进行reduce的value叠加，而不必要等到所有的map结束再去进行reduce的value叠加。

　　combiner使用的合适，可以在满足业务的情况下提升job的速度，如果不合适，则将导致输出的结果不正确。

2020-02-14 20:59:15

赞同展开评论打赏

问答分类：

分布式计算

问答标签：

mapreduce combiner mapreduce partition 开源大数据平台 E-MapReduce partition 开源大数据平台 E-MapReduce combiner 开源大数据平台 E-MapReduce partition作用

问答地址：

开发者社区 > 大数据 > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

mapreduce中为什么需要combiner函数？

309

1

0

mapreduce中partition过程是什么？

296

1

0

mapReduce中combiner和reduce的区别是什么呢？

578

1

0

mapReduce中combiner的作用是什么，一般使用情景，哪些情况不需要呢？

260

0

0

mapreduce中的partition的作用是什么？

514

1

0

MapReduce中的Combiner有什么意思？

229

1

0

请简述 mapreduce 中的 combine 和 partition 的作用

2222

1

0

ECS已释放为什么E-MapReduce集群还提示尚有ECS实例存在不支持释放集群

7

1

0

如何修改E-MapReduce集群的root用户的登录密码

8

1

0

E-MapReduce集群StarRocks执行SQL报错:Execute again aft...

11

1

0

问答排行榜

最热

最新

1 通过阿里云代备案系统进行个人快速备案 2699853

2 【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥 1818299

3 据说在家办公的程序员是这样写代码的？ 1792306

4 阿里云开放端口权限 689903

5 《阿里云服务器从入门到精通》—论坛精华帖汇总（2013.8.21更新） 599491

6 如何升级配置 536067

7 【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？ 522441

8 【精品问答】python技术1000问(1) 513996

9 Flink Forward Asia 2021 有奖问答 512801

10 Linux Bash严重漏洞修复紧急通知（已全部给出最终修复方案） 456920

11 OceanBase 使用动画（持续更新） 359260

12 阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本 329721

13 OSS存储服务-客户端工具 321328

14 为体验实验室取一个新名字。 307303

15 企业邮箱发送邮件时，若出现投递失败产生退信，内容提示包含如下： the mta server of * reply:550 failed to meet SPF requirements 或者 the mta server of 163.com — 163mx01.mxmail.netease.com(220.181.14.141) reply:550 MI:SPF mx14,QMCowECpA0qTiftVaeB3Cg—.872S2 1442548128 http://mail.163.com/help 303847

16 Win Server 2003-2016 加密勒索事件必打补丁合集 295155

17 FLASH播放器，在IE浏览器下显示请确定您的域名已完成备案和CNAME绑定 283617

18 安全组详解，新手必看教程 277254

19 写code还是做管理，开发者如何进行职业规划？ 268442

20 惊喜翻倍：免费ECS+免费环境配置~！(ECS免费体验6个月活动3月31日结束) 255825

1 一键部署3D卡通风格模型，分享部署过程及使用体验 277

2 展示你通过AI修饰的自然风光照片，并讲述你的拍摄和编辑过程 325

3 机器学习PAI现在一直在重试，怎样停掉？ 110

4 你知道APP是怎么开发的吗？ 747

5 如何提高企业的业务稳定性？ 478

6 百问求答 | 回答问题即有机会得米家落地扇 252

7 分享AI代码助手的使用体验 605

8 分享一张AI生成的“老照片”，讲讲你与它的故事 821

9 idea上的通义灵码生成git提交消息老是会变成英文没有切换中文的入口 108

10 阿里云百炼这个问题怎么解决？ 133

11 阿里云百炼第一次询问能触发 prompt；第二次为啥就触发不了？ 174

12 阿里云百炼模型调优需要的数据有什么要求么？ 188

13 在机器学习PAI为什么有的空间看不到数据源：FeautureDB？ 370

14 在iTAG想用PAI实现根据我上传的文档生成我想要的问答对的这种功能可以实现吗？ 341

15 函数计算一键部署ComfyUI绘画平台的优势有哪些？ 1282

16 域名控制台 746

17 如何调用通义千问API 150

18 2024过半，AI技术发展到哪个阶段了？ 1891

19 二维码全球每天使用量达 100 多亿，会被用完吗？ 805

20 机器学习PAI有没有pyalink 机器学习实战的开源项目？ 322

相关课程

更多

Hadoop 分布式计算框架 MapReduce

850

89

去学习

推荐问答

乘风问答官招募中！机械键盘免费拿

相关电子书

更多

Apache Flink 流式应用中状态的数据结构定义升级 立即下载

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门】 立即下载

HBase2.0重新定义小对象实时存取 立即下载