备案控制台

开发者社区> 问答> 正文

MaxCompute用户指南：MapReduce：概要：扩展MapReduce

传统的 MapReduce 模型要求每一轮 MapReduce 操作之后，数据必须落地到分布式文件系统上（比如 HDFS 或MaxCompute 表）。而一般的 MapReduce 应用通常由多个 MapReduce 作业组成，每个作业结束之后需要写入磁盘，接下去的Map 任务很多情况下只是读一遍数据，为后续的 Shuffle 阶段做准备，这样其实造成了冗余的 IO 操作。
MaxCompute 的计算调度逻辑可以支持更复杂编程模型，针对上述的情况，可以在 Reduce 后直接执行下一次的 Reduce操作，而不需要中间插入一个 Map 操作。因此，MaxCompute 提供了扩展的 MapReduce 模型，即可以支持 Map后连接任意多个 Reduce 操作，比如 Map > Reduce > Reduce。
Hadoop Chain Mappper/Reducer 也支持类似的串行化 Map 或 Reduce 操作，但和 MaxCompute 的扩展 MapReduce（MR ²）模型有本质的区别。
因为 Chain Mapper/Reducer 还是基于传统的 MapReduce 模型，只是可以在原有的 Mapper 或Reducer 后面，再增加一个或多个 Mapper 操作（不允许增加Reducer）。这样的好处是：您可以复用之前的 Mapper业务逻辑，可以把一个 Map 或 Reduce 拆成多个 Mapper 阶段，但本质上并没有改变底层的调度和 I/O 模型。
与 MaxCompute MapReduce 相比，MR ² 在 Map/Reduce 等函数编写方式上基本一致。较大的不同点发生在作业时。更多详情请参见扩展 MapReduce 示例。

展开

收起

行者武松 2017-10-23 17:38:08 1900 0

0 条回答

写回答

取消提交回答

问答分类：

分布式计算 Hadoop 调度 MaxCompute 云原生大数据计算服务 MaxCompute

问答标签：

云原生大数据计算服务 MaxCompute mapreduce 云原生大数据计算服务 MaxCompute扩展 maxcompute mapreduce mapreduce maxcompute mapreduce概要

问答地址：

开发者社区 > 大数据 > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

EMR（E-MapReduce）是阿里巴巴飞天大数据平台的哪个产品，它的主要功能是什么？

52

1

0

大数据计算MaxCompute是可以用hdfs和hive和mapreduce的吗？

33

0

0

mapreduce任务能否往MaxCompute分区表写数据

26

1

0

MapReduce任务如何调用MaxCompute的API

24

1

0

阿里云E-MapReduce调度资源组绑集群，选不到集群，怎么办呢？

50

1

0

E-MapReduce Hadoop类型集群的ranger-plugin中没有enablehi...

37

1

0

ECS已释放为什么E-MapReduce集群还提示尚有ECS实例存在不支持释放集群

30

1

0

E-MapReduce集群yarn.nodemanager.resource.cpu-vcor...

30

1

0

E-mapreduce集群新增task节点组是否会导致数据丢失？

27

0

0

E-MapReduce集群在进行Hadoop到StarRocks的迁移过程中如何开启支持UDF...

38

1

0

问答排行榜

最热

最新

1 【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥 1818945

2 据说在家办公的程序员是这样写代码的？ 1793059

3 阿里云开放端口权限 690230

4 如何升级配置 536271

5 【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？ 522805

6 【精品问答】python技术1000问(1) 514115

7 Flink Forward Asia 2021 有奖问答 512895

8 OceanBase 使用动画（持续更新） 359367

9 阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本 329796

10 OSS存储服务-客户端工具 321539

11 为体验实验室取一个新名字。 307464

12 企业邮箱发送邮件时，若出现投递失败产生退信，内容提示包含如下： the mta server of * reply:550 failed to meet SPF requirements 或者 the mta server of 163.com — 163mx01.mxmail.netease.com(220.181.14.141) reply:550 MI:SPF mx14,QMCowECpA0qTiftVaeB3Cg—.872S2 1442548128 http://mail.163.com/help 304068

13 Win Server 2003-2016 加密勒索事件必打补丁合集 295320

14 FLASH播放器，在IE浏览器下显示请确定您的域名已完成备案和CNAME绑定 284159

15 安全组详解，新手必看教程 277337

16 写code还是做管理，开发者如何进行职业规划？ 269095

17 惊喜翻倍：免费ECS+免费环境配置~！(ECS免费体验6个月活动3月31日结束) 255876

18 阿里云手机和阿云浏览器连接问题专帖 235686

19 请问阿里云邮箱如何开启SMTP服务啊！ 225838

20 支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】 225531

1 FFA 2024 大会门票免费送！AI时代下大数据技术未来路在何方？ 211

2 AI时代，存力or算力哪一个更关键？ 725

3 全网寻找 #六边形战士# 程序员，你的 AI 编码助手身份标签是什么？ 940

4 关于开发者的100件小事，你知道哪些？ 982

5 AI助力，短剧迎来创新热潮？ 579

6 "ModelScope默认的下载位置是在哪里？ 178

7 1024程序员节，开发者们都在参与社区的哪些活动？ 2159

8 关于文本框校验自定义函数的问题 315

9 执行docker search nginx 报错超时 174

10 百问求答第四期-回答问题即有机会拿冬季取暖器 929

11 宜搭-集成&自动化，怎么实现定时自动获取普通表单里的所有数据，并更新该表单里的某列数据？ 204

12 有没有大佬知道：宜搭的流程表单里如何通过js面板给成员组件赋值？ 260

13 百问求答第四期-回答问题即有机会拿冬季取暖器 693

14 域名内网可以正常访问，外网访问不了 329

15 普通人能用阿里云做什么？ 147

16 宜搭表单数据管理增加全部删除功能 228

17 获取Access Token报code: 400, body is mandatory 347

18 运动旅游开启新潮流，哪些科技手段能助力你的行程呢？ 940

19 “AI+儿童陪伴”，是噱头还是趋势？ 993

20 小白求助，跟着大模型微调教程做不太明白 587

相关课程

更多

基于Flink的实时大数据应用Demo

268

1

去学习

大数据Impala教程

206

14

去学习

大数据Spark2020最新课程（知识精讲与实战演练）第二阶段

204

77

去学习

大数据Spark2020版（知识精讲与实战演练）第三阶段

133

72

去学习

大数据Spark2020版（知识精讲与实战演练）第四阶段

173

20

去学习

Hadoop 分布式计算框架 MapReduce

894

89

去学习

推荐问答

乘风问答官招募中！机械键盘免费拿

相关电子书

更多

Data+AI时代大数据平台应该如何建设 立即下载

大数据AI一体化的解读 立即下载

极氪大数据 Serverless 应用实践 立即下载

相关实验场景

更多