备案控制台

开发者社区云计算文章正文

MapReduce实现日记-任务粒度如何把握

2023-04-21 104

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： MapReduce实现日记-任务粒度如何把握

MapReduce实现日记-任务粒度如何把握

通常，我们将map阶段分为M个片段，将Reduce阶段分为R个片段。在理想的情况下，M和R应该远大于工作机器的数量。为了让每一个worker都能执行不同的任务来动态的保持负载均衡。并且在worker发生故障时，能够加快恢复速度，比如已经完成的map任务可以分布在其他所有worker上。

在现实开发中，M和R的大小是有实际限制的，因为master必须作出O(M+R)的决策调度，并在内存中保持O(M*R)的状态。

此外R的数量经常受到用户的限制，因为每个reduce任务的输出最终都是在一个单独的输出文件中。在实际中，我们倾向于选择M的任务，大约在16M到64M的输入数据（这种情况可以确保局部新能优化最有效）。

文章标签：

分布式计算

负载均衡

调度

关键词：

mapreduce任务

糖醋沼跃鱼

目录

相关文章

开源大数据EMR

|

SQL 分布式计算 Hadoop

通过Job Committer保证Mapreduce/Spark任务数据一致性

通过对象存储系统普遍提供的Multipart Upload功能，实现的No-Rename Committer在数据一致性和性能方面相对于FileOutputCommitter V1/V2版本均有较大提升，在使用MapRedcue和Spark写入数据到S3/Oss的场景中更加推荐使用。

开源大数据EMR

1772 0 0

通过Job Committer保证Mapreduce/Spark任务数据一致性

武子康

|

2月前

|

分布式计算资源调度数据可视化

Hadoop-06-Hadoop集群历史服务器配置超详细执行任务记录 JobHistoryServer MapReduce执行记录日志聚合结果可视化查看

Hadoop-06-Hadoop集群历史服务器配置超详细执行任务记录 JobHistoryServer MapReduce执行记录日志聚合结果可视化查看

武子康

53 1 1

武子康

|

2月前

|

分布式计算资源调度 Hadoop

Hadoop-05-Hadoop集群集群WordCount 超详细真正的分布式计算上传HDFS MapReduce计算 YRAN查看任务上传计算下载查看

Hadoop-05-Hadoop集群集群WordCount 超详细真正的分布式计算上传HDFS MapReduce计算 YRAN查看任务上传计算下载查看

武子康

59 1 1

听风de歌

|

6月前

|

数据采集 SQL 分布式计算

Hadoop性能优化MapReduce任务中的小文件问题

【6月更文挑战第4天】

听风de歌

124 3 3

爱吃糖的范同学

|

7月前

|

SQL 分布式计算数据处理

【Hive】所有的Hive任务都会有MapReduce的执行吗？

【4月更文挑战第17天】【Hive】所有的Hive任务都会有MapReduce的执行吗？

爱吃糖的范同学

461 11 11

阿甘兄

|

分布式计算 Java Hadoop

70 Azkaban MAPREDUCE任务

70 Azkaban MAPREDUCE任务

阿甘兄

47 0 0

遇见的昨天

|

分布式计算 Java

Mapreduce执行机制之提交任务和切片原理

Mapreduce执行机制之提交任务和切片原理

遇见的昨天

107 0 0

thinkgamer.cn

|

缓存分布式计算 Hadoop

利用采样器实现mapreduce任务输出全排序

采样器是hadoop内自带的一个可以对目标文件部分数据进行提取的工具类,以方便我们对这些采样的数据做一些参考或者处理。hadoop提供了多种采样器供我们使用，以满足不同的需求。另外，采样器不同于普通mapreduce操作。

thinkgamer.cn

1145 0 0

司麟嘟嘟嘟

|

分布式计算 Hadoop 分布式数据库

通过Job Committer保证Mapreduce/Spark任务数据一致性

并发地向目标存储系统写数据是分布式任务的一个天然特性，通过在节点/进程/线程等级别的并发写数据，充分利用集群的磁盘和网络带宽，实现高容量吞吐。并发写数据的一个主要需要解决的问题就是如何保证数据一致性的问题，本文主要介绍MapReduce/Spark如何通过Job Committer机制解决写数据一致性的问题，以及在OSS等对象存储上的解决方案。

司麟嘟嘟嘟

487 0 0

开源大数据EMR

|

SQL 数据采集缓存

实践Hadoop MapReduce 任务的性能翻倍之路

eBay每天产生PB量级的CAL日志，其数据量每天都在增加。对于日益增长的数据量，Hadoop MapReduce job的优化将会大大节省计算资源。本文将分享eBay团队如何对这些Hadoop job进行优化，希望为开发者带来启发，解决Hadoop MapReduce（MR）job实践中存在的问题。

开源大数据EMR

2931 0 0

实践Hadoop MapReduce 任务的性能翻倍之路

热门文章

最新文章

使用Hadoop MapReduce进行大规模数据爬取

Idea里面老版本MapReduce设置FileInputFormat参数格式变化

MapReduce实现WordCount

Hapdoop的一个Mapreduce示例代码--统计单词个数有排序功能

Hadoop2.6.0运行mapreduce之推断（speculative）执行（下）

MapReduce源码分析之新API作业提交（二）：连接集群

MapReduce工作原理

Hadoop MapReduce（FlowCount） Java编程

MapReduce的一对多连接操作

MapReduce框架Mapper和Reducer类源码分析

java与大数据：Hadoop与MapReduce

数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析

DataWorks产品使用合集之在DataWorks中，在MapReduce作业中指定两个表的所有分区如何解决

【Hive】所有的Hive任务都会有MapReduce的执行吗？

【Hive】Hive的两张表关联，使用MapReduce怎么实现？

面经：MapReduce编程模型与优化策略详解

Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】（图片来源于网络）

【底层服务/编程功底系列】「大数据算法体系」带你深入分析MapReduce算法 — Shuffle的执行过程

bigdata-08-MapReduce原理到实战

阿里云E-MapReduce Trino专属集群外连引擎及权限控制踩坑实践

相关课程

更多

Hadoop 分布式计算框架 MapReduce

2020版大数据实战项目之DMP广告系统（第四阶段）

2020版大数据实战项目之DMP广告系统（第五阶段）

2020版大数据实战项目之DMP广告系统（第六阶段）

2020版大数据实战项目之DMP广告系统（第七阶段）

2020版大数据实战项目之DMP广告系统（第二阶段）

相关电子书

更多

《宏观分析报告合集》

HBase在贝壳找房的应用实践

中移苏研-存储产品规划和实践经验分享

相关实验场景

更多

【企业数据中台交付】数据回刷实验

下一篇

手把手教你白嫖阿里云服务器(免费领服务器)