文档备案控制台

开发者社区大数据文章正文

29 MAPREDUCE中的分区Partitioner

2023-11-01 296

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 29 MAPREDUCE中的分区Partitioner

需求

根据归属地输出流量统计数据结果到不同文件，以便于在查询统计结果时可以定位到省级范围进行。

分析

Mapreduce中会将map输出的kv对，按照相同key分组，然后分发给不同的reducetask。

默认的分发规则为：根据key的hashcode%reducetask数来分发。

所以：如果要按照我们自己的需求进行分组，则需要改写数据分发（分组）组件Partitioner。

自定义一个CustomPartitioner继承抽象类：Partitioner然后在job对象中，设置自定义partitioner： job.setPartitionerClass(CustomPartitioner.class)

实现

/**
 * 定义自己的从map到reduce之间的数据（分组）分发规则 按照手机号所属的省份来分发（分组）ProvincePartitioner
 * 默认的分组组件是HashPartitioner
 * 
 * @author
 * 
 */
public class ProvincePartitioner extends Partitioner<Text, FlowBean> {
  static HashMap<String, Integer> provinceMap = new HashMap<String, Integer>();
  static {
    provinceMap.put("135", 0);
    provinceMap.put("136", 1);
    provinceMap.put("137", 2);
    provinceMap.put("138", 3);
    provinceMap.put("139", 4);
  }
  @Override
  public int getPartition(Text key, FlowBean value, int numPartitions) {
    Integer code = provinceMap.get(key.toString().substring(0, 3));
    return code == null ? 5 : code;
  }
}

文章标签：

分布式计算

关键词：

mapreduce分区

mapreduce partitioner

阿甘兄

目录

相关文章

Want595

|

分布式计算 Hadoop Java

MapReduce编程：自定义分区和自定义计数器

MapReduce编程：自定义分区和自定义计数器

Want595

436 0 0

wljslmz

|

分布式计算负载均衡 Hadoop

MapReduce 分区器的作用与重要性

【8月更文挑战第31天】

wljslmz

491 1 1

sjf0115

|

分布式计算 Hadoop 存储

[Hadoop]MapReduce中的Partitioner与Combiner

Partitioners负责划分Maper输出的中间键值对的key，分配中间键值对到不同的Reducer。Maper输出的中间结果交给指定的Partitioner，确保中间结果分发到指定的Reduce任务。

sjf0115

1822 0 0

sjf0115

|

存储分布式计算 Hadoop

[Hadoop]MapReduce中的Partitioner

partitioner在处理输入数据集时就像条件表达式(condition)一样工作。分区阶段发生在Map阶段之后，Reduce阶段之前。

sjf0115

1440 0 0

芯在这

|

数据采集分布式计算 DataWorks

DataWorks产品使用合集之在DataWorks中，在MapReduce作业中指定两个表的所有分区如何解决

DataWorks作为一站式的数据开发与治理平台，提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案，帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述，涵盖数据处理的各个环节。

芯在这

244 0 0

听风de歌

|

分布式计算 DataWorks

DataWorks想在mapreduce中指定两个表的所有分区

DataWorks想在mapreduce中指定两个表的所有分区，

听风de歌

189 1 1

让线程再跑一会

|

分布式计算

MapReduce【自定义分区Partitioner】

MapReduce【自定义分区Partitioner】

让线程再跑一会

290 0 0

游客dk64xrhekz3ko

|

存储分布式计算 Hadoop

Hadoop中的MapReduce框架原理、Shuffle机制、Partition分区、自定义Partitioner步骤、在Job驱动中，设置自定义Partitioner、Partition 分区案例

Hadoop中的MapReduce框架原理、Shuffle机制、Partition分区、自定义Partitioner步骤、在Job驱动中，设置自定义Partitioner、Partition 分区案例

游客dk64xrhekz3ko

517 0 0

Hadoop中的MapReduce框架原理、Shuffle机制、Partition分区、自定义Partitioner步骤、在Job驱动中，设置自定义Partitioner、Partition 分区案例

邵奈一2018

|

分布式计算

MapReduce编程例子之Combiner与Partitioner

MapReduce编程例子之Combiner与Partitioner

邵奈一2018

447 0 0

MapReduce编程例子之Combiner与Partitioner

游客a74jvhcp7vclg

|

分布式计算 Hadoop

MapReduce之分区器(Partitioner)

Partitioner 组件可以对 MapTask后的数据按Key进行分区，从而将不同分区的Key交由不同的Reduce处理。这个也是我们经常会用到的功能

游客a74jvhcp7vclg

459 0 0

MapReduce之分区器(Partitioner)

热门文章

最新文章

Idea里面老版本MapReduce设置FileInputFormat参数格式变化

MapReduce技术的初步了解与学习

Yarn源码分析之MRAppMaster上MapReduce作业处理总流程（二）

MapReduce框架排序和分组

hadoop初学者MapReduce常见错误

Spark 与 MapReduce 的 Shuffle 的区别？

DataWorks On E-MapReduce功能2020年4月3日正式启动商业化

阿里云E-MapReduce产品新动态及开源大数据前沿技术 2023-4月刊

Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】（图片来源于网络）

当HBase遇上MapReduce头歌答案

MapReduce自定义分组比较器（GroupingComparator）

MapReduce在实现PageRank算法中的应用

Spark 与 MapReduce 的 Shuffle 的区别？

使用Hadoop MapReduce进行大规模数据爬取

大数据-80 Spark 简要概述系统架构部署模式与Hadoop MapReduce对比

Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce

Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce

Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce

Hadoop-11-MapReduce JOIN 操作的Java实现 Driver Mapper Reducer具体实现逻辑模拟SQL进行联表操作

Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化编写Mapper和Reducer和Driver 附带POM 详细代码图文等内容

相关课程

更多

Hadoop 分布式计算框架 MapReduce

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！