备案控制台

开发者社区大数据文章正文

hadoop编写Mapper类

2024-07-11 30

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【7月更文挑战第10天】

在Hadoop MapReduce中，Mapper类主要用于处理输入数据并将其转换为中间键值对。下面是一个基本的Mapper类示例，使用Java编写，该示例将文本文件中的每一行作为输入，并将每个单词映射为其出现次数（1）。

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
   
   

  private final static IntWritable one = new IntWritable(1);
  private Text word = new Text();

  public void map(LongWritable key, Text value, Context context) 
          throws IOException, InterruptedException {
   
   
        String line = value.toString();
        StringTokenizer tokenizer = new StringTokenizer(line);
        while (tokenizer.hasMoreTokens()) {
   
   
            word.set(tokenizer.nextToken());
            context.write(word, one);
        }
    }
}

在这个例子中：

WordCountMapper 类扩展了 Mapper 类。
map() 方法是主要的映射逻辑，它接收一个键（行号，类型为 LongWritable），一个值（行内容，类型为 Text），以及一个 Context 对象来写入中间结果。
使用 StringTokenizer 将每行分割成单词。
每个单词被设置为 word 对象，然后与 one 对象一起写入上下文，表示该单词出现一次。

注意，你需要根据你的具体需求来调整这个示例，例如更改输入和输出类型，或者修改映射逻辑。

文章标签：

分布式计算

Hadoop

Java

关键词：

hadoop mapper

hadoop类

hadoop mapper类

听风de歌

目录

相关文章

武子康

|

1月前

|

SQL 分布式计算 Java

Hadoop-11-MapReduce JOIN 操作的Java实现 Driver Mapper Reducer具体实现逻辑模拟SQL进行联表操作

Hadoop-11-MapReduce JOIN 操作的Java实现 Driver Mapper Reducer具体实现逻辑模拟SQL进行联表操作

武子康

31 3 3

武子康

|

1月前

|

分布式计算资源调度 Hadoop

Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化编写Mapper和Reducer和Driver 附带POM 详细代码图文等内容

Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化编写Mapper和Reducer和Driver 附带POM 详细代码图文等内容

武子康

88 3 3

听风de歌

|

4月前

|

存储分布式计算 Hadoop

hadoop编写Reducer类

【7月更文挑战第10天】

听风de歌

37 3 3

听风de歌

|

4月前

|

分布式计算 Hadoop Java

Hadoop编写Combiner类

【7月更文挑战第7天】

听风de歌

23 3 3

anjuil

|

11月前

|

分布式计算 Hadoop 大数据

关于hadoop报错ERROR: Cannot set priority of namenode process与jps仅有自身的某类解决办法

在进行大数据学习时遇见的一个问题

anjuil

2118 0 0

游客dk64xrhekz3ko

|

存储分布式计算自然语言处理

Hadoop序列化、概述、自定义bean对象实现序列化接口（Writable）、序列化案例实操、编写流量统计的Bean对象、编写Mapper类、编写Reducer类、编写Driver驱动类

Hadoop序列化、概述、自定义bean对象实现序列化接口（Writable）、序列化案例实操、编写流量统计的Bean对象、编写Mapper类、编写Reducer类、编写Driver驱动类

游客dk64xrhekz3ko

296 0 0

Hadoop序列化、概述、自定义bean对象实现序列化接口（Writable）、序列化案例实操、编写流量统计的Bean对象、编写Mapper类、编写Reducer类、编写Driver驱动类

余二五

|

分布式计算 Hadoop API

Hadoop 用FileStatus类来查看HDFS中文件或目录的元信息

余二五

2112 0 0

hbase小能手

|

存储分布式计算 Hadoop

E-MapReduce(Hadoop)10大类问题之集群规划

hbase小能手

1684 0 0

余二五

|

分布式计算 Java Hadoop

自定义Hadoop的可序列化类

余二五

1242 0 0

武子康

|

1月前

|

分布式计算 Kubernetes Hadoop

大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS

大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS

武子康

142 6 6

热门文章

最新文章

Hadoop迁移MaxCompute神器之DataX-On-Hadoop使用指南

spark 3.1.x支持（兼容）hive 1.2.x以及hadoop cdh版本的尝试

Hadoop 2.x本地库native lib及如何源码编译

linux下安装hadoop步骤

【centos6.5 hadoop2.7 _64位一键安装脚本】有问题加我Q直接问

最新版本——Hadoop3.3.6单机版完全部署指南

hadoop安装小记

手把手教你使用自建Hadoop访问全托管服务化HDFS（OSS-HDFS服务）

Hadoop 2.x HDFS和YARN的启动方式

发布Apache Hadoop 2.6.0——异构存储，长时间运行的服务与滚动升级支持

Hadoop网络带宽限制

HADOOP硬件资源限制

Hadoop性能问题

Hadoop任务执行失败

Hadoop内存溢出

Hadoop中DataNode故障

Hadoop中NameNode故障

hadoop常见问题

Hadoop中运行Job

hadoop编写Reducer类

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据Hadoop快速入门

Hadoop快速入门

Hadoop企业优化及扩展案例

相关电子书

更多

《构建Hadoop生态批流一体的实时数仓》

零基础实现hadoop 迁移 MaxCompute 之数据

CIO 指南:如何在SAP软件架构中使用Hadoop

相关实验场景

更多

搭建Hadoop环境

下一篇

阿里云OSS设置跨域访问