MapReduce【自定义InputFormat】

简介: MapReduce在处理小文件时效率很低,但面对大量的小文件又不可避免,这个时候就需要相应的解决方案。

MapReduce在处理小文件时效率很低,但面对大量的小文件又不可避免,这个时候就需要相应的解决方案。


默认的输入格式为TextInputFormat,对于小文件,它是按照它的父类FileInputFormat的切片机制来切片的,也就是不管一个文件多小,独占一片!对于之前的wordcount案例来说,输入目录下一共有4个文件,这将开启4个reduceTask去执行!!!


image.png


我们可以自定义InputFormat来实现小文件的合并:


需求

我们需要将三个文本文件合并为一个序列化文件


输入

三个文本文件


image.png


输出

一个二进制序列化文件


image.png


1.自定义Inputformat类

需要实现两个方法


isSplitable():是否可以切片,我们修改返回值为false不可切割。

createRecordReader:返回我们自定义的RecordReader对象。

public class MyInputFormat extends FileInputFormat<Text, BytesWritable> {
    //设置文件不可切片,使得一个文件最多作为1片
    @Override
    protected boolean isSplitable(JobContext context, Path filename) {
        return false;
    }
    //设置读取文件的格式为自定义格式
    @Override
    public RecordReader<Text,BytesWritable> createRecordReader(InputSplit inputSplit, TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {
        return new MyRecordReader();
    }
}

2. 自定义RecordReader类

我们主要修改两个地方:key和value。


因为我们Mapper类中的map方法需要有四个参数,其中的KEY_IN和VALUE_IN都是由我们的RecordReader类来设置的,这里我们需要设置一下。


默认的RecordReader类的key为LongWritable类型,也就是一行数据对应的字节偏移量,这里我们设置key为我们的文件名,也就是Text类型。

默认的RecordReader类的value为Text类型,也就是一行文本,这里我们设置value为文件名key对应的文件的二进制序列,也就是BytesWritable类型。

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import java.io.IOException;
public class MyRecordReader extends RecordReader<Text,BytesWritable> {
    private Text key;
    private BytesWritable value;
    private String filename;
    private int length;
    private FileSystem fs;
    private Path path;
    private FSDataInputStream is;
    private boolean flag=true;
    @Override
    public void initialize(InputSplit inputSplit, TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {
        FileSplit fileSplit = (FileSplit) inputSplit;
        filename = fileSplit.getPath().getName();
        length = (int) fileSplit.getLength();
        path = fileSplit.getPath();
        //获取当前Job的配置对象
        Configuration conf = taskAttemptContext.getConfiguration();
        //获取当前Job使用的文件系统
        fs = FileSystem.get(conf);
        is = fs.open(path);
    }
    //文件的名称做为 key - 文件的内容分装为BytesWritable类型的 value, 返回true
    @Override
    public boolean nextKeyValue() throws IOException, InterruptedException {
        //第一次调用nextKeyValue方法
        if (flag){
            //实例化对象
            if (key==null){
                key = new Text();
            }
            if (value==null){
                value = new BytesWritable();
            }
            //赋值
            //将文件名封装到key中
            key.set(filename);
            //将文件的内容读取封装到value中
            byte[] content = new byte[ length];
            IOUtils.readFully(is,content,0,length);
            value.set(content,0,length);
            flag = false;
            return true;
        }
        //第二次调用直接执行 return false
        return false;
    }
    //返回当前读取到的key
    @Override
    public Text getCurrentKey() throws IOException, InterruptedException {
        return key;
    }
    //返回当前读取到的value
    @Override
    public BytesWritable getCurrentValue() throws IOException, InterruptedException {
        return value;
    }
    //返回读取切片的进度
    @Override
    public float getProgress() throws IOException, InterruptedException {
        return 0;
    }
    //关闭资源
    @Override
    public void close() throws IOException {
        if (is != null){
            IOUtils.closeStream(is);
        }
        if (fs != null){
            fs.close();
        }
    }
}


3. Mapper类

在我们的自定义RecordReader类中,我们已经设置输入的key为文件名,value设置为文件的二进制序列,所以这里直接将key和value写出即可,key的类型为Text,value的类型为BytesWritable。

public class SequenceFileMapper extends Mapper<Text, BytesWritable,Text,BytesWritable> {
    @Override
    protected void map(Text key, BytesWritable value, Context context) throws IOException, InterruptedException {
        context.write(key,value);
    }
}

4.Reducer类

public class SequenceFileReducer extends Reducer<Text, BytesWritable,Text,Text> {
    private Text OUT_VALUE = new Text();
    @Override
    protected void reduce(Text key, Iterable<BytesWritable> values, Context context) throws IOException, InterruptedException {
        String value = values.toString();
        OUT_VALUE.set(value);
        context.write(key,OUT_VALUE);
    }
}

5.启动类

import com.lyh.mapreduce.MaxTemp.MaxTempMapper;
import com.lyh.mapreduce.MaxTemp.MaxTempReducer;
import com.lyh.mapreduce.MaxTemp.MaxTempRunner;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
public class MySequenceFileRunner extends Configured implements Tool {
    public static void main(String[] args) throws Exception {
        ToolRunner.run(new Configuration(),new MySequenceFileRunner(),args);
    }
    @Override
    public int run(String[] args) throws Exception {
        //1.获取job
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "my sequence file demo");
        //2.配置jar包路径
        job.setJarByClass(MySequenceFileRunner.class);
        //3.关联mapper和reducer
        job.setMapperClass(SequenceFileMapper.class);
        job.setReducerClass(SequenceFileReducer.class);
        //4.设置map、reduce输出的k、v类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(BytesWritable.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(BytesWritable.class);
        //设置切片机制为我们自定义的切片机制
        job.setInputFormatClass(MyInputFormat.class);
        //5.设置统计文件输入的路径,将命令行的第一个参数作为输入文件的路径
        FileInputFormat.setInputPaths(job,new Path("D:\\MapReduce_Data_Test\\myinputformat\\input"));
        //6.设置结果数据存放路径,将命令行的第二个参数作为数据的输出路径
        FileOutputFormat.setOutputPath(job,new Path("D:\\MapReduce_Data_Test\\myinputformat\\output1"));
        return job.waitForCompletion(true) ? 0 : 1;//verbose:是否监控并打印job的信息
    }
}


执行结果



image.png

image.png

相关文章
|
存储 分布式计算 关系型数据库
MapReduce【自定义OutputFormat】
MapReduce默认的输出格式为TextOutputFormat,它的父类是FileOutputFormat,即按行来写,且内容写到一个文本文件中去,但是并不能满足我们实际开发中的所有需求,所以就需要我们自定义OutPutFormat。
|
分布式计算
MapReduce【自定义分区Partitioner】
实际开发中我们可能根据需求需要将MapReduce的运行结果生成多个不同的文件,比如上一个案例【MapReduce计算广州2022年每月最高温度】,我们需要将前半年和后半年的数据分开写到两个文件中。
|
存储 分布式计算 资源调度
MapReduce框架--InputFormat数据输入--切片优化(11)
MapReduce框架--InputFormat数据输入--切片优化(11)
293 0
MapReduce框架--InputFormat数据输入--切片优化(11)
|
存储 分布式计算 Hadoop
Hadoop中的MapReduce框架原理、Shuffle机制、Partition分区、自定义Partitioner步骤、在Job驱动中,设置自定义Partitioner、Partition 分区案例
Hadoop中的MapReduce框架原理、Shuffle机制、Partition分区、自定义Partitioner步骤、在Job驱动中,设置自定义Partitioner、Partition 分区案例
Hadoop中的MapReduce框架原理、Shuffle机制、Partition分区、自定义Partitioner步骤、在Job驱动中,设置自定义Partitioner、Partition 分区案例
|
分布式计算
MapReduce自定义分区
MapReduce自定义分区
|
分布式计算 数据挖掘
五十三、Mapreduce之自定义outputformat案例
五十三、Mapreduce之自定义outputformat案例
五十三、Mapreduce之自定义outputformat案例
|
分布式计算 自然语言处理 Java
MapReduce实现与自定义词典文件基于hanLP的中文分词详解
文本分类任务的第1步,就是对语料进行分词。在单机模式下,可以选择python jieba分词,使用起来较方便。但是如果希望在Hadoop集群上通过mapreduce程序来进行分词,则hanLP更加胜任。
2724 0
|
分布式计算 Java Hadoop
一脸懵逼学习Hadoop中的MapReduce程序中自定义分组的实现
1:首先搞好实体类对象:   write 是把每个对象序列化到输出流,readFields是把输入流字节反序列化,实现WritableComparable,Java值对象的比较:一般需要重写toString(),hashCode(),equals()方法 1 package com.
1163 0
|
分布式计算 资源调度 Hadoop
使用Mapreduce案例编写用于统计文本中单词出现的次数的案例、mapreduce本地运行等,Combiner使用及其相关的知识,流量统计案例和流量总和以及流量排序案例,自定义Partitioner
工程结构: 在整个案例过程中,代码如下: WordCountMapper的代码如下: package cn.toto.bigdata.mr.wc;   import java.io.IOException;   import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable;
2454 0