MapReduce基础编程之按日期统计及按日期排序(下)

简介: MapReduce基础编程之按日期统计及按日期排序(下)

2. 需求2:按日期进行排序

完整代码如下:

package com.shaonaiyi.mapreduce;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
public class accessTimesSort {
    public static class MyMapper extends Mapper<Object, Text, IntWritable, Text> {
        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            String lines = value.toString();
            // 按tab键作为分隔符
            String array[] = lines.split("\t");
            // 将访问次数作为key
            int keyOutput = Integer.parseInt(array[1]);
            // 将日期作为value
            String valueOutput = array[0];
            context.write(new IntWritable(keyOutput), new Text(valueOutput));
        }
    }
    public static class MyReducer extends Reducer<IntWritable, Text, Text, IntWritable> {
        public void reduce(IntWritable key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
            for (Text value : values) {
              // 对于IntWritable类型的key,MapReduce会默认进行升序排序
                context.write(value, key);
            }
        }
    }
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
        if (otherArgs.length < 2) {
            System.err.println("Usage: wordcount <in> [<in>...] <out>");
            System.exit(2);
        }
        Job job = new Job(conf, "Access Time Sort");
        job.setJarByClass(accessTimesSort.class);
        job.setMapperClass(MyMapper.class);
        job.setReducerClass(MyReducer.class);
        job.setMapOutputKeyClass(IntWritable.class);
        job.setMapOutputValueClass(Text.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        for (int i = 0; i < otherArgs.length - 1; ++i) {
            FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
        }
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length - 1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}


说明:

1、如果key为IntWritable类型,MapReduce会默认进行升序排序;

2、如果key为Text类型,MapReduce会默认按照字典顺序对字符串排序。


0x03 运行代码并观察结果


1. 需求1:按日期进行统计

(1)需求1传递参数


image.png


然后输入参数两个参数:


image.png


(2)结果

image.png


2. 需求2:按日期进行排序

(1)需求1传递参数

image.png


(2)结果

image.png


0x04 彩蛋


1. 打包放到HDFS上去统计

(1)将数据放到HDFS的 / 路径

(2)将项目达成jar包,比如此处为 hadoop-1.0.jar

(3)执行命令


格式为:

hadoop jar xxx.jar main方法的类 统计的文件路径 输出结果的路径


执行命令为:

hadoop jar target/hadoop-1.0.jar com.shaonaiyi.mapreduce.dailyAccessCount /user_login.txt /output


统计结果其实已经有了:


image.png


0xFF 总结


  1. 本文章对MapReduce进行基础的学习
  2. 想要学习更多大数据相关内容,请关注我!
相关文章
|
7月前
|
分布式计算 Java Hadoop
云计算与大数据实验五 MapReduce编程
云计算与大数据实验五 MapReduce编程
174 0
|
9月前
|
存储 分布式计算 Hadoop
MapReduce排序
MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数
|
9月前
|
存储 分布式计算 搜索推荐
MapReduce序列化【用户流量使用统计】
序列化是将对象的状态信息转化为可以存储或传输的形式的过程,通常指将对象在内存中的状态信息转换为可以被存储在外部介质上的二进制流或其他格式的数据,以便在需要时可以重新读取和还原对象的状态信息。
|
分布式计算 算法 Java
MapReduce入门编程-成绩求和排序
MapReduce入门编程-成绩求和排序
MapReduce入门编程-成绩求和排序
|
分布式计算 Hadoop
mapreduce单词统计
mapreduce单词统计
|
分布式计算
有一个日志文件visitlog.txt,其中记录了用户访问网站的日期和访问的网站地址信息,每行一条记录。要求编写mapreduce程序完成以下功能: 1、 将不同访问日期的访问记录分配给不同的red
有一个日志文件visitlog.txt,其中记录了用户访问网站的日期和访问的网站地址信息,每行一条记录。要求编写mapreduce程序完成以下功能: 1、 将不同访问日期的访问记录分配给不同的red
88 0
|
分布式计算
mapreduce辅助排序和序列化的实例练习
mapreduce辅助排序和序列化的实例练习
mapreduce辅助排序和序列化的实例练习
|
分布式计算 Python
Python实现一个最简单的MapReduce编程模型WordCount
Python实现一个最简单的MapReduce编程模型WordCount
105 0
|
分布式计算 Java Hadoop
MapReduce基础编程之按日期统计及按日期排序(上)
MapReduce基础编程之按日期统计及按日期排序(上)
197 0
MapReduce基础编程之按日期统计及按日期排序(上)
|
6月前
|
数据采集 分布式计算 搜索推荐
Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结(一)
Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结(一)