MapReduce编程实例之自定义排序

简介: 任务描述: 给出一组数据,自定义排序的样式,第一列降序,相同时第二列升序 example Data: 2013 1 2013 5 2014 5 2014 8 2015 9 2015 4 Code: package mrTest;import java.

任务描述:

给出一组数据,自定义排序的样式,第一列降序,相同时第二列升序

example Data:

2013 1
2013 5
2014 5
2014 8
2015 9
2015 4

Code:

package mrTest;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class zidingyiSort {

	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		// TODO Auto-generated method stub

		Job job = new Job();
		job.setJarByClass(zidingyiSort.class);
		// 1
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		// 2
		job.setMapperClass(Map.class);
		job.setMapOutputKeyClass(MyK2.class);
		job.setMapOutputValueClass(LongWritable.class);
		// 3
		// 4
		// 5
		job.setNumReduceTasks(1);
		// 6
		job.setReducerClass(Reduce.class);
		job.setOutputKeyClass(LongWritable.class);
		job.setOutputValueClass(LongWritable.class);
		// 7
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		// 8
		System.exit(job.waitForCompletion(true)? 0 :1 );
	}
public static class Map extends Mapper<Object, Text, MyK2, LongWritable>{
	public void map(Object key, Text value, Context context) throws IOException, InterruptedException{
		String line = value.toString();
		String[] split = line.split("\t");
		MyK2 my = new MyK2(Long.parseLong(split[0]), Long.parseLong(split[1]));
		context.write(my, new LongWritable(1));
	}
} 
public static class Reduce extends Reducer<MyK2, LongWritable, LongWritable, LongWritable>{
	public void reduce(MyK2 key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException{
		context.write(new LongWritable(key.myk2), new LongWritable(key.myv2));
	}
} 

public static class MyK2 implements WritableComparable<MyK2>{

	public long myk2;
	public long myv2;
	
	MyK2(){}
	
	MyK2(long myk2, long myv2){
		this.myk2 = myk2;
		this.myv2 = myv2;
	}
	
	@Override
	public void readFields(DataInput in) throws IOException {
		// TODO Auto-generated method stub
		this.myk2 = in.readLong();
		this.myv2 = in.readLong();
	}

	@Override
	public void write(DataOutput out) throws IOException {
		// TODO Auto-generated method stub
		out.writeLong(myk2);
		out.writeLong(myv2);
	}
	
	@Override
	public int compareTo(MyK2  myk2) {
		// TODO Auto-generated method stub
		//myk2之差>0 返回-1          <0 返回1 代表 myk2列降序
		//myk2之差<0 返回-1           >0 返回1 代表 myk2列升序
		long temp = this.myk2 - myk2.myk2;
		if(temp>0)
			return -1;
		else if(temp<0)
			return 1;
		//控制myv2升序
		return (int)(this.myv2 - myk2.myv2);
	}
}
}
效果展示:

2015 4
2015 9
2014 5
2014 8
2013 1
2013 5

相关文章
|
4月前
|
分布式计算 Hadoop Java
MapReduce编程:自定义分区和自定义计数器
MapReduce编程:自定义分区和自定义计数器
31 0
|
6月前
|
分布式计算 数据库
35 MAPREDUCE自定义outputFormat
35 MAPREDUCE自定义outputFormat
16 0
|
5月前
|
存储 分布式计算 负载均衡
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
68 0
|
2月前
|
存储 分布式计算 算法
【底层服务/编程功底系列】「大数据算法体系」带你深入分析MapReduce算法 — Shuffle的执行过程
【底层服务/编程功底系列】「大数据算法体系」带你深入分析MapReduce算法 — Shuffle的执行过程
29 0
|
1月前
|
机器学习/深度学习 分布式计算 监控
面经:MapReduce编程模型与优化策略详解
【4月更文挑战第10天】本文是关于MapReduce在大数据处理中的关键作用的博客摘要。作者分享了面试经验,强调了MapReduce的基本原理、Hadoop API、优化策略和应用场景。MapReduce包含Map和Reduce两个主要阶段,Map阶段处理输入数据生成中间键值对,Reduce阶段进行聚合计算。面试重点包括理解MapReduce工作流程、使用Hadoop API编写Map/Reduce函数、选择优化策略(如分区、Combiner和序列化)以及应用场景,如日志分析和机器学习。
21 2
|
1月前
|
分布式计算 监控 Hadoop
Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
58 0
|
4月前
|
分布式计算 Java Hadoop
MapReduce编程:检索特定群体搜索记录和定义分片操作
MapReduce编程:检索特定群体搜索记录和定义分片操作
31 0
|
4月前
|
分布式计算 Java Hadoop
MapReduce编程:数据过滤保存、UID 去重
MapReduce编程:数据过滤保存、UID 去重
53 0
|
4月前
|
缓存 分布式计算 Java
MapReduce编程:join操作和聚合操作
MapReduce编程:join操作和聚合操作
36 0
|
5月前
|
存储 分布式计算 分布式数据库
对给定的数据利用MapReduce编程实现数据的清洗和预处理,编程实现数据存储到HBase数据库,实现数据的增删改查操作接口
对给定的数据利用MapReduce编程实现数据的清洗和预处理,编程实现数据存储到HBase数据库,实现数据的增删改查操作接口
29 0