WordCount2

简介: <p><span style="font-size:14px">WordCount2中我们使用Hadoop框架中给我们提供的类来实现,我们的目的是用最少的代码来完成同样的任务</span></p> <p></p><pre name="code" class="java">import java.io.IOException;import org.apache.hadoop.fs.P

WordCount2中我们使用Hadoop框架中给我们提供的类来实现,我们的目的是用最少的代码来完成同样的任务

import java.io.IOException;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.lib.LongSumReducer;
import org.apache.hadoop.mapred.lib.TokenCountMapper;



public class WordCount2 {

	public static void main(String[] args) {
		JobClient job =new JobClient();
		JobConf conf = new JobConf(WordCount2.class);
		
		FileInputFormat.addInputPath(conf, new Path(args[0]));
		FileOutputFormat.setOutputPath(conf, new Path(args[1]));
		
		conf.setOutputKeyClass(Text.class);
		conf.setOutputValueClass(LongWritable.class);
		
		conf.setMapperClass(TokenCountMapper.class);
		conf.setCombinerClass(LongSumReducer.class);
		conf.setReducerClass(LongSumReducer.class);
		
		job.setConf(conf);
		
		try {
			JobClient.runJob(conf);
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
}


目录
相关文章
|
2月前
|
分布式计算 Hadoop Java
Hadoop_MapReduce中的WordCount运行详解
MapReduce的WordCount程序在分布式系统中计算大数据集中单词出现的频率时,提供了一个可以复用和可伸缩的解决方案。它体现了MapReduce编程模型的强大之处:简单、可靠且将任务自动分布到一个集群中去执行。它首先运行一系列的Map任务来处理原始数据,然后通过Shuffle和Sort机制来组织结果,最后通过运行Reduce任务来完成最终计算。因此,即便数据量非常大,通过该模型也可以高效地进行处理。
52 1
|
5月前
|
分布式计算 Hadoop
使用Hadoop ToolRunner 运行wordcount demo
使用Hadoop ToolRunner 运行wordcount demo
44 0
|
5月前
|
分布式计算 Hadoop Java
Hadoop 跑wordcount demo
Hadoop 跑wordcount demo
39 0
|
分布式计算 大数据 Spark
|
存储 分布式计算 资源调度
|
存储 分布式计算 Hadoop
Mapreduce中WordCount源码理解
Mapreduce中WordCount源码理解
|
资源调度 分布式计算 Java
MapReduce入门例子之WordCount单词计数
MapReduce入门例子之WordCount单词计数
155 0
MapReduce入门例子之WordCount单词计数
|
分布式计算 Hadoop Java
Mapreduce实验之wordcount
利用hadoop函数,标准输出输出堆中的k个单词与频次。
Mapreduce实验之wordcount
|
分布式计算 Hadoop 开发者
WordCount 案例 Reducer| 学习笔记
快速学习 WordCount 案例 Reducer
106 0
WordCount 案例 Reducer| 学习笔记
|
存储 分布式计算 资源调度
Hadoop之MapReduce01【自带wordcount案例】
Mapreduce 是一个分布式运算程序的编程框架,是用户开发“基于 hadoop 的数据分析应用”的核心框架,Mapreduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的 分布式运算程序,并发运行在一个 hadoop 集群上.
Hadoop之MapReduce01【自带wordcount案例】