附录E Hadoop的word count例子-阿里云开发者社区

附录E Hadoop的word count例子

2018-03-04 1219

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

注：本文是为了配合《Spark内核设计的艺术——架构设计与实现》一书的内容而编写，目的是为了节省成本、方便读者查阅。书中附录E的内容都在本文呈现。

这里主要演示Hadoop1.0版本中的word count例子，用于和Spark中的实现对比。

package org.apache.hadoop.examples;
import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.MapReduceBase;
import org.apache.hadoop.mapred.Mapper;
import org.apache.hadoop.mapred.OutputCollector;
import org.apache.hadoop.mapred.Reducer;
import org.apache.hadoop.mapred.Reporter;
import org.apache.hadoop.mapred.TextInputFormat;
import org.apache.hadoop.mapred.TextOutputFormat;
public class WordCount {
    public static class Map extends MapReduceBase implements
            Mapper<LongWritable, Text, Text, IntWritable> {
        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();
        public void map(LongWritable key, Text value,
                OutputCollector<Text, IntWritable> output, Reporter reporter)
                throws IOException {
            String line = value.toString();
            StringTokenizer tokenizer = new StringTokenizer(line);
            while (tokenizer.hasMoreTokens()) {
                word.set(tokenizer.nextToken());
                output.collect(word, one);
            }
        }
    }

    public static class Reduce extends MapReduceBase implements
            Reducer<Text, IntWritable, Text, IntWritable> {
        public void reduce(Text key, Iterator<IntWritable> values,
                OutputCollector<Text, IntWritable> output, Reporter reporter)
                throws IOException {
            int sum = 0;
            while (values.hasNext()) {
                sum += values.next().get();
            }
            output.collect(key, new IntWritable(sum));
        }
    }
    public static void main(String[] args) throws Exception {
        JobConf conf = new JobConf(WordCount.class);
        conf.setJobName("wordcount");
        conf.setOutputKeyClass(Text.class);
        conf.setOutputValueClass(IntWritable.class);
        conf.setMapperClass(Map.class);
        conf.setCombinerClass(Reduce.class);
        conf.setReducerClass(Reduce.class);
        conf.setInputFormat(TextInputFormat.class);
        conf.setOutputFormat(TextOutputFormat.class);
        FileInputFormat.setInputPaths(conf, new Path(args[0]));
        FileOutputFormat.setOutputPath(conf, new Path(args[1]));
        JobClient.runJob(conf);
    }
}

关于《Spark内核设计的艺术架构设计与实现》

经过近一年的准备，《 Spark内核设计的艺术架构设计与实现》一书现已出版发行，图书如图：

纸质版售卖链接如下：

京东： https://item.jd.com/12302500.html

天猫： https://detail.tmall.com/item.htm?spm=a220m.1000858.1000725.1.7236216ekfQfsM&id=562943501742&user_id=3446196188&cat_id=2&is_b=1&rn=6c37a0d5e81d4478e3a1a30808813372

当当： http://product.dangdang.com/25221251.html

亚马逊： https://www.amazon.cn/dp/B0794L5SK7/ref=sr_1_2?ie=UTF8&qid=1516613443&sr=8-2&keywords=spark%E5%86%85%E6%A0%B8%E8%AE%BE%E8%AE%A1%E7%9A%84%E8%89%BA%E6%9C%AF+%E6%9E%B6%E6%9E%84%E8%AE%BE%E8%AE%A1%E4%B8%8E%E5%AE%9E%E7%8E%B0

电子版售卖链接如下：

京东： https://e.jd.com/30389208.html

知乎： https://www.zhihu.com/publications/book/119559409?books_in_list=119559411,119559467,119559409,119559533,119559378,119559407

亚马逊： https://www.amazon.cn/dp/B078PGW2XS/ref=sr_1_1?ie=UTF8&qid=1516613443&sr=8-1&keywords=spark%E5%86%85%E6%A0%B8%E8%AE%BE%E8%AE%A1%E7%9A%84%E8%89%BA%E6%9C%AF+%E6%9E%B6%E6%9E%84%E8%AE%BE%E8%AE%A1%E4%B8%8E%E5%AE%9E%E7%8E%B0

附录E Hadoop的word count例子

关于《Spark内核设计的艺术架构设计与实现》

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

附录E Hadoop的word count例子

关于《Spark内核设计的艺术 架构设计与实现》

热门文章

最新文章

相关课程

相关电子书

相关实验场景

关于《Spark内核设计的艺术架构设计与实现》