大数据实战——WordCount案例实践-阿里云开发者社区

大数据实战——WordCount案例实践

2024-05-13 311

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 大数据实战——WordCount案例实践

一．过程分析（截图）

1.确定Hadoop处于启动状态

图1：打开hdfs

在终端输入./sbin/start-dfs.sh启动hdfs。

图2：确定Hadoop处于启动状态

通过输入jps确定Hadoop处于启动状态。

2.在/usr/local/filecotent下新建hellodemo文件，并写入以下内容

图3：新建filecotent文件夹

cd进入/usr/local，通过sudo mkdir filecotent新建filecotent文件夹。

图4：新建hellodemo文件

在终端输入sudo vi hellodemo新建hellodemo文件，并写入以下内容：

hello you

Hello me

图5：进入hellodemo文件

图6：写好内容进hellodemo文件

图7：按 ESC 保存，然后 shift+：wq

3.hdfs中创建data目录

图8：hdfs中创建data目录

在终端进入hadoop文件夹后输入bin/hdfs dfs -mkdir data创建data目录。

4.将/usr/local/filecontent/hellodemo 上传到hdfs的data目录中

图9：上传到hdfs的data目录

5.查看data目录下的内容

图10：查看data目录下的内容

在终端输入命令：bin/hdfs dfs -ls data查看data目录下的内容，可以看到我们已经成功将刚刚写的hellodemo文件上传到hdfs的data目录下。

图11：查看hellodemo文件内容

在终端输入命令：bin/hdfs dfs -text data/hellodemo查看hellodemo文件内容。

6.编写WordCountTest.java并运行文件

6.1进入eclipse

图12：启动eclipse

在终端输入启动命令：./eclipse启动eclipse。

6.2默认workspace（这里必须是Hadoop用户下，如果是个人用户名下，就代表前面错误，你不是在Hadoop下完成的操作，会显示没有java路径）

图13：默认workspace

默认workspace点击launch进入下一步。

6.3新建Mapreduce包和class

图14：新建Mapreduce包

图15：给新建class起名WordCountTest

6.4点击libraries，添加jar包，添加完成后点击finish

图16：添加mapreduce的jar包

图17:添加mapreduce的里面lib的jar包

图18：添加yarn的jar包

图19:添加yarn的里面lib的jar包

6.5编写WordCountTest.java

图20：编写WordCountTest.java

图21：注意要把位置写对

图23：运行成功

7.打成jar包并指定主类，在linux中运行

图24：创建myapp

在终端输入命令：mkdir myapp创建myapp目录。

图25：选择“export”

在Eclipse工作界面左侧的“Package Explorer”面板中，在工程名称“WordCount”上点击鼠标右键，在弹出的菜单中选择“Export”。

图26：选择“Runnable JAR file”

在该界面中，选择“Runnable JAR file”，然后，点击“Next>”按钮。

图27：WordCountTest工程打包生成WordCountTest.jar

在该界面中，“Launch configuration”用于设置生成的JAR包被部署启动时运行的主类，需要在下拉列表中选择刚才配置的类“WordCount”。在“Export destination”中需要设置JAR包要输出保存到哪个目录，这里设置为“/usr/local/hadoop/myapp/WordCountTest.jar”。在“Library handling”下面选择“Extract required libraries into generated JAR”。然后，点击“Finish”按钮完成打包。

图28：查看是否打包成功

在进入myapp目录下终端输入命令：ls，可以看到，“/usr/local/hadoop/myapp”目录下已经存在一个WordCount.jar文件。

8.查看输出文件内容

图29：使用hadoop jar命令运行程序

在终端输入命令：./bin/hadoop jar ./myapp/WordCount.jar运行打包的程序。

图30：运行结果

词频统计结果已经被写入了HDFS的“/user/hadoop/out1”目录中。

图31：查看输出文件内容

在终端输入命令：bin/hdfs dfs -cat /out1/*查看输出文件内容，词频统计结果入图31所示，自此词频统计程序顺利运行结束。

二．解题思路

1.MapReduce原理

MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。

Map

Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。

Reduec

Reduce负责“合”，即对map阶段的结果进行全局汇总。

图32：WordCountTest说明

2. WordCountTest解题思路

要求：在给定的文本文件中统计输出每一个单词出现的总次数。

根据一个完整的MapReduce程序在分布式运行时需要有三类实例进程：

（1）MrAppMaster：负责整个程序的过程调度及状态协调。

（2）MapTask：负责Map阶段的整个数据处理流程。

（3）ReduceTask：负责Reduce阶段的整个数据处理流程。

所以WordCountTest需要有Map类、Reduce类和main主类。

2.1 编写Mapper

（1）自定义的MyMapper要继承自己的父类

（2）Mapper的输入数据是KV对（K：偏移量，类型为LongWritable，V：对应的内容，类型为Text）

（3）Mapper中的业务逻辑写在map()方法中

（4）Mapper的输出数据是KV对的形式

（5）map() 方法对每一个<K,V>调用一次

将传给我们的文本内容转换成String，根据空格将这一行切分成单词，再将单词输出为<单词,1>。

代码：

private static class MyMapper extends Mapper<LongWritable, Text, Text,LongWritable>{
    Text k2 = new Text();
    LongWritable v2 = new LongWritable();
    @Override
    protected void map(LongWritable key, Text value,//三个参数
                       Mapper<LongWritable, Text, Text, LongWritable>.Context context)
            throws IOException, InterruptedException {
        //获取一行
        String line = value.toString();
        //切割
        String[] splited = line.split(" ");//因为split方法属于string字符的方法，首先应该转化为string类型在使用
        //输出
        for (String word : splited) {
            //word表示每一行中每个单词
            //对K2和V2赋值
            k2.set(word);
            v2.set(1L);
            context.write(k2, v2);
        }
    }
}

2.2 编写Reducer阶段

（1）用户自定义的MyReducer要继承自己的父类

（2）Reducer的输入数据类型对应Mapper的输出数据类型，也是KV

也就是说map输出的结果然后放到reduce中处理

（3）Reducer的业务逻辑写在reduce()方法中

（4）对每一组相同k的<k,v>组调用一次reduce()方法

汇总各个key的个数，输出该key的总次数。

代码：

private static class MyReducer extends Reducer<Text, LongWritable, Text, LongWritable> {
    LongWritable v3 = new LongWritable();
    @Override //k2表示单词，v2s表示不同单词出现的次数，需要对v2s进行迭代
    protected void reduce(Text k2, Iterable<LongWritable> v2s,  //三个参数
                          Reducer<Text, LongWritable, Text, LongWritable>.Context context)
            throws IOException, InterruptedException {
        //累加求和
        long sum =0;
        for (LongWritable v2 : v2s) {
            //LongWritable本身是hadoop类型，sum是java类型
            //首先将LongWritable转化为字符串，利用get方法
            sum+=v2.get();
        }
        //输出
        v3.set(sum);
        //将k2,v3写出去
        context.write(k2, v3);
    }
}

2.3 运行分析

图33：运行分析

图34：运行结果

大数据实战——WordCount案例实践

一．过程分析（截图）

1.确定Hadoop处于启动状态

2.在/usr/local/filecotent下新建hellodemo文件，并写入以下内容

3.hdfs中创建data目录

4.将/usr/local/filecontent/hellodemo 上传到hdfs的data目录中

5.查看data目录下的内容

6.编写WordCountTest.java并运行文件

6.1进入eclipse

6.2默认workspace（这里必须是Hadoop用户下，如果是个人用户名下，就代表前面错误，你不是在Hadoop下完成的操作，会显示没有java路径）

6.3新建Mapreduce包和class

6.4点击libraries，添加jar包，添加完成后点击finish

6.5编写WordCountTest.java

7.打成jar包并指定主类，在linux中运行

8.查看输出文件内容

二．解题思路

1.MapReduce原理

2. WordCountTest解题思路

2.1 编写Mapper

2.2 编写Reducer阶段

2.3 运行分析

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

大数据实战——WordCount案例实践

一．过程分析（截图）

1.确定Hadoop处于启动状态

2.在/usr/local/filecotent下新建hellodemo文件，并写入以下内容

3.hdfs中创建data目录

4.将/usr/local/filecontent/hellodemo 上传到hdfs的data目录中

5.查看data目录下的内容

6.编写WordCountTest.java并运行文件

6.1进入eclipse

6.2默认workspace（这里必须是Hadoop用户下，如果是个人用户名下，就代表前面错误，你不是在Hadoop下完成的操作，会显示没有java路径）

6.3新建Mapreduce包和class

6.4点击libraries，添加jar包，添加完成后点击finish

6.5编写WordCountTest.java

7.打成jar包并指定主类，在linux中运行

8.查看输出文件内容

二．解题思路

1.MapReduce原理

2. WordCountTest解题思路

2.1 编写Mapper

2.2 编写Reducer阶段

2.3 运行分析

热门文章

最新文章

相关课程

相关电子书