三十三、发布MapReduce程序在集群上运行之wordcount案例实施

简介: 三十三、发布MapReduce程序在集群上运行之wordcount案例实施

环境准备:


Hadoop2.6.0

IDEA

maven3.5.4

MapReduce在本地已经可以正常运行,具体见:


MapReduce之wordcount案例(环境搭建及案例实施)https://blog.csdn.net/m0_54925305/article/details/120155693

https://blog.csdn.net/m0_54925305/article/details/120155693


案例实施:


1.在原pom.xml依赖中添加集群依赖:


<build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.5</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>
            <plugin>
                <artifactId>maven-assembly-plugin </artifactId>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                    <archive>
                        <manifest>
                            <mainClass>org.example.mapreduce.wordcount.WordCountDriver</mainClass>
                        </manifest>
                    </archive>
                </configuration>
                <executions>
                    <execution>
                        <id>make-assembly</id>
                        <phase>package</phase>
                        <goals>
                            <goal>single</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>

2.修改WordCountDriver代码:


原本地代码为:


45.png


修改为集群代码:


46.png


3.生成jar包:


47.png


注:点击package生成集群运行的依赖jar包


4.找到本地生成的jar包:


成功运行完成后如图:


48.png


在这里找到jar包:


49.png


50.png


注:上面短的为不带依赖的jar包,长的为带依赖的jar包,在集群中是有很多依赖的,所以只需要导入不带依赖的jar包即可


5.拷贝并重命名jar包:


       将jar包拷贝到桌面并重命名为wc.jar


51.png


6.启动集群:(此处将以完全分布式作为案例)


52.png


 55.png


56.png


7.将jar包上传到集群上:


       此处使用Xshell,Xftp传输jar包


53.png


8. 虚拟机查看jar包是否传入:


54.png


9.将数据文件上传到HDFS上:


       (1)在HDFS根目录下新建input目录:


57.png


       (2)上传本地HelloWord.txt数据文件至HDFS的input目录下 :


58.png


注:此处依旧使用Xshell,Xftp传输数据文件

59.png


       (3)将上传到虚拟机/input目录下的HelloWord.txt上传到HDFS上:


60.png


61.png


        (4)在虚拟机浏览器地址localhost:50070找到/input目录下的HelloWord.txt


62.png

63.png


注:如图即为上传数据文件至HDFS成功


10.运行jar包程序:


       (1)先把wordcountDriver的全驱动类名copy出来:


64.png


        (2)运行:

67.png

       注:使用hadoop jar 命令 + (jar包在当前目录下无需加路径)jar包名 + 全驱动类名 + 输入路径 + 输出路径         #此处jar包根据自身实际情况进行修改


       运行过程注意观察这几处字样,即为运行成功:


65.png


66.png


11.检测运行结果:


       (1)将结果上传至HDFS:


68.png


        (2)在终端查看:


69.png


        (3)在虚拟机浏览器HDFS端查看:


70.png


       原数据为:

71.png


发布MapReduce程序在集群上运行之wordcount案例实施完成


相关文章
|
8月前
|
存储 分布式计算 监控
Hadoop【基础知识 01+02】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
347 2
|
5月前
|
分布式计算 Hadoop Java
Hadoop_MapReduce中的WordCount运行详解
MapReduce的WordCount程序在分布式系统中计算大数据集中单词出现的频率时,提供了一个可以复用和可伸缩的解决方案。它体现了MapReduce编程模型的强大之处:简单、可靠且将任务自动分布到一个集群中去执行。它首先运行一系列的Map任务来处理原始数据,然后通过Shuffle和Sort机制来组织结果,最后通过运行Reduce任务来完成最终计算。因此,即便数据量非常大,通过该模型也可以高效地进行处理。
120 1
|
4月前
|
分布式计算 资源调度 Hadoop
在YARN集群上运行部署MapReduce分布式计算框架
主要介绍了如何在YARN集群上配置和运行MapReduce分布式计算框架,包括准备数据、运行MapReduce任务、查看任务日志,并启动HistoryServer服务以便于日志查看。
80 0
|
5月前
|
分布式计算 资源调度 监控
MapReduce程序中的主要配置参数详解
【8月更文挑战第31天】
203 0
|
7月前
|
分布式计算 Java Hadoop
简单的java Hadoop MapReduce程序(计算平均成绩)从打包到提交及运行
简单的java Hadoop MapReduce程序(计算平均成绩)从打包到提交及运行
64 0
|
7月前
|
分布式计算 数据挖掘
通过mapreduce程序统计旅游订单(wordcount升级版)
通过mapreduce程序统计旅游订单(wordcount升级版)
|
8月前
|
分布式计算 数据可视化 Hadoop
大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现
大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现
|
8月前
|
分布式计算 监控 Hadoop
Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
332 0
|
8月前
|
存储 分布式计算 算法
MapReduce计数器,Tash的运行机制,shuffle过程,压缩算法
MapReduce计数器,Tash的运行机制,shuffle过程,压缩算法
66 0
|
8月前
|
分布式计算 Hadoop
Hadoop系列 mapreduce 原理分析
Hadoop系列 mapreduce 原理分析
86 1