使用Maven构建Hadoop工程并实现词频统计案例(详细篇)

2023-01-02 717

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 使用Maven构建Hadoop工程并实现词频统计案例(详细篇)

使用Maven构建Hadoop工程并实现词频统计案例(详细篇)

一、实验环境：

Hadoop3.1.3
IDEA
CentOS7.5
Maven3.6.3
伪分布式

二、使用Maven构建Hadoop工程

1.解压Maven到自己的安装目录

tar -zxvf ./apache-maven-3.6.3-bin.tar.gz -C /opt/module/

2.配置Maven环境变量

vim /etc/profile.d/my_env.sh

# JDK_HOMEexportJAVA_HOME=/opt/module/jdk1.8.0_212
exportCLASSPATH=$:CLASSPATH:$JAVA_HOME/lib/
exportPATH=$PATH:$JAVA_HOME/bin
#HADOOP_HOMEexportHADOOP_HOME=/opt/module/hadoop-3.1.3
exportPATH=$PATH:$HADOOP_HOME/bin
exportPATH=$PATH:$HADOOP_HOME/sbin
# Set Maven EnvironmentexportMAVEN_HOME=/opt/module/maven-3.6.3
exportPATH=$PATH:$MAVEN_HOME/bin

3.查看maven版本信息

mvn -version

4.使用IDEA创建一个空项目(提前在IDEA中配置Maven)

如图：（借用尚硅谷的图）

5.Maven安装目录和仓库地址的设置

# 先进入到maven的安装目录# 修改 settings.xml（核心配置文件）vim ./conf/settings.xml

# 本地仓库地址更改到/home/zhangsan/LocalRepository，默认在xxx\.m2\repository<localRepository>/home/zhangsan/LocalRepository</localRepository>

# 配置阿里云镜像（下载速度快）<mirror>
    <id>nexus-aliyun</id>
    <mirrorOf>central</mirrorOf>
    <name>Nexus aliyun</name>
    <url>http://maven.aliyun.com/nexus/content/groups/public</url>
</mirror>

Maven home directory：可以指定本地 Maven 的安装目录所在。这里不建议使用IDEA默认的。

User settings file / Local repository：我们还可以指定 Maven 的 settings.xml 位置和本地仓库位置。

三、词频统计案例

配置文件：

<?xmlversion="1.0" encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>com.zhangsan</groupId><artifactId>MapReduce</artifactId><version>1.0-SNAPSHOT</version><dependencies><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>3.1.3</version></dependency><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>3.8.2</version><scope>test</scope></dependency><dependency><groupId>org.apache.logging.log4j</groupId><artifactId>log4j-slf4j-impl</artifactId><version>2.12.0</version></dependency></dependencies></project>

WordCount案例代码：

Mapper类

Reducer类

Driver类

执行Jar包之前要先在HDFS上创建一个文本文件作为词频统计的输入文件

hdfs dfs -mkdir /wcinput

并创建一个文本文件：word.txt(内容如下)

hello java

hello hadoop

hello mapreduce

在Hadoop安装目录下执行Jar包(MR的Jar放置在hadoop安装目录下)

hadoop jar ./MapReduce-1.0-SNAPSHOT.jar WordCountDirver /wcinput /wcoutput

执行Jar包的成功运行结果：

Web端可以查看到成功运行：

命令行查看/wcoutput的词频统计结果

四、报错解决

1.Hadoop：找不到或无法加载主类org.apache.hadoop.mapreduce.v2.app.MRAppMaster

解决方案：

# 输入命令 hadoop classpath

<!--先输出的结果复制到yarn-site.xml--><property><name>yarn.application.classpath</name><value>/opt/module/hadoop-3.1.3/etc/hadoop:/opt/module/hadoop-3.1.3/share/hadoop/common/lib/*:/opt/module/hadoop-3.1.3/share/hadoop/common/*:/opt/module/hadoop-3.1.3/share/hadoop/hdfs:/opt/module/hadoop-3.1.3/share/hadoop/hdfs/lib/*:/opt/module/hadoop-3.1.3/share/hadoop/hdfs/*:/opt/module/hadoop-3.1.3/share/hadoop/mapreduce/lib/*:/opt/module/hadoop-3.1.3/share/hadoop/mapreduce/*:/opt/module/hadoop-3.1.3/share/hadoop/yarn:/opt/module/hadoop-3.1.3/share/hadoop/yarn/lib/*:/opt/module/hadoop-3.1.3/share/hadoop/yarn/*
</value></property>

2.INFO ipc.Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)

原因是：本人机器采用 伪分布式 ，且 选择启动Yarn为MapReduce作业进行资源管理和任务调度 ，然后机器有没有启动Yarn，从而出错。

解决方案 ：

start-yarn.sh

Yarn对于分布式模式（真正由多台机器构成的集群环境）才有意义，在伪分布式环境下，Yarn其实是无法真正发挥作用的，因此，在伪分布式环境下不需要借助于Yarn为MapReduce作业进行资源管理和任务调度，而是可以直接借助于Hadoop自身内置的 mapred.LocalJobRunner 来为mapReduce作业进行资源管理和任务调度。也就是说，不启动Yarn照样可以运行MapReduce程序。

选择启动Yarn为MapReduce作业进行资源管理和任务调度的设置方式可以参考这一篇文章

解决方案 ：

start-yarn.sh

Yarn对于分布式模式（真正由多台机器构成的集群环境）才有意义，在伪分布式环境下，Yarn其实是无法真正发挥作用的，因此，在伪分布式环境下不需要借助于Yarn为MapReduce作业进行资源管理和任务调度，而是可以直接借助于Hadoop自身内置的 `mapred.LocalJobRunner`来为mapReduce作业进行资源管理和任务调度。也就是说，不启动Yarn照样可以运行MapReduce程序。

使用Maven构建Hadoop工程并实现词频统计案例(详细篇)

使用Maven构建Hadoop工程并实现词频统计案例(详细篇)

一、实验环境：

二、使用Maven构建Hadoop工程

1.解压Maven到自己的安装目录

2.配置Maven环境变量

3.查看maven版本信息

4.使用IDEA创建一个空项目(提前在IDEA中配置Maven)

5.Maven安装目录和仓库地址的设置

三、词频统计案例

四、报错解决

1.Hadoop：找不到或无法加载主类org.apache.hadoop.mapreduce.v2.app.MRAppMaster

2.INFO ipc.Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

使用Maven构建Hadoop工程并实现词频统计案例(详细篇)

使用Maven构建Hadoop工程并实现词频统计案例(详细篇)

一、实验环境：

二、使用Maven构建Hadoop工程

1.解压Maven到自己的安装目录

2.配置Maven环境变量

3.查看maven版本信息

4.使用IDEA创建一个空项目(提前在IDEA中配置Maven)

5.Maven安装目录和仓库地址的设置

三、词频统计案例

四、报错解决

1.Hadoop：找不到或无法加载主类org.apache.hadoop.mapreduce.v2.app.MRAppMaster

2.INFO ipc.Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像