Mapreduce实验之wordcount-阿里云开发者社区

Mapreduce实验之wordcount

2022-05-15 233

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 利用hadoop函数，标准输出输出堆中的k个单词与频次。

一、在本地或云主机上编写程序并测试
1.编程语言：python
2.Mapper代码解析：
1)从标准输入中按行读入文本内容。
2)将每行文本按空格分割，删除其中的标点符号，获得一个个单词，并且用字典过滤掉冠词、连词、代词等语法型词汇。
3)用dict统计每个单词的出现频率
4)统计单词频数结束后，用标准输出输出键值对：（单词，出现频数），一行一个，键与值之间用制表符分割。
3.Reducer代码解析：
1)从命令行中获得k的值。
2)从标准输入中获取键值对，解析成单词及出现频数。用自己写的wordcount类来存放两者。
3)一个小根堆来存放出现频次前k的单词。当小根堆中单词已经满k个，比较堆顶单词的与目前接收到单词的频次，将频次较大那个留在堆中，这样来保证统计到top k单词。
4)利用hadoop函数，标准输出输出堆中的k个单词与频次。

二、在云主机上安装配置Hadoop伪分布式集群，上传数据到hdfs
1.安装Hadoop
1)安装java
踩了一个巨坑，开hadoop的时候发现sourcemanager和nodemanager开不起来，通过看日志才发现安装的jdk18和hadoop不兼容，查了我安装的hadoop2.7.6需要java8或者7才行。于是重下jdk。
解压官网下载的压缩包之后配置环境变量，java -version出现信息安装成功。

2)安装hadoop
下载安装包然后解压即可。在环境变量中添加hadoop安装目录，这样在命令行直接输入hadoop即可执行。

2.配置伪分布式集群
首先配置ssh免密登录。在~/.ssh新建一对公私钥。

配置core-site.xml。

配置hdfs-site.xml。

配置yarn-site.xml。

命令$HADOOP_HOME/sbin/start-all.sh启动所有的Hadoop守护进程。
利用jps命令查看是否已经启动成功。

查看一下webapp页面，访问成功。

3.上传数据到hdfs
将用ftp发到云服务器上的测试文本上传到hdfs上。

三、在Hadoop集群上提交MapReduce任务并查看结果
将mapper和reducer程序的py文件ftp发到服务器上。
然后找到hadoop-streaming.jar的地方。最后提交mapreduce用的命令语句如下：
指定了了mapper和reducer程序，制定了输入输出目录。这里的k值在命令行中获取到是20。

执行信息输出：

查看结果。

实验结束。

Mapreduce实验之wordcount

飞天加速计划

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Mapreduce实验之wordcount

飞天加速计划

热门文章

最新文章

相关课程

相关电子书