Hadoop配置手册2: 测试Hdfs和WordCount测试

简介: Hadoop配置手册2: 测试Hdfs和WordCount测试

Hadoop配置手册2

Date: September 26, 2022


第3章 测试Hdfs和WordCount测试

任务浏览:

73fd1f02e27ba7409218ca9fc06fc332.png

1ba606eee070809c82412f10d094fd1c.png

3.1 Hdfs测试

1.在HDFS文件系统上创建一个文件夹

cd /usr
mkdir data/
vim 1.txt

1.并上传一个测试文件

hadoop fs -put /usr/data/1.txt /test

1.查看上传文件是否正确

http://192.168.8.130:50070/explorer.html#/

f958c530d0d95a74ff99cd75d4c5eafd.png

常用hadoop指令:


在hadoop指定目录内创建新目录

hadoop fs –mkdir /user/t
//eg  hadoop fs -mkdir - p /user/centos/hadoop

从linux上传文件到hdfs中

hadoop fs -put 1.txt /user
//将当前linux目录下的1.txt文件,上传到/user(hdfs服务器上的user目录下)

将本地文件/文件夹存储至hadoop

hadoop fs –put [本地目录] [hadoop目录]
//eg  hadoop fs –put /home/t/file.txt /user/t

将hadoop上某个文件down至本地已有目录下

hadoop fs -get [文件目录] [本地目录]
//eg  hadoop fs –get /user/t/ok.txt /home/t

查看文件内容: text/-cat

hadoop fs -text /hello
hadoop fs -cat /hello

3.2 WordCount测试

1.找到hadoop自带的jar包

//我的jar路径
/usr/hadoop/hadoop-2.10.1/share/hadoop/mapreduce
//我的jar包版本
hadoop-mapreduce-examples-2.10.1.jar

注意:由于版本可能不同,建议自己在这个位置附近找找


1.在linux本地创建文件

vim /tmp/wordcount.txt

注:自己随便写点东西进去,最好重复几行


1.在云端创建文件夹

hadoop fs –mkdir /test_wordcount

1.将本地文件上传到云端

hadoop fs -put /tmp/wordcount.txt /test_wordcount

1.Hadoop中检查文件

http://192.168.8.130:50070/explorer.html#/

9a55ef90a792af58ed4f562730e0c5f9.png

1.运行程序:单词记录频次

hadoop jar /usr/hadoop/hadoop-2.10.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar wordcount /test_wordcount/wordcount.txt /wordcount_output

hadoop jar /usr/hadoop/hadoop-2.10.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar wordcount /test_wordcount/wordcount.txt /wordcount_output


注1:这里一定要先cd到 ……bin/hadoop 下才能执行 hadoop


注2:命令最后的/wordcount_output是系统生成的用于输出的文件夹,这个文件夹提前新建会报错


运行结果:

bbd5f0ef5fc159b23390ec75c9d6020f.png

看到最后的successfully, 就代表成功了

3ad01b32eee4c17b51a9353e95c04ce5.png

1.查看输出结果

hadoop fs -cat /wordcount_output/*

7e152166f7e5518910ad8af58763e433.png

心得:命令的参数的功能自己一定要清楚,不能一味照抄


相关文章
|
1月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
147 6
|
1月前
|
分布式计算 Hadoop Shell
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
69 4
|
1月前
|
SQL 分布式计算 Hadoop
Hadoop-34 HBase 安装部署 单节点配置 hbase-env hbase-site 超详细图文 附带配置文件
Hadoop-34 HBase 安装部署 单节点配置 hbase-env hbase-site 超详细图文 附带配置文件
70 2
|
1月前
|
分布式计算 Hadoop
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
45 1
|
1月前
|
存储 SQL 消息中间件
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
47 0
|
1月前
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
82 0
|
1月前
|
SQL 分布式计算 关系型数据库
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
37 0
|
1月前
|
SQL 分布式计算 关系型数据库
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
46 0
|
1月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
64 2
|
15天前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
58 2