Hadoop配置手册2: 测试Hdfs和WordCount测试

简介: Hadoop配置手册2: 测试Hdfs和WordCount测试

Hadoop配置手册2

Date: September 26, 2022


第3章 测试Hdfs和WordCount测试

任务浏览:

73fd1f02e27ba7409218ca9fc06fc332.png

1ba606eee070809c82412f10d094fd1c.png

3.1 Hdfs测试

1.在HDFS文件系统上创建一个文件夹

cd /usr
mkdir data/
vim 1.txt

1.并上传一个测试文件

hadoop fs -put /usr/data/1.txt /test

1.查看上传文件是否正确

http://192.168.8.130:50070/explorer.html#/

f958c530d0d95a74ff99cd75d4c5eafd.png

常用hadoop指令:


在hadoop指定目录内创建新目录

hadoop fs –mkdir /user/t
//eg  hadoop fs -mkdir - p /user/centos/hadoop

从linux上传文件到hdfs中

hadoop fs -put 1.txt /user
//将当前linux目录下的1.txt文件,上传到/user(hdfs服务器上的user目录下)

将本地文件/文件夹存储至hadoop

hadoop fs –put [本地目录] [hadoop目录]
//eg  hadoop fs –put /home/t/file.txt /user/t

将hadoop上某个文件down至本地已有目录下

hadoop fs -get [文件目录] [本地目录]
//eg  hadoop fs –get /user/t/ok.txt /home/t

查看文件内容: text/-cat

hadoop fs -text /hello
hadoop fs -cat /hello

3.2 WordCount测试

1.找到hadoop自带的jar包

//我的jar路径
/usr/hadoop/hadoop-2.10.1/share/hadoop/mapreduce
//我的jar包版本
hadoop-mapreduce-examples-2.10.1.jar

注意:由于版本可能不同,建议自己在这个位置附近找找


1.在linux本地创建文件

vim /tmp/wordcount.txt

注:自己随便写点东西进去,最好重复几行


1.在云端创建文件夹

hadoop fs –mkdir /test_wordcount

1.将本地文件上传到云端

hadoop fs -put /tmp/wordcount.txt /test_wordcount

1.Hadoop中检查文件

http://192.168.8.130:50070/explorer.html#/

9a55ef90a792af58ed4f562730e0c5f9.png

1.运行程序:单词记录频次

hadoop jar /usr/hadoop/hadoop-2.10.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar wordcount /test_wordcount/wordcount.txt /wordcount_output

hadoop jar /usr/hadoop/hadoop-2.10.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar wordcount /test_wordcount/wordcount.txt /wordcount_output


注1:这里一定要先cd到 ……bin/hadoop 下才能执行 hadoop


注2:命令最后的/wordcount_output是系统生成的用于输出的文件夹,这个文件夹提前新建会报错


运行结果:

bbd5f0ef5fc159b23390ec75c9d6020f.png

看到最后的successfully, 就代表成功了

3ad01b32eee4c17b51a9353e95c04ce5.png

1.查看输出结果

hadoop fs -cat /wordcount_output/*

7e152166f7e5518910ad8af58763e433.png

心得:命令的参数的功能自己一定要清楚,不能一味照抄


相关文章
|
1天前
|
分布式计算 安全 Hadoop
Hadoop节点网络性能测试时延测试
【4月更文挑战第22天】
8 2
|
1天前
|
分布式计算 Hadoop 测试技术
Hadoop节点网络性能的带宽测试
【4月更文挑战第22天】
17 4
|
1天前
|
分布式计算 Hadoop 测试技术
Hadoop节点网络性能测试准备测试工具
【4月更文挑战第22天】选择合适的网络性能测试工具对于评估Hadoop集群的网络性能至关重要。这些工具可以帮助我们收集准确的数据,为优化集群配置和性能提供有力的支持。
7 1
|
2天前
|
分布式计算 安全 Hadoop
Hadoop节点网络性能测试
【4月更文挑战第21天】
12 3
|
4天前
|
分布式计算 监控 Hadoop
Hadoop节点扩容网络性能测试
【4月更文挑战第20天】
15 5
|
5天前
|
分布式计算 网络协议 Hadoop
Hadoop节点扩展配置DNS和主机名解析
【4月更文挑战第19天】
13 1
|
14天前
|
存储 分布式计算 Hadoop
[绝对要收藏]配置hadoop完全分布式环境
[绝对要收藏]配置hadoop完全分布式环境
16 0
|
16天前
|
分布式计算 Hadoop 测试技术
Hadoop【基础知识 05】【HDFS的JavaAPI】(集成及测试)
【4月更文挑战第5天】Hadoop【基础知识 05】【HDFS的JavaAPI】(集成及测试)
41 8
|
18天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
46 2
|
18天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

热门文章

最新文章