Hadoop配置手册2: 测试Hdfs和WordCount测试

简介: Hadoop配置手册2: 测试Hdfs和WordCount测试

Hadoop配置手册2

Date: September 26, 2022


第3章 测试Hdfs和WordCount测试

任务浏览:

73fd1f02e27ba7409218ca9fc06fc332.png

1ba606eee070809c82412f10d094fd1c.png

3.1 Hdfs测试

1.在HDFS文件系统上创建一个文件夹

cd /usr
mkdir data/
vim 1.txt

1.并上传一个测试文件

hadoop fs -put /usr/data/1.txt /test

1.查看上传文件是否正确

http://192.168.8.130:50070/explorer.html#/

f958c530d0d95a74ff99cd75d4c5eafd.png

常用hadoop指令:


在hadoop指定目录内创建新目录

hadoop fs –mkdir /user/t
//eg  hadoop fs -mkdir - p /user/centos/hadoop

从linux上传文件到hdfs中

hadoop fs -put 1.txt /user
//将当前linux目录下的1.txt文件,上传到/user(hdfs服务器上的user目录下)

将本地文件/文件夹存储至hadoop

hadoop fs –put [本地目录] [hadoop目录]
//eg  hadoop fs –put /home/t/file.txt /user/t

将hadoop上某个文件down至本地已有目录下

hadoop fs -get [文件目录] [本地目录]
//eg  hadoop fs –get /user/t/ok.txt /home/t

查看文件内容: text/-cat

hadoop fs -text /hello
hadoop fs -cat /hello

3.2 WordCount测试

1.找到hadoop自带的jar包

//我的jar路径
/usr/hadoop/hadoop-2.10.1/share/hadoop/mapreduce
//我的jar包版本
hadoop-mapreduce-examples-2.10.1.jar

注意:由于版本可能不同,建议自己在这个位置附近找找


1.在linux本地创建文件

vim /tmp/wordcount.txt

注:自己随便写点东西进去,最好重复几行


1.在云端创建文件夹

hadoop fs –mkdir /test_wordcount

1.将本地文件上传到云端

hadoop fs -put /tmp/wordcount.txt /test_wordcount

1.Hadoop中检查文件

http://192.168.8.130:50070/explorer.html#/

9a55ef90a792af58ed4f562730e0c5f9.png

1.运行程序:单词记录频次

hadoop jar /usr/hadoop/hadoop-2.10.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar wordcount /test_wordcount/wordcount.txt /wordcount_output

hadoop jar /usr/hadoop/hadoop-2.10.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar wordcount /test_wordcount/wordcount.txt /wordcount_output


注1:这里一定要先cd到 ……bin/hadoop 下才能执行 hadoop


注2:命令最后的/wordcount_output是系统生成的用于输出的文件夹,这个文件夹提前新建会报错


运行结果:

bbd5f0ef5fc159b23390ec75c9d6020f.png

看到最后的successfully, 就代表成功了

3ad01b32eee4c17b51a9353e95c04ce5.png

1.查看输出结果

hadoop fs -cat /wordcount_output/*

7e152166f7e5518910ad8af58763e433.png

心得:命令的参数的功能自己一定要清楚,不能一味照抄


相关文章
|
2月前
|
分布式计算 Hadoop 大数据
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
84 1
|
2月前
|
分布式计算 Hadoop Shell
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
90 4
|
2月前
|
SQL 分布式计算 Hadoop
Hadoop-34 HBase 安装部署 单节点配置 hbase-env hbase-site 超详细图文 附带配置文件
Hadoop-34 HBase 安装部署 单节点配置 hbase-env hbase-site 超详细图文 附带配置文件
113 2
|
2月前
|
分布式计算 监控 Hadoop
Hadoop-29 ZooKeeper集群 Watcher机制 工作原理 与 ZK基本命令 测试集群效果 3台公网云服务器
Hadoop-29 ZooKeeper集群 Watcher机制 工作原理 与 ZK基本命令 测试集群效果 3台公网云服务器
50 1
|
2月前
|
分布式计算 Hadoop
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
60 1
|
2月前
|
存储 数据采集 分布式计算
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
58 1
|
2月前
|
存储 SQL 消息中间件
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
54 0
|
2月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
200 6
|
2月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
86 2
|
10天前
|
存储 分布式计算 大数据
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
41 4