大数据实战平台环境搭建（下）-阿里云开发者社区

大数据实战平台环境搭建（下）

2024-05-13 65

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 大数据实战平台环境搭建（下）

大数据实战平台环境搭建（上）https://developer.aliyun.com/article/1507492?spm=a2c6h.13148508.setting.14.1b484f0eD2AqhJ

4、启动 hdfs

图47：启动hdfs

在终端输入./sbin/start-dfs.sh启动hsfd，再输入jsp查看java进程。

5、查看 Hadoop（用 Browser）

图48：用 Browser查看 Hadoop

注意这里要用Ubuntu自带的浏览器，地址为：http://localhost:9870

6、创建Hadoop用户的用户目录及input目录

图49：创建 Hadoop 用户的用户目录及 input 目录

在终端输入./bin/hdfs dfs -mkdir -p /usr/hadoop创建Hadoop用户的用户目录,在终端输入./bin/hdfs dfs -mkdir input创建Hadoop用户的input目录。(其中./bin/hdfs dfs是指令前缀，后面是正常的Ubuntu指令。)

7、将本地配置文件夹上传到分布式文件系统

图50：将本地配置文件夹上传到分布式文件系统

在终端输入bin/hdfs dfs -put ./etc/hadoop/.xml input将本地配置文件夹上传到分布式文件系统.(bin/hdfs dfs是指令前缀,-put是命令，./etc/hadoop/.xml是源，input是目标。）

8、测试demo

图51：测试demo

在终端输入./bin/hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/

hadoop-mapreduce-examples-3.1.3.jar grep input output 'dfs[a-z.]+'测试指令进行测试。

注意这里和单机hadoop测试不一样的地方是这里后面是input output，单机时是./input ./output。

图52：测试完成

9、查看结果

图53：查看测试结果

在终端输入.bin/hdfs dfs -cat output/*查看测试结果。

10、关闭 hdfs

图54：删除output目录

在终端输入.bin/hdfs dfs -rm -r output删除output目录。（每次执行都要吧上一次的output删除，测试过应该是底层写死的无法修改）

图55：关闭hdfs

在终端输入./sbin/stop-dfs.sh停止执行hdfs。

七、HDFS常用命令

（1）功能：显示指定的文件的详细信息。

hadoop fs -1s 。

（2）功能：1s 命令的递归版本。

hadoop fs -1s -R 。

（3）功能：将指定的文件的内容输出到标准输出 (stdout )。

hadoop fs -cat 。

（4）功能：将指定的文件所属的组改为group，使用-R对指定的文件夹内的文件进行递归操作。这个命令只适用于超级用户。

hadoop fs -chgrp [-RJgroup 。

（5）功能：改变指定的文件所有者，-R 用于递归改交文件夹内的文件所有者。这个命令只适用于超级用户。

hadoop fs-chown [-R] [owner][ :[group]] 。

（6）功能：将指定的文件的权限更改为。这个命令只适用于超级用户和文件所有者。

hadoop fs -chmod [- R] 。

（7）功能：将指定的文件最后 1KB 的内容输出到标准输出 (stdout)上，一f选项用于持续检测新添加到文件中的内容。

hadoop fs -tail [-f] 。

（8）功能：以指定的格式返回指定的文件的相关信息。当不指定format 的时候，返回文件的创建日期。

hadoop fs -stat [format] 。

（9）功能：创建一个指定的空文件。

hadoop fs -touchz 。

（10）功能：创建指定的一个或多个文件夹，-p选项用于递归创建子文件夹。

hadoop fs -mkdir [-p] 。

（11）功能：将本地源文件复制到路径指定的文件或文件夹中。

hadoop fs -copy FromLocal 。

（12）功能：将日标文件复制到本地文件或文件夾中，可用-ignorearc 选项复制CRC

校验失败的文件，使用-crc选项复制文件以及 CRC信息。

hadoop ts -copyToLocal [-ignorecrc][-crc] 。

（13）功能：将文件从源路径复制到日标路径。

hadoop fs -cp 。

（14）功能：显示指定的文件或文件夾中所有文件的大小。

hadoop fs -du 。

（15）功能：清空回收站.

hadoop fs -expunge。

（16）功能：复制指定的文件到本地文件系统-指定的文件或文件夹，可用-ignorecrc 选项复制 CRC

校验失败的文件，使用-crc 选项复制文件以及 CRC信息。

hadoop fs-get [ignorecrc] [-crc] 。

（17）功能：对指定的源目录中的所有文件进行合并，写入指定的本地文件。-nl

是可选的，用于指定在每个文件结尾添加一个换行符。

hadoop fs -getmerge [-nl] 。

（18）功能：以本地文件系统中复制<1ocalsrc>指定的单个或多个源文件到指定的目标文件系统中，也支持从标准输人(stdin

）中读取输人并写人目标文件系统。

hadoop fs-put 。

（19）功能：与put 命令功能相同，但是文件上传结束后会从本地文件系统中删除指定的文件。

hadoop fs-moveFromLocal 。

（20）功能：将文件从源路径移动到目标路径

hadoop fs -mv 。

（21）功能：删除指定的文件，只删除非室日录和文件。

hardoop 1s -rm 。

（22）功能：除指定的文什实及其下的所有文件，-r选项表示删除子目录。

hadop fs -rm -r 。

（23）功能：改变指定的文件的副本系数，-R 选项用于递归政变目录下所有文件的副本系数。

hadoop fs-setrep [-R] 。

（24）功能：检查指定的文什或文件夾的相关信息。不同选项的作用如下。

hadoop fs -test -[ezd] 。 ①-e检查文件是否存在，如果存在则返回0，否则返回 1。 ②-z检查文件是否是 0字节，如果是则返回 0，否则返回1。 ③ -d如果路径是个日录，则返回1，否则返回 0。

（25）功能：将指定的文什输出为文木格式，文件的格式世允许是zip和TextRecordinputStream 等

hadoop ts -text 。

（26）查看帮助

hdfs dfs -help

（27）查看当前目录信息

hdfs dfs -ls /

（28）上传文件

hdfs dfs -put /本地路径 /hdfs路径

（29）剪切文件

hdfs dfs -moveFromLocal a.txt /aa.txt

（30）下载文件到本地

hdfs dfs -get /hdfs路径 /本地路径

（31）合并下载

hdfs dfs -getmerge /hdfs路径文件夹 /合并后的文件

（32）创建文件夹

hdfs dfs -mkdir /hello

（33）创建多级文件夹

hdfs dfs -mkdir -p /hello/world

（34）移动hdfs文件

hdfs dfs -mv /hdfs路径 /hdfs路径

（35）复制hdfs文件

hdfs dfs -cp /hdfs路径 /hdfs路径

（36）删除hdfs文件

hdfs dfs -rm /aa.txt

（37）删除hdfs文件夹

hdfs dfs -rm -r /hello

（38）查看hdfs中的文件

hdfs dfs -cat /文件

hdfs dfs -tail -f /文件

（39）查看文件夹中有多少个文件

hdfs dfs -count /文件夹

（40）查看hdfs的总空间

hdfs dfs -df /

hdfs dfs -df -h /

（41）修改副本数

hdfs dfs -setrep 1 /a.txt

八、HDFS实验之通过JAVA-API访问HDFS

1、Hadoop用户下进入Ubuntu

图56：Hadoop用户下进入Ubuntu

2、把eclipse拖到/home/hadoop/Downloads下

图57：把eclipse拖到/home/hadoop/Downloads下

3、检查一下是不是整个Ubuntu都在hadoop用户下，是的话，解压到/uer/local

图58：确认是在hadoop用户下

在终端输入whoami，当出现hadoop表示现在是在hadoop用户下进行的操作（确保后面的操作能正常进行）。

进入Downloads查询当前文件夹所有文件，看eclipse安装包是否存在。

图59：解压eclipse安装包

在终端输入sudo tar -zxvf ./eclipse-4.7.0-linux.tar.gz -C /usr/local解压eclipse安装包。

图60：解压eclipse安装包完成

4、cd到解压后的文件夹/usr/local/eclipse，启动eclipse（启动指令./eclipse）

图61：检查解压情况

在终端cd到文件夹/usr/local内，查看是否有eclipse文件夹，如果有则解压成功。

图62：启动eclipse

在终端输入启动指令./eclipse启动eclipse。

5、默认workspace（这里必须是Hadoop用户下，如果是个人用户名下，就代表前面错误，你不是在Hadoop下完成的操作，会显示没有java路径）

图63：默认workspace

默认workspace点击launch进入下一步。

6、启动成功

图64：启动eclipse成功

7、新建工程后选择java project，然后next

图65：新建工程

8、输入工程名称，其他默认即可，然后点击next

图66：输入新建的工程名称

9、点击libraries，添加jar包，添加完成后点击finish

图67：添加jar包

图68：添加jar包

选择add external jars进行添加jar包。

图69：添加jar包

图70：添加jar包

图71：添加第一个路径的jar包

注意路径，一般进来会直接选中第一个文件夹，这个时候需要取消选中在选择需要的jar包。

图72：添加第一个路径的jar包成功

图73：添加第二个路径的jar包

图74：添加第三个路径的jar包

图75：添加第四个路径的jar包

图76:4个路径的jar包添加完成

10、出现如下框点击open perspective

图77：点击open perspective

11、右键→New→class

图78：右键→New→class

12、右键→New→class

图79：给新建class起名

13、创建成功后出现如下界面，输入案例代码

图80：创建成功

图81：输入案例代码

图82：运行主程序

图83：出现报错

运行主程序后报错，说明程序有问题，经过检查发现需要改代码以及放入文件。

图84：将7个文件复制到hadoop的Downloads内

图85：启动hdfs

在终端输入./sbin/start-dfs.sh启动hsfd。

图86：将file1.txt上传到分布式文件系统

在终端输入bin/hdfs dfs -put /home/hadoop/Downloads/file.txt input将file1.txt上传到分布式文件系统.(bin/hdfs dfs是指令前缀,-put是命令，/home/hadoop/Downloads/file.txt是源，input是目标。）

通过bin/hdfs dfs -ls input查看刚刚是否成功将file1.txt上传到分布式文件系统。

图87：将剩下的6个文件上传到分布式文件系统

重复刚刚的指令，将源改成对应的文件名，将file2.txt，file3.txt，file4.txt，file5.txt，file4.abc，file5.abc六个文件上传到分布式文件系统。

图88：查看是否成功将文件上传到分布式文件系统

通过bin/hdfs dfs -ls input查看是否成功将文件上传到分布式文件系统。

图89：打开eclipse

cd到/usr/local/eclipse，通过指令./eclipse启动eclipse（注意要在启动hdfs后再启动eclipse）。

图90：修改程序并运行

经过检查代码，我发现在主函数里面的第二行"hdfs://localhost:9000/user/hadoop/"的后面少了input，加上input后运行程序便能出现输出文件的结果，但是有个问题出现，输出的只过滤掉了.abc文件，还有.xml文件没有过滤掉。

图91：对程序进行理解

通过对于代码的了解，我知道了PathFilter 接口里面的accept方法可以过滤掉文件名满足特定条件的文件。以及可以通过FileStatus[] sourceStatus = fsSource.listStatus(inputPath,new MyPathFilter(“.*\.abc”)); 来过滤掉输入目录中后缀为.abc的文件。

图92：修改程序并输出所需结果

我将PathFilter 接口里面的accept方法进行了修改，把false与true的位置进行了替换，使得方法的用处不在是可以过滤掉文件名满足特定条件的文件，而是可以过滤掉除了特定条件的其他文件，也就是说只输出所需要的文件。

最后通过FileStatus[] sourceStatus = fsSource.listStatus(inputPath,new MyPathFilter(“.*\.txt”));只输出hdfs://localhost:9000/user/hadoop/input里面所有.txt结尾的文件。入图92所示输出了所需要的结果。

图93：关闭hdfs

关闭eclipse后，在终端输入./sbin/stop-dfs.sh关闭hdfs。

大数据实战平台环境搭建（下）

七、HDFS常用命令

八、HDFS实验之通过JAVA-API访问HDFS

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

大数据实战平台环境搭建（下）

七、HDFS常用命令

八、HDFS实验之通过JAVA-API访问HDFS

热门文章

最新文章

相关课程

相关电子书

相关实验场景