大数据实战平台环境搭建(上)https://developer.aliyun.com/article/1507492?spm=a2c6h.13148508.setting.14.1b484f0eD2AqhJ
4、启动 hdfs
图47:启动hdfs
在终端输入./sbin/start-dfs.sh启动hsfd,再输入jsp查看java进程。
5、查看 Hadoop(用 Browser)
图48:用 Browser查看 Hadoop
注意这里要用Ubuntu自带的浏览器,地址为:http://localhost:9870
6、创建Hadoop用户的用户目录及input目录
图49:创建 Hadoop 用户的用户目录及 input 目录
在终端输入./bin/hdfs dfs -mkdir -p /usr/hadoop创建Hadoop用户的用户目录,在终端输入./bin/hdfs dfs -mkdir input创建Hadoop用户的input目录。(其中./bin/hdfs dfs是指令前缀,后面是正常的Ubuntu指令。)
7、将本地配置文件夹上传到分布式文件系统
图50:将本地配置文件夹上传到分布式文件系统
在终端输入bin/hdfs dfs -put ./etc/hadoop/.xml input将本地配置文件夹上传到分布式文件系统.(bin/hdfs dfs是指令前缀,-put是命令,./etc/hadoop/.xml是源,input是目标。)
8、测试demo
图51:测试demo
在终端输入./bin/hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/
hadoop-mapreduce-examples-3.1.3.jar grep input output 'dfs[a-z.]+'测试指令进行测试。
注意这里和单机hadoop测试不一样的地方是这里后面是input output,单机时是./input ./output。
图52:测试完成
9、查看结果
图53:查看测试结果
在终端输入.bin/hdfs dfs -cat output/*查看测试结果。
10、关闭 hdfs
图54:删除output目录
在终端输入.bin/hdfs dfs -rm -r output删除output目录。(每次执行都要吧上一次的output删除,测试过应该是底层写死的无法修改)
图55:关闭hdfs
在终端输入./sbin/stop-dfs.sh停止执行hdfs。
七、HDFS常用命令
(1)功能:显示 指定的文件的详细信息。
hadoop fs -1s 。
(2)功能:1s 命令的递归版本。
hadoop fs -1s -R 。
(3)功能:将 指定的文件的内容输出到标准输出 (stdout )。
hadoop fs -cat 。
(4)功能:将 指定的文件所属的组改为group,使用-R对 指定的文件夹内的文件进行递归操作。这个命令只适用于超级用户。
hadoop fs -chgrp [-RJgroup 。
(5)功能:改变 指定的文件所有者,-R 用于递归改交文件夹内的文件所有者。这个命令只适用于超级用户。
hadoop fs-chown [-R] [owner][ :[group]] 。
(6)功能:将 指定的文件的权限更改为。这个命令只适用于超级用户和文件所有者。
hadoop fs -chmod [- R] 。
(7)功能:将 指定的文件最后 1KB 的内容输出到标准输出 (stdout)上,一f选项用于持续检测新添加到文件中的内容。
hadoop fs -tail [-f] 。
(8)功能:以指定的格式返回 指定的文件的相关信息。当不指定format 的时候,返回文件 的创建日期。
hadoop fs -stat [format] 。
(9)功能:创建一个 指定的空文件。
hadoop fs -touchz 。
(10)功能:创建指定的一个或多个文件夹,-p选项用于递归创建子文件夹。
hadoop fs -mkdir [-p] 。
(11)功能:将本地源文件复制到路径指定的文件或文件夹中。
hadoop fs -copy FromLocal 。
(12)功能:将日标文件复制到本地文件或文件夾中,可用-ignorearc 选项复制CRC
校验失败的文件,使用-crc选项复制文件以及 CRC信息。
hadoop ts -copyToLocal [-ignorecrc][-crc] 。
(13)功能:将文件从源路径复制到日标路径。
hadoop fs -cp 。
(14)功能:显示 指定的文件或文件夾中所有文件的大小。
hadoop fs -du 。
(15)功能:清空回收站.
hadoop fs -expunge。
(16)功能:复制指定的文件到本地文件系统-指定的文件或文件夹,可用-ignorecrc 选项复制 CRC
校验失败的文件,使用-crc 选项复制文件以及 CRC信息。
hadoop fs-get [ignorecrc] [-crc] 。
(17)功能:对指定的源目录中的所有文件进行合并,写入指定的本地文件。-nl
是可选的,用于指定在每个文件结尾添加一个换行符。
hadoop fs -getmerge [-nl] 。
(18)功能:以本地文件系统中复制<1ocalsrc>指定的单个或多个源文件到指定的目标文件系统中,也支持从标准输人(stdin
)中读取输人并写人目标文件系统。
hadoop fs-put 。
(19)功能:与put 命令功能相同,但是文件上传结束后会从本地文件系统中删除指定的文件。
hadoop fs-moveFromLocal 。
(20)功能:将文件从源路径移动到目标路径
hadoop fs -mv 。
(21)功能:删除 指定的文件,只删除非室日录和文件。
hardoop 1s -rm 。
(22)功能:除 指定的文什实及其下的所有文件,-r选项表示删除子目录。
hadop fs -rm -r 。
(23)功能:改变 指定的文件的副本系数,-R 选项用于递归政变目录下所有文件的副本系数。
hadoop fs-setrep [-R] 。
(24)功能:检查 指定的文什或文件夾的相关信息。不同选项的作用如下。
hadoop fs -test -[ezd] 。 ①-e检查文件是否存在,如果存在则返回0,否则返回 1。 ②-z检查文件是否是 0字节,如果是则返回 0,否则返回1。 ③ -d如果路径是个日录,则返回1,否则返回 0。
(25)功能:将 指定的文什输出为文木格式,文件的格式世允许是zip和TextRecordinputStream 等
hadoop ts -text 。
(26)查看帮助
hdfs dfs -help
(27)查看当前目录信息
hdfs dfs -ls /
(28)上传文件
hdfs dfs -put /本地路径 /hdfs路径
(29)剪切文件
hdfs dfs -moveFromLocal a.txt /aa.txt
(30)下载文件到本地
hdfs dfs -get /hdfs路径 /本地路径
(31)合并下载
hdfs dfs -getmerge /hdfs路径文件夹 /合并后的文件
(32)创建文件夹
hdfs dfs -mkdir /hello
(33)创建多级文件夹
hdfs dfs -mkdir -p /hello/world
(34)移动hdfs文件
hdfs dfs -mv /hdfs路径 /hdfs路径
(35)复制hdfs文件
hdfs dfs -cp /hdfs路径 /hdfs路径
(36)删除hdfs文件
hdfs dfs -rm /aa.txt
(37)删除hdfs文件夹
hdfs dfs -rm -r /hello
(38)查看hdfs中的文件
hdfs dfs -cat /文件
hdfs dfs -tail -f /文件
(39)查看文件夹中有多少个文件
hdfs dfs -count /文件夹
(40)查看hdfs的总空间
hdfs dfs -df /
hdfs dfs -df -h /
(41)修改副本数
hdfs dfs -setrep 1 /a.txt
八、HDFS实验之通过JAVA-API访问HDFS
1、Hadoop用户下进入Ubuntu
图56:Hadoop用户下进入Ubuntu
2、把eclipse拖到/home/hadoop/Downloads下
图57:把eclipse拖到/home/hadoop/Downloads下
3、检查一下是不是整个Ubuntu都在hadoop用户下,是的话,解压到/uer/local
图58:确认是在hadoop用户下
在终端输入whoami,当出现hadoop表示现在是在hadoop用户下进行的操作(确保后面的操作能正常进行)。
进入Downloads查询当前文件夹所有文件,看eclipse安装包是否存在。
图59:解压eclipse安装包
在终端输入sudo tar -zxvf ./eclipse-4.7.0-linux.tar.gz -C /usr/local解压eclipse安装包。
图60:解压eclipse安装包完成
4、cd到解压后的文件夹/usr/local/eclipse,启动eclipse(启动指令./eclipse)
图61:检查解压情况
在终端cd到文件夹/usr/local内,查看是否有eclipse文件夹,如果有则解压成功。
图62:启动eclipse
在终端输入启动指令./eclipse启动eclipse。
5、默认workspace(这里必须是Hadoop用户下,如果是个人用户名下,就代表前面错误,你不是在Hadoop下完成的操作,会显示没有java路径)
图63:默认workspace
默认workspace点击launch进入下一步。
6、启动成功
图64:启动eclipse成功
7、新建工程后选择java project,然后next
图65:新建工程
8、输入工程名称,其他默认即可,然后点击next
图66:输入新建的工程名称
9、点击libraries,添加jar包,添加完成后点击finish
图67:添加jar包
图68:添加jar包
选择add external jars进行添加jar包。
图69:添加jar包
图70:添加jar包
图71:添加第一个路径的jar包
注意路径,一般进来会直接选中第一个文件夹,这个时候需要取消选中在选择需要的jar包。
图72:添加第一个路径的jar包成功
图73:添加第二个路径的jar包
图74:添加第三个路径的jar包
图75:添加第四个路径的jar包
图76:4个路径的jar包添加完成
10、出现如下框点击open perspective
图77:点击open perspective
11、右键→New→class
图78:右键→New→class
12、右键→New→class
图79:给新建class起名
13、创建成功后出现如下界面,输入案例代码
图80:创建成功
图81:输入案例代码
图82:运行主程序
图83:出现报错
运行主程序后报错,说明程序有问题,经过检查发现需要改代码以及放入文件。
图84:将7个文件复制到hadoop的Downloads内
图85:启动hdfs
在终端输入./sbin/start-dfs.sh启动hsfd。
图86:将file1.txt上传到分布式文件系统
在终端输入bin/hdfs dfs -put /home/hadoop/Downloads/file.txt input将file1.txt上传到分布式文件系统.(bin/hdfs dfs是指令前缀,-put是命令,/home/hadoop/Downloads/file.txt是源,input是目标。)
通过bin/hdfs dfs -ls input查看刚刚是否成功将file1.txt上传到分布式文件系统。
图87:将剩下的6个文件上传到分布式文件系统
重复刚刚的指令,将源改成对应的文件名,将file2.txt,file3.txt,file4.txt,file5.txt,file4.abc,file5.abc六个文件上传到分布式文件系统。
图88:查看是否成功将文件上传到分布式文件系统
通过bin/hdfs dfs -ls input查看是否成功将文件上传到分布式文件系统。
图89:打开eclipse
cd到/usr/local/eclipse,通过指令./eclipse启动eclipse(注意要在启动hdfs后再启动eclipse)。
图90:修改程序并运行
经过检查代码,我发现在主函数里面的第二行"hdfs://localhost:9000/user/hadoop/"的后面少了input,加上input后运行程序便能出现输出文件的结果,但是有个问题出现,输出的只过滤掉了.abc文件,还有.xml文件没有过滤掉。
图91:对程序进行理解
通过对于代码的了解,我知道了PathFilter 接口里面的accept方法可以过滤掉文件名满足特定条件的文件。以及可以通过FileStatus[] sourceStatus = fsSource.listStatus(inputPath,new MyPathFilter(“.*\.abc”)); 来过滤掉输入目录中后缀为.abc的文件。
图92:修改程序并输出所需结果
我将PathFilter 接口里面的accept方法进行了修改,把false与true的位置进行了替换,使得方法的用处不在是可以过滤掉文件名满足特定条件的文件,而是可以过滤掉除了特定条件的其他文件,也就是说只输出所需要的文件。
最后通过FileStatus[] sourceStatus = fsSource.listStatus(inputPath,new MyPathFilter(“.*\.txt”));只输出hdfs://localhost:9000/user/hadoop/input里面所有.txt结尾的文件。入图92所示输出了所需要的结果。
图93:关闭hdfs
关闭eclipse后,在终端输入./sbin/stop-dfs.sh关闭hdfs。