环境准备
首先拷贝hadoop-3.1.0到非中文路径(比如d:\),然后配置HADOOP_HOME环境变量和Path环境变量。
在IDEA中创建一个Maven工程,并导入相应的依赖坐标:
<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>3.1.3</version> </dependency> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> </dependency> <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-log4j12</artifactId> <version>1.7.30</version> </dependency> </dependencies>
为了打印日志,我们在项目的src/main/resources目录下,新建一个文件,命名为“log4j.properties”,在文件中填入:
log4j.rootLogger=INFO, stdout log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n log4j.appender.logfile=org.apache.log4j.FileAppender log4j.appender.logfile.File=target/spring.log log4j.appender.logfile.layout=org.apache.log4j.PatternLayout log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n
创建包:com.atxiaoyu.hdfs,创建HdfsClient类:
创建文件夹
@Test public void testmkdir() throws URISyntaxException, IOException, InterruptedException { //连接集群的namenode地址 URI uri = new URI("hdfs://hadoop102:8020"); //创建一个配置文件 Configuration configuration = new Configuration(); //用户 String user="root"; //获取到了客户端对象 FileSystem fs = FileSystem.get(uri, configuration,user); //创建一个文件夹 fs.mkdirs(new Path("/xiyou/huaguoshan")); //关闭资源 fs.close(); }
运行成功:
我们接下来封装一下,因为这一套初始化流程和关闭资源流程在很多操作中都得用,用一次写一次就十分麻烦,所以我们把他写成两个方法:init()初始化方法和close()关闭资源方法,每次用的时候直接调用一下就好了。
@Before public void init() throws URISyntaxException, IOException, InterruptedException { //连接集群的namenode地址 URI uri = new URI("hdfs://hadoop102:8020"); //创建一个配置文件 Configuration configuration = new Configuration(); //用户 String user="root"; //获取到了客户端对象 fs = FileSystem.get(uri, configuration,user); } @After public void close() throws IOException { //关闭资源 fs.close(); }
上传文件
@Test public void testPut() throws IOException { //参数解读:参数一:是否删除原数据 参数二:是否允许覆盖 参数三:原数据路径 参数四:目的地路径 fs.copyFromLocalFile(false,false,new Path("D:\\sunwukong.txt"),new Path("/xiyou/huaguoshan")); }
运行一下发现上传成功:
在这里插入图片描述
下载文件
下载就相当于从hdfs里面把数据下载到本地。
@Test public void testGet() throws IOException { //参数的解读:参数一:原文件是否删除;参数二;原文件路径HDFS;参数三:目标地址路径Windows;参数四:是否开启校验,为false的时候会产生一个校验文件 fs.copyToLocalFile(false,new Path("/xiyou/huaguoshan"),new Path("D:\\"),true); }
运行一下发现下载成功,里面只有一个sunwukong.txt文件
我们修改一下这个参数4,改为false,然后再运行一下就会发现下载的文件里多了一个校验文件:
文件删除
分为三类:文件删除,空目录删除,非空目录删除。
@Test public void testRm() throws IOException { //参数解读:参数1:要删除的路径;参数2: 是否递归删除 //删除文件 fs.delete(new Path("/jdk-8u212-linux-x64.tar.gz"),false); //删除空目录 fs.delete(new Path("/xiyou"),false); //删除非空目录 fs.delete(new Path("/jinguo"),true); //注意:删除非空目录时要递归删除,否则会报错 }
文件更名和移动
这里涉及到三个操作:对文件名称的修改,文件的移动和更名,目录更名。
public void testmv() throws IOException { //参数解读:参数1:原文件路径;参数2:目标文件路径 //对文件名称的修改 fs.rename(new Path("/input/word.txt"),new Path("/input/xiaoyu.txt")); //文件的移动和更名 fs.rename(new Path("/input/xiaoyu.txt"),new Path("/mengmeng.txt")); //要移动到哪一个路径,同时改文件名称 //目录更名 fs.rename(new Path("/input"),new Path("/output")); }
文件详情查看
查看文件的名称、权限、长度、块信息等。
@Test public void fileDetail() throws IOException { //获取所有文件信息 RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);//第二个参数表示是否递归 while (listFiles.hasNext()){ LocatedFileStatus fileStatus = listFiles.next(); System.out.println("======"+fileStatus.getPath()+"======"); System.out.println(fileStatus.getPermission()); System.out.println(fileStatus.getOwner()); System.out.println(fileStatus.getGroup()); System.out.println(fileStatus.getLen()); System.out.println(fileStatus.getModificationTime()); System.out.println(fileStatus.getReplication()); System.out.println(fileStatus.getBlockSize()); System.out.println(fileStatus.getPath().getName()); // 获取块信息 BlockLocation[] blockLocations = fileStatus.getBlockLocations(); System.out.println(Arrays.toString(blockLocations)); } }
运行结果:
判断目录下是文件还是文件夹
@Test public void testFile() throws IOException { FileStatus[] listStatus = fs.listStatus(new Path("/")); for(FileStatus status:listStatus){ if (status.isFile()){ System.out.println("文件:"+status.getPath().getName()); }else { System.out.println("目录:"+status.getPath().getName()); } } }