Hadoop : hdfs的java客户端api基本使用

简介: Hadoop : hdfs的java客户端api基本使用

Maven依赖

    <!-- 测试类 -->
  <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>4.4</version>
     </dependency>
  <!-- hadoop 分布式文件系统类库 -->
  <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-hdfs</artifactId>
      <version>2.8.1</version>
  </dependency>
  <!-- hadoop 公共类库 -->
  <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-common</artifactId>
      <version>2.8.1</version>
  </dependency>

 

hdfs的java客户端api基本使用

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.Arrays;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.LocatedFileStatus;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.RemoteIterator;
import org.junit.Before;
import org.junit.Test;
public class HdfsClientDemo {
  public static void main(String[] args) throws Exception {
    /**
     * Configuration参数对象的机制:
     *    构造时,会加载jar包中的默认配置 xx-default.xml
     *    再加载 用户配置xx-site.xml  ,覆盖掉默认参数
     *    构造完成之后,还可以conf.set("p","v"),会再次覆盖用户配置文件中的参数值
     */
    // new Configuration()会从项目的classpath中加载core-default.xml hdfs-default.xml core-site.xml hdfs-site.xml等文件
    Configuration conf = new Configuration();
    // 指定本客户端上传文件到hdfs时需要保存的副本数为:2
    conf.set("dfs.replication", "2");
    // 指定本客户端上传文件到hdfs时切块的规格大小:64M
    conf.set("dfs.blocksize", "64m");
    // 构造一个访问指定HDFS系统的客户端对象: 参数1:——HDFS系统的URI,参数2:——客户端要特别指定的参数,参数3:客户端的身份(用户名)
    FileSystem fs = FileSystem.get(new URI("hdfs://hdp-01:9000/"), conf, "root");
    // 上传一个文件到HDFS中
    fs.copyFromLocalFile(new Path("D:/install-pkgs/hbase-1.2.1-bin.tar.gz"), new Path("/aaa/"));
    fs.close();
  }
  FileSystem fs = null;
  @Before
  public void init() throws Exception{
    Configuration conf = new Configuration();
    conf.set("dfs.replication", "2");
    conf.set("dfs.blocksize", "64m");
    fs = FileSystem.get(new URI("hdfs://hdp-01:9000/"), conf, "root");
  }
  /**
   * 从HDFS中下载文件到客户端本地磁盘
   * @throws IOException 
   * @throws IllegalArgumentException 
   */
  @Test
  public void testGet() throws IllegalArgumentException, IOException{
    fs.copyToLocalFile(new Path("/hdp20-05.txt"), new Path("f:/"));
    fs.close();
  }
  /**
   * 在hdfs内部移动文件\修改名称
   */
  @Test
  public void testRename() throws Exception{
    fs.rename(new Path("/install.log"), new Path("/aaa/in.log"));
    fs.close();
  }
  /**
   * 在hdfs中创建文件夹
   */
  @Test
  public void testMkdir() throws Exception{
    fs.mkdirs(new Path("/xx/yy/zz"));
    fs.close();
  }
  /**
   * 在hdfs中删除文件或文件夹
   */
  @Test
  public void testRm() throws Exception{
    fs.delete(new Path("/aaa"), true);
    fs.close();
  }
  /**
   * 查询hdfs指定目录下的文件信息
   */
  @Test
  public void testLs() throws Exception{
    // 只查询文件的信息,不返回文件夹的信息
    RemoteIterator<LocatedFileStatus> iter = fs.listFiles(new Path("/"), true);
    while(iter.hasNext()){
      LocatedFileStatus status = iter.next();
      System.out.println("文件全路径:"+status.getPath());
      System.out.println("块大小:"+status.getBlockSize());
      System.out.println("文件长度:"+status.getLen());
      System.out.println("副本数量:"+status.getReplication());
      System.out.println("块信息:"+Arrays.toString(status.getBlockLocations()));
      System.out.println("--------------------------------");
    }
    fs.close();
  }
  /**
   * 查询hdfs指定目录下的文件和文件夹信息
   */
  @Test
  public void testLs2() throws Exception{
    FileStatus[] listStatus = fs.listStatus(new Path("/"));
    for(FileStatus status:listStatus){
      System.out.println("文件全路径:"+status.getPath());
      System.out.println(status.isDirectory()?"这是文件夹":"这是文件");
      System.out.println("块大小:"+status.getBlockSize());
      System.out.println("文件长度:"+status.getLen());
      System.out.println("副本数量:"+status.getReplication());
      System.out.println("--------------------------------");
    }
    fs.close();
  }
}

 


目录
相关文章
|
24天前
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
64 2
|
2月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
177 6
|
3天前
|
Java
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
57 34
|
3天前
|
算法 Java API
如何使用Java开发获得淘宝商品描述API接口?
本文详细介绍如何使用Java开发调用淘宝商品描述API接口,涵盖从注册淘宝开放平台账号、阅读平台规则、创建应用并申请接口权限,到安装开发工具、配置开发环境、获取访问令牌,以及具体的Java代码实现和注意事项。通过遵循这些步骤,开发者可以高效地获取商品详情、描述及图片等信息,为项目和业务增添价值。
32 10
|
11天前
|
Java API 开发者
Java中的Lambda表达式与Stream API的协同作用
在本文中,我们将探讨Java 8引入的Lambda表达式和Stream API如何改变我们处理集合和数组的方式。Lambda表达式提供了一种简洁的方法来表达代码块,而Stream API则允许我们对数据流进行高级操作,如过滤、映射和归约。通过结合使用这两种技术,我们可以以声明式的方式编写更简洁、更易于理解和维护的代码。本文将介绍Lambda表达式和Stream API的基本概念,并通过示例展示它们在实际项目中的应用。
|
20天前
|
分布式计算 Java Hadoop
linux中HADOOP_HOME和JAVA_HOME删除后依然指向旧目录
通过以上步骤,可以有效地解决 `HADOOP_HOME`和 `JAVA_HOME`删除后依然指向旧目录的问题。确保在所有相关的配置文件中正确设置和删除环境变量,并刷新当前会话,使更改生效。通过这些措施,能够确保系统环境变量的正确性和一致性。
22 1
|
13天前
|
安全 Java API
Java中的Lambda表达式与Stream API的高效结合####
探索Java编程中Lambda表达式与Stream API如何携手并进,提升数据处理效率,实现代码简洁性与功能性的双重飞跃。 ####
23 0
|
1月前
|
Java API 数据处理
探索Java中的Lambda表达式与Stream API
【10月更文挑战第22天】 在Java编程中,Lambda表达式和Stream API是两个强大的功能,它们极大地简化了代码的编写和提高了开发效率。本文将深入探讨这两个概念的基本用法、优势以及在实际项目中的应用案例,帮助读者更好地理解和运用这些现代Java特性。
|
2月前
|
分布式计算 Java 大数据
大数据-147 Apache Kudu 常用 Java API 增删改查
大数据-147 Apache Kudu 常用 Java API 增删改查
34 1
|
2月前
|
分布式计算 NoSQL Java
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
48 2