Hadoop : hdfs的java客户端api基本使用

简介: Hadoop : hdfs的java客户端api基本使用

Maven依赖

    <!-- 测试类 -->
  <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>4.4</version>
     </dependency>
  <!-- hadoop 分布式文件系统类库 -->
  <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-hdfs</artifactId>
      <version>2.8.1</version>
  </dependency>
  <!-- hadoop 公共类库 -->
  <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-common</artifactId>
      <version>2.8.1</version>
  </dependency>

 

hdfs的java客户端api基本使用

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.Arrays;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.LocatedFileStatus;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.RemoteIterator;
import org.junit.Before;
import org.junit.Test;
public class HdfsClientDemo {
  public static void main(String[] args) throws Exception {
    /**
     * Configuration参数对象的机制:
     *    构造时,会加载jar包中的默认配置 xx-default.xml
     *    再加载 用户配置xx-site.xml  ,覆盖掉默认参数
     *    构造完成之后,还可以conf.set("p","v"),会再次覆盖用户配置文件中的参数值
     */
    // new Configuration()会从项目的classpath中加载core-default.xml hdfs-default.xml core-site.xml hdfs-site.xml等文件
    Configuration conf = new Configuration();
    // 指定本客户端上传文件到hdfs时需要保存的副本数为:2
    conf.set("dfs.replication", "2");
    // 指定本客户端上传文件到hdfs时切块的规格大小:64M
    conf.set("dfs.blocksize", "64m");
    // 构造一个访问指定HDFS系统的客户端对象: 参数1:——HDFS系统的URI,参数2:——客户端要特别指定的参数,参数3:客户端的身份(用户名)
    FileSystem fs = FileSystem.get(new URI("hdfs://hdp-01:9000/"), conf, "root");
    // 上传一个文件到HDFS中
    fs.copyFromLocalFile(new Path("D:/install-pkgs/hbase-1.2.1-bin.tar.gz"), new Path("/aaa/"));
    fs.close();
  }
  FileSystem fs = null;
  @Before
  public void init() throws Exception{
    Configuration conf = new Configuration();
    conf.set("dfs.replication", "2");
    conf.set("dfs.blocksize", "64m");
    fs = FileSystem.get(new URI("hdfs://hdp-01:9000/"), conf, "root");
  }
  /**
   * 从HDFS中下载文件到客户端本地磁盘
   * @throws IOException 
   * @throws IllegalArgumentException 
   */
  @Test
  public void testGet() throws IllegalArgumentException, IOException{
    fs.copyToLocalFile(new Path("/hdp20-05.txt"), new Path("f:/"));
    fs.close();
  }
  /**
   * 在hdfs内部移动文件\修改名称
   */
  @Test
  public void testRename() throws Exception{
    fs.rename(new Path("/install.log"), new Path("/aaa/in.log"));
    fs.close();
  }
  /**
   * 在hdfs中创建文件夹
   */
  @Test
  public void testMkdir() throws Exception{
    fs.mkdirs(new Path("/xx/yy/zz"));
    fs.close();
  }
  /**
   * 在hdfs中删除文件或文件夹
   */
  @Test
  public void testRm() throws Exception{
    fs.delete(new Path("/aaa"), true);
    fs.close();
  }
  /**
   * 查询hdfs指定目录下的文件信息
   */
  @Test
  public void testLs() throws Exception{
    // 只查询文件的信息,不返回文件夹的信息
    RemoteIterator<LocatedFileStatus> iter = fs.listFiles(new Path("/"), true);
    while(iter.hasNext()){
      LocatedFileStatus status = iter.next();
      System.out.println("文件全路径:"+status.getPath());
      System.out.println("块大小:"+status.getBlockSize());
      System.out.println("文件长度:"+status.getLen());
      System.out.println("副本数量:"+status.getReplication());
      System.out.println("块信息:"+Arrays.toString(status.getBlockLocations()));
      System.out.println("--------------------------------");
    }
    fs.close();
  }
  /**
   * 查询hdfs指定目录下的文件和文件夹信息
   */
  @Test
  public void testLs2() throws Exception{
    FileStatus[] listStatus = fs.listStatus(new Path("/"));
    for(FileStatus status:listStatus){
      System.out.println("文件全路径:"+status.getPath());
      System.out.println(status.isDirectory()?"这是文件夹":"这是文件");
      System.out.println("块大小:"+status.getBlockSize());
      System.out.println("文件长度:"+status.getLen());
      System.out.println("副本数量:"+status.getReplication());
      System.out.println("--------------------------------");
    }
    fs.close();
  }
}

 


相关文章
|
10月前
|
人工智能 Java API
MCP客户端调用看这一篇就够了(Java版)
本文详细介绍了MCP(Model Context Protocol)客户端的开发方法,包括在没有MCP时的痛点、MCP的作用以及如何通过Spring-AI框架和原生SDK调用MCP服务。文章首先分析了MCP协议的必要性,接着分别讲解了Spring-AI框架和自研SDK的使用方式,涵盖配置LLM接口、工具注入、动态封装工具等步骤,并提供了代码示例。此外,还记录了开发过程中遇到的问题及解决办法,如版本冲突、服务连接超时等。最后,文章探讨了框架与原生SDK的选择,认为框架适合快速构建应用,而原生SDK更适合平台级开发,强调了两者结合使用的价值。
12903 33
MCP客户端调用看这一篇就够了(Java版)
|
10月前
|
存储 网络协议 Java
Java获取客户端IP问题:返回127.0.0.1
总结:要解决Java获取客户端IP返回127.0.0.1的问题,首先要找出原因,再采取合适的解决方案。请参考上述方案来改进代码,确保在各种网络环境下都能正确获取客户端IP地址。希望本文对您有所帮助。
637 25
|
XML 存储 分布式计算
【赵渝强老师】史上最详细:Hadoop HDFS的体系架构
HDFS(Hadoop分布式文件系统)由三个核心组件构成:NameNode、DataNode和SecondaryNameNode。NameNode负责管理文件系统的命名空间和客户端请求,维护元数据文件fsimage和edits;DataNode存储实际的数据块,默认大小为128MB;SecondaryNameNode定期合并edits日志到fsimage中,但不作为NameNode的热备份。通过这些组件的协同工作,HDFS实现了高效、可靠的大规模数据存储与管理。
1411 70
|
Java
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
451 34
|
存储 Java API
Java实现导出多个excel表打包到zip文件中,供客户端另存为窗口下载
Java实现导出多个excel表打包到zip文件中,供客户端另存为窗口下载
1049 4
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
777 6
|
分布式计算 Java Hadoop
Hadoop-30 ZooKeeper集群 JavaAPI 客户端 POM Java操作ZK 监听节点 监听数据变化 创建节点 删除节点
Hadoop-30 ZooKeeper集群 JavaAPI 客户端 POM Java操作ZK 监听节点 监听数据变化 创建节点 删除节点
293 1
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
393 0
|
SQL 分布式计算 关系型数据库
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
243 0
|
分布式计算 Java Hadoop