Hadoop Java api操作hdfs

简介: Hadoop Java api操作hdfs

新建项目

  • File->New->Module->Maven,选择quickstart
    新建项目1.jpg
  • 设置文件名和文件地址
    新建项目2.jpg
  • 点击完成
    新建项目3.jpg
  • 项目目录
    新建项目4.jpg
  • 配置pom.xml
  • 添加hadoop依赖包
<!--添加hadoop依赖--><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>${hadoop.version}</version></dependency>
  • 全局定义hadoop版本
<!--全局定义hadoop的版本--><hadoop.version>2.6.0-cdh5.7.0</hadoop.version>
  • 配置好的pom.xml
<?xmlversion="1.0" encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>com.syh</groupId><artifactId>hadoopdemo</artifactId><version>1.0-SNAPSHOT</version><name>hadoopdemo</name><!-- FIXME change it to the project's website --><url>http://www.example.com</url><properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><maven.compiler.source>1.7</maven.compiler.source><maven.compiler.target>1.7</maven.compiler.target><!--全局定义hadoop的版本--><hadoop.version>2.6.0-cdh5.7.0</hadoop.version></properties><repositories><repository><id>cloudera</id><url>https://repository.cloudera.com/artifactory/cloudera-repos/</url></repository></repositories><dependencies><!--添加hadoop依赖--><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.11</version><scope>test</scope></dependency></dependencies><build><pluginManagement><!-- lock down plugins versions to avoid using Maven defaults (may be moved to parent pom) --><plugins><!-- clean lifecycle, see https://maven.apache.org/ref/current/maven-core/lifecycles.html#clean_Lifecycle --><plugin><artifactId>maven-clean-plugin</artifactId><version>3.1.0</version></plugin><!-- default lifecycle, jar packaging: see https://maven.apache.org/ref/current/maven-core/default-bindings.html#Plugin_bindings_for_jar_packaging --><plugin><artifactId>maven-resources-plugin</artifactId><version>3.0.2</version></plugin><plugin><artifactId>maven-compiler-plugin</artifactId><version>3.8.0</version></plugin><plugin><artifactId>maven-surefire-plugin</artifactId><version>2.22.1</version></plugin><plugin><artifactId>maven-jar-plugin</artifactId><version>3.0.2</version></plugin><plugin><artifactId>maven-install-plugin</artifactId><version>2.5.2</version></plugin><plugin><artifactId>maven-deploy-plugin</artifactId><version>2.8.2</version></plugin><!-- site lifecycle, see https://maven.apache.org/ref/current/maven-core/lifecycles.html#site_Lifecycle --><plugin><artifactId>maven-site-plugin</artifactId><version>3.7.1</version></plugin><plugin><artifactId>maven-project-info-reports-plugin</artifactId><version>3.0.0</version></plugin></plugins></pluginManagement></build></project>
  • 点击图中标志
    配置pom.jpg
  • 配置好的Maven目录
    配置pom2.jpg

测试hadoop是否安装成功

  • AppTest文件中写入以下代码
packagecom.syh;
importstaticorg.junit.Assert.assertTrue;
importorg.junit.Test;
importorg.apache.hadoop.fs.*;
/*** Unit test for simple App.*/publicclassAppTest{
/*** Rigorous Test :-)*/@TestpublicvoidshouldAnswerWithTrue()
    {
assertTrue( true );
    }
@TestpublicvoidtestHadoop() {
FileSystemfileSystem=null;
    }
}
  • 按住Ctrl点击FilrSystem可以看到跳转到hadoop目录下,说明安装成功了
    测试是否安装成功.jpg

连接hdfs

  • 新建java文件
    连接hdfs.jpg
  • HDFSApp文件中写入以下代码,在hadoop中创建文件夹
packagecom.syh.hdfs;
importorg.apache.hadoop.conf.Configuration;
importorg.apache.hadoop.fs.FileSystem;
importorg.apache.hadoop.fs.Path;
importorg.junit.After;
importorg.junit.Before;
importorg.junit.Test;
importjava.net.URI;
publicclassHDFSApp {
Configurationconfiguration=null;
FileSystemfileSystem=null;
// 配置路径(ip地址)publicstaticfinalStringHDFS_PATH="hdfs://192.168.207.128:8020";
// 测试(新建文件夹)@Testpublicvoidmkdir() throwsException {
fileSystem.mkdirs(newPath("/emperorlawd/test"));
    }
// Java 连接hdfs 需要先建立一个连接// 测试方法执行之前要执行的操作@BeforepublicvoidsetUp() throwsException {
System.out.println("开始建立与HDFS的连接");
configuration=newConfiguration();
fileSystem=FileSystem.get(newURI(HDFS_PATH), configuration, "hadoop");
    }
// 测试之后要执行的代码@AfterpublicvoidtearDown() {
configuration=null;
fileSystem=null;
System.out.println("关闭与HDFS的连接");
    }
}
  • 运行成功的效果
    连接成功.jpg

创建文件

  • HDFSApp文件中加入以下代码
// 创建文件@Testpublicvoidcreate() throwsException {
Pathpath=newPath("/emperorlawd/test/hello.txt");
FSDataOutputStreamoutputStream=fileSystem.create(path);
outputStream.write("hello hadoop".getBytes());
outputStream.flush();
outputStream.close();
    }
  • 运行create()
    java新建文件.jpg

重命名文件

  • HDFSApp文件中加入以下代码
// 重命名文件@Testpublicvoidrename() throwsException {
PatholdPath=newPath("/emperorlawd/test/hello.txt");
PathnewPath=newPath("/emperorlawd/test/rehello.txt");
fileSystem.rename(oldPath, newPath);
    }
  • 运行rename()
    java重命名文件.jpg

查看文件

  • HDFSApp文件中加入以下代码
// 查看文件@Testpublicvoidcat() throwsException {
Pathpath=newPath("/emperorlawd/test/rehello.txt");
FSDataInputStreaminputStream=fileSystem.open(path);
IOUtils.copyBytes(inputStream, System.out, 1024);
inputStream.close();
    }
  • 运行cat()
    java查看文件.jpg

上传文件

  • HDFSApp文件中加入以下代码
// 上传文件@Testpublicvoidupload() throwsException {
PathlocalPath=newPath("cifar-10-python.tar.gz");
PathhdfsPath=newPath("/");
fileSystem.copyFromLocalFile(localPath, hdfsPath);
    }
  • 运行upload()
    java上传文件.jpg

下载文件

  • HDFSApp文件中加入以下代码
// 下载文件@Testpublicvoiddownload() throwsException {
PathhdfsPath=newPath("/hadoop-2.6.0-cdh5.7.0.tar.gz");
PathlocalPath=newPath("./down/hadoop-2.6.0-cdh5.7.0.tar.gz");
fileSystem.copyToLocalFile(false, hdfsPath, localPath, true);
    }
  • 运行download()
    java下载文件.jpg
相关文章
|
7天前
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
22 2
|
1月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
151 6
|
1月前
|
SQL 分布式计算 监控
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
61 3
|
14天前
|
缓存 监控 Java
如何运用JAVA开发API接口?
本文详细介绍了如何使用Java开发API接口,涵盖创建、实现、测试和部署接口的关键步骤。同时,讨论了接口的安全性设计和设计原则,帮助开发者构建高效、安全、易于维护的API接口。
37 4
|
22天前
|
Java API 数据处理
探索Java中的Lambda表达式与Stream API
【10月更文挑战第22天】 在Java编程中,Lambda表达式和Stream API是两个强大的功能,它们极大地简化了代码的编写和提高了开发效率。本文将深入探讨这两个概念的基本用法、优势以及在实际项目中的应用案例,帮助读者更好地理解和运用这些现代Java特性。
|
28天前
|
Java 大数据 API
别死脑筋,赶紧学起来!Java之Steam() API 常用方法使用,让开发简单起来!
分享Java Stream API的常用方法,让开发更简单。涵盖filter、map、sorted等操作,提高代码效率与可读性。关注公众号,了解更多技术内容。
|
1月前
|
存储 Java API
如何使用 Java 中的 API 更改 PDF 纸张大小
如何使用 Java 中的 API 更改 PDF 纸张大小
44 11
|
1月前
|
机器学习/深度学习 算法 Java
通过 Java Vector API 利用 SIMD 的强大功能
通过 Java Vector API 利用 SIMD 的强大功能
43 10
|
1月前
|
分布式计算 Java 大数据
大数据-147 Apache Kudu 常用 Java API 增删改查
大数据-147 Apache Kudu 常用 Java API 增删改查
29 1
|
1月前
|
分布式计算 NoSQL Java
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
43 2