Hadoop Java api操作hdfs

简介: Hadoop Java api操作hdfs

新建项目

  • File->New->Module->Maven,选择quickstart
    新建项目1.jpg
  • 设置文件名和文件地址
    新建项目2.jpg
  • 点击完成
    新建项目3.jpg
  • 项目目录
    新建项目4.jpg
  • 配置pom.xml
  • 添加hadoop依赖包
<!--添加hadoop依赖--><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>${hadoop.version}</version></dependency>
  • 全局定义hadoop版本
<!--全局定义hadoop的版本--><hadoop.version>2.6.0-cdh5.7.0</hadoop.version>
  • 配置好的pom.xml
<?xmlversion="1.0" encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>com.syh</groupId><artifactId>hadoopdemo</artifactId><version>1.0-SNAPSHOT</version><name>hadoopdemo</name><!-- FIXME change it to the project's website --><url>http://www.example.com</url><properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><maven.compiler.source>1.7</maven.compiler.source><maven.compiler.target>1.7</maven.compiler.target><!--全局定义hadoop的版本--><hadoop.version>2.6.0-cdh5.7.0</hadoop.version></properties><repositories><repository><id>cloudera</id><url>https://repository.cloudera.com/artifactory/cloudera-repos/</url></repository></repositories><dependencies><!--添加hadoop依赖--><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.11</version><scope>test</scope></dependency></dependencies><build><pluginManagement><!-- lock down plugins versions to avoid using Maven defaults (may be moved to parent pom) --><plugins><!-- clean lifecycle, see https://maven.apache.org/ref/current/maven-core/lifecycles.html#clean_Lifecycle --><plugin><artifactId>maven-clean-plugin</artifactId><version>3.1.0</version></plugin><!-- default lifecycle, jar packaging: see https://maven.apache.org/ref/current/maven-core/default-bindings.html#Plugin_bindings_for_jar_packaging --><plugin><artifactId>maven-resources-plugin</artifactId><version>3.0.2</version></plugin><plugin><artifactId>maven-compiler-plugin</artifactId><version>3.8.0</version></plugin><plugin><artifactId>maven-surefire-plugin</artifactId><version>2.22.1</version></plugin><plugin><artifactId>maven-jar-plugin</artifactId><version>3.0.2</version></plugin><plugin><artifactId>maven-install-plugin</artifactId><version>2.5.2</version></plugin><plugin><artifactId>maven-deploy-plugin</artifactId><version>2.8.2</version></plugin><!-- site lifecycle, see https://maven.apache.org/ref/current/maven-core/lifecycles.html#site_Lifecycle --><plugin><artifactId>maven-site-plugin</artifactId><version>3.7.1</version></plugin><plugin><artifactId>maven-project-info-reports-plugin</artifactId><version>3.0.0</version></plugin></plugins></pluginManagement></build></project>
  • 点击图中标志
    配置pom.jpg
  • 配置好的Maven目录
    配置pom2.jpg

测试hadoop是否安装成功

  • AppTest文件中写入以下代码
packagecom.syh;
importstaticorg.junit.Assert.assertTrue;
importorg.junit.Test;
importorg.apache.hadoop.fs.*;
/*** Unit test for simple App.*/publicclassAppTest{
/*** Rigorous Test :-)*/@TestpublicvoidshouldAnswerWithTrue()
    {
assertTrue( true );
    }
@TestpublicvoidtestHadoop() {
FileSystemfileSystem=null;
    }
}
  • 按住Ctrl点击FilrSystem可以看到跳转到hadoop目录下,说明安装成功了
    测试是否安装成功.jpg

连接hdfs

  • 新建java文件
    连接hdfs.jpg
  • HDFSApp文件中写入以下代码,在hadoop中创建文件夹
packagecom.syh.hdfs;
importorg.apache.hadoop.conf.Configuration;
importorg.apache.hadoop.fs.FileSystem;
importorg.apache.hadoop.fs.Path;
importorg.junit.After;
importorg.junit.Before;
importorg.junit.Test;
importjava.net.URI;
publicclassHDFSApp {
Configurationconfiguration=null;
FileSystemfileSystem=null;
// 配置路径(ip地址)publicstaticfinalStringHDFS_PATH="hdfs://192.168.207.128:8020";
// 测试(新建文件夹)@Testpublicvoidmkdir() throwsException {
fileSystem.mkdirs(newPath("/emperorlawd/test"));
    }
// Java 连接hdfs 需要先建立一个连接// 测试方法执行之前要执行的操作@BeforepublicvoidsetUp() throwsException {
System.out.println("开始建立与HDFS的连接");
configuration=newConfiguration();
fileSystem=FileSystem.get(newURI(HDFS_PATH), configuration, "hadoop");
    }
// 测试之后要执行的代码@AfterpublicvoidtearDown() {
configuration=null;
fileSystem=null;
System.out.println("关闭与HDFS的连接");
    }
}
  • 运行成功的效果
    连接成功.jpg

创建文件

  • HDFSApp文件中加入以下代码
// 创建文件@Testpublicvoidcreate() throwsException {
Pathpath=newPath("/emperorlawd/test/hello.txt");
FSDataOutputStreamoutputStream=fileSystem.create(path);
outputStream.write("hello hadoop".getBytes());
outputStream.flush();
outputStream.close();
    }
  • 运行create()
    java新建文件.jpg

重命名文件

  • HDFSApp文件中加入以下代码
// 重命名文件@Testpublicvoidrename() throwsException {
PatholdPath=newPath("/emperorlawd/test/hello.txt");
PathnewPath=newPath("/emperorlawd/test/rehello.txt");
fileSystem.rename(oldPath, newPath);
    }
  • 运行rename()
    java重命名文件.jpg

查看文件

  • HDFSApp文件中加入以下代码
// 查看文件@Testpublicvoidcat() throwsException {
Pathpath=newPath("/emperorlawd/test/rehello.txt");
FSDataInputStreaminputStream=fileSystem.open(path);
IOUtils.copyBytes(inputStream, System.out, 1024);
inputStream.close();
    }
  • 运行cat()
    java查看文件.jpg

上传文件

  • HDFSApp文件中加入以下代码
// 上传文件@Testpublicvoidupload() throwsException {
PathlocalPath=newPath("cifar-10-python.tar.gz");
PathhdfsPath=newPath("/");
fileSystem.copyFromLocalFile(localPath, hdfsPath);
    }
  • 运行upload()
    java上传文件.jpg

下载文件

  • HDFSApp文件中加入以下代码
// 下载文件@Testpublicvoiddownload() throwsException {
PathhdfsPath=newPath("/hadoop-2.6.0-cdh5.7.0.tar.gz");
PathlocalPath=newPath("./down/hadoop-2.6.0-cdh5.7.0.tar.gz");
fileSystem.copyToLocalFile(false, hdfsPath, localPath, true);
    }
  • 运行download()
    java下载文件.jpg
相关文章
|
1月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
143 6
|
1月前
|
SQL 分布式计算 监控
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
60 3
|
1天前
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
9 2
|
17天前
|
Java API 数据处理
探索Java中的Lambda表达式与Stream API
【10月更文挑战第22天】 在Java编程中,Lambda表达式和Stream API是两个强大的功能,它们极大地简化了代码的编写和提高了开发效率。本文将深入探讨这两个概念的基本用法、优势以及在实际项目中的应用案例,帮助读者更好地理解和运用这些现代Java特性。
|
1月前
|
SQL 分布式计算 Hadoop
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
35 4
|
1月前
|
SQL 分布式计算 Java
Hadoop-11-MapReduce JOIN 操作的Java实现 Driver Mapper Reducer具体实现逻辑 模拟SQL进行联表操作
Hadoop-11-MapReduce JOIN 操作的Java实现 Driver Mapper Reducer具体实现逻辑 模拟SQL进行联表操作
31 3
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
88 3
|
1月前
|
分布式计算 Java 大数据
大数据-147 Apache Kudu 常用 Java API 增删改查
大数据-147 Apache Kudu 常用 Java API 增删改查
27 1
|
1月前
|
分布式计算 NoSQL Java
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
41 2
|
1月前
|
SQL 分布式计算 Hadoop
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
43 2

热门文章

最新文章