Hadoop Java api操作hdfs

简介: Hadoop Java api操作hdfs

新建项目

  • File->New->Module->Maven,选择quickstart
    新建项目1.jpg
  • 设置文件名和文件地址
    新建项目2.jpg
  • 点击完成
    新建项目3.jpg
  • 项目目录
    新建项目4.jpg
  • 配置pom.xml
  • 添加hadoop依赖包
<!--添加hadoop依赖--><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>${hadoop.version}</version></dependency>
  • 全局定义hadoop版本
<!--全局定义hadoop的版本--><hadoop.version>2.6.0-cdh5.7.0</hadoop.version>
  • 配置好的pom.xml
<?xmlversion="1.0" encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>com.syh</groupId><artifactId>hadoopdemo</artifactId><version>1.0-SNAPSHOT</version><name>hadoopdemo</name><!-- FIXME change it to the project's website --><url>http://www.example.com</url><properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><maven.compiler.source>1.7</maven.compiler.source><maven.compiler.target>1.7</maven.compiler.target><!--全局定义hadoop的版本--><hadoop.version>2.6.0-cdh5.7.0</hadoop.version></properties><repositories><repository><id>cloudera</id><url>https://repository.cloudera.com/artifactory/cloudera-repos/</url></repository></repositories><dependencies><!--添加hadoop依赖--><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.11</version><scope>test</scope></dependency></dependencies><build><pluginManagement><!-- lock down plugins versions to avoid using Maven defaults (may be moved to parent pom) --><plugins><!-- clean lifecycle, see https://maven.apache.org/ref/current/maven-core/lifecycles.html#clean_Lifecycle --><plugin><artifactId>maven-clean-plugin</artifactId><version>3.1.0</version></plugin><!-- default lifecycle, jar packaging: see https://maven.apache.org/ref/current/maven-core/default-bindings.html#Plugin_bindings_for_jar_packaging --><plugin><artifactId>maven-resources-plugin</artifactId><version>3.0.2</version></plugin><plugin><artifactId>maven-compiler-plugin</artifactId><version>3.8.0</version></plugin><plugin><artifactId>maven-surefire-plugin</artifactId><version>2.22.1</version></plugin><plugin><artifactId>maven-jar-plugin</artifactId><version>3.0.2</version></plugin><plugin><artifactId>maven-install-plugin</artifactId><version>2.5.2</version></plugin><plugin><artifactId>maven-deploy-plugin</artifactId><version>2.8.2</version></plugin><!-- site lifecycle, see https://maven.apache.org/ref/current/maven-core/lifecycles.html#site_Lifecycle --><plugin><artifactId>maven-site-plugin</artifactId><version>3.7.1</version></plugin><plugin><artifactId>maven-project-info-reports-plugin</artifactId><version>3.0.0</version></plugin></plugins></pluginManagement></build></project>
  • 点击图中标志
    配置pom.jpg
  • 配置好的Maven目录
    配置pom2.jpg

测试hadoop是否安装成功

  • AppTest文件中写入以下代码
packagecom.syh;
importstaticorg.junit.Assert.assertTrue;
importorg.junit.Test;
importorg.apache.hadoop.fs.*;
/*** Unit test for simple App.*/publicclassAppTest{
/*** Rigorous Test :-)*/@TestpublicvoidshouldAnswerWithTrue()
    {
assertTrue( true );
    }
@TestpublicvoidtestHadoop() {
FileSystemfileSystem=null;
    }
}
  • 按住Ctrl点击FilrSystem可以看到跳转到hadoop目录下,说明安装成功了
    测试是否安装成功.jpg

连接hdfs

  • 新建java文件
    连接hdfs.jpg
  • HDFSApp文件中写入以下代码,在hadoop中创建文件夹
packagecom.syh.hdfs;
importorg.apache.hadoop.conf.Configuration;
importorg.apache.hadoop.fs.FileSystem;
importorg.apache.hadoop.fs.Path;
importorg.junit.After;
importorg.junit.Before;
importorg.junit.Test;
importjava.net.URI;
publicclassHDFSApp {
Configurationconfiguration=null;
FileSystemfileSystem=null;
// 配置路径(ip地址)publicstaticfinalStringHDFS_PATH="hdfs://192.168.207.128:8020";
// 测试(新建文件夹)@Testpublicvoidmkdir() throwsException {
fileSystem.mkdirs(newPath("/emperorlawd/test"));
    }
// Java 连接hdfs 需要先建立一个连接// 测试方法执行之前要执行的操作@BeforepublicvoidsetUp() throwsException {
System.out.println("开始建立与HDFS的连接");
configuration=newConfiguration();
fileSystem=FileSystem.get(newURI(HDFS_PATH), configuration, "hadoop");
    }
// 测试之后要执行的代码@AfterpublicvoidtearDown() {
configuration=null;
fileSystem=null;
System.out.println("关闭与HDFS的连接");
    }
}
  • 运行成功的效果
    连接成功.jpg

创建文件

  • HDFSApp文件中加入以下代码
// 创建文件@Testpublicvoidcreate() throwsException {
Pathpath=newPath("/emperorlawd/test/hello.txt");
FSDataOutputStreamoutputStream=fileSystem.create(path);
outputStream.write("hello hadoop".getBytes());
outputStream.flush();
outputStream.close();
    }
  • 运行create()
    java新建文件.jpg

重命名文件

  • HDFSApp文件中加入以下代码
// 重命名文件@Testpublicvoidrename() throwsException {
PatholdPath=newPath("/emperorlawd/test/hello.txt");
PathnewPath=newPath("/emperorlawd/test/rehello.txt");
fileSystem.rename(oldPath, newPath);
    }
  • 运行rename()
    java重命名文件.jpg

查看文件

  • HDFSApp文件中加入以下代码
// 查看文件@Testpublicvoidcat() throwsException {
Pathpath=newPath("/emperorlawd/test/rehello.txt");
FSDataInputStreaminputStream=fileSystem.open(path);
IOUtils.copyBytes(inputStream, System.out, 1024);
inputStream.close();
    }
  • 运行cat()
    java查看文件.jpg

上传文件

  • HDFSApp文件中加入以下代码
// 上传文件@Testpublicvoidupload() throwsException {
PathlocalPath=newPath("cifar-10-python.tar.gz");
PathhdfsPath=newPath("/");
fileSystem.copyFromLocalFile(localPath, hdfsPath);
    }
  • 运行upload()
    java上传文件.jpg

下载文件

  • HDFSApp文件中加入以下代码
// 下载文件@Testpublicvoiddownload() throwsException {
PathhdfsPath=newPath("/hadoop-2.6.0-cdh5.7.0.tar.gz");
PathlocalPath=newPath("./down/hadoop-2.6.0-cdh5.7.0.tar.gz");
fileSystem.copyToLocalFile(false, hdfsPath, localPath, true);
    }
  • 运行download()
    java下载文件.jpg
相关文章
|
1月前
|
Java API Maven
如何使用Java开发抖音API接口?
在数字化时代,社交媒体平台如抖音成为生活的重要部分。本文详细介绍了如何用Java开发抖音API接口,从创建开发者账号、申请API权限、准备开发环境,到编写代码、测试运行及注意事项,全面覆盖了整个开发流程。
152 10
|
1月前
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
77 2
|
2月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
195 6
|
4天前
|
JSON Java Apache
Java基础-常用API-Object类
继承是面向对象编程的重要特性,允许从已有类派生新类。Java采用单继承机制,默认所有类继承自Object类。Object类提供了多个常用方法,如`clone()`用于复制对象,`equals()`判断对象是否相等,`hashCode()`计算哈希码,`toString()`返回对象的字符串表示,`wait()`、`notify()`和`notifyAll()`用于线程同步,`finalize()`在对象被垃圾回收时调用。掌握这些方法有助于更好地理解和使用Java中的对象行为。
|
18天前
|
算法 Java API
如何使用Java开发获得淘宝商品描述API接口?
本文详细介绍如何使用Java开发调用淘宝商品描述API接口,涵盖从注册淘宝开放平台账号、阅读平台规则、创建应用并申请接口权限,到安装开发工具、配置开发环境、获取访问令牌,以及具体的Java代码实现和注意事项。通过遵循这些步骤,开发者可以高效地获取商品详情、描述及图片等信息,为项目和业务增添价值。
52 10
|
26天前
|
存储 Java 数据挖掘
Java 8 新特性之 Stream API:函数式编程风格的数据处理范式
Java 8 引入的 Stream API 提供了一种新的数据处理方式,支持函数式编程风格,能够高效、简洁地处理集合数据,实现过滤、映射、聚合等操作。
44 6
|
26天前
|
Java API 开发者
Java中的Lambda表达式与Stream API的协同作用
在本文中,我们将探讨Java 8引入的Lambda表达式和Stream API如何改变我们处理集合和数组的方式。Lambda表达式提供了一种简洁的方法来表达代码块,而Stream API则允许我们对数据流进行高级操作,如过滤、映射和归约。通过结合使用这两种技术,我们可以以声明式的方式编写更简洁、更易于理解和维护的代码。本文将介绍Lambda表达式和Stream API的基本概念,并通过示例展示它们在实际项目中的应用。
|
1月前
|
安全 Java API
告别SimpleDateFormat:Java 8日期时间API的最佳实践
在Java开发中,处理日期和时间是一个基本而重要的任务。传统的`SimpleDateFormat`类因其简单易用而被广泛采用,但它存在一些潜在的问题,尤其是在多线程环境下。本文将探讨`SimpleDateFormat`的局限性,并介绍Java 8引入的新的日期时间API,以及如何使用这些新工具来避免潜在的风险。
39 5
|
1月前
|
分布式计算 Java Hadoop
linux中HADOOP_HOME和JAVA_HOME删除后依然指向旧目录
通过以上步骤,可以有效地解决 `HADOOP_HOME`和 `JAVA_HOME`删除后依然指向旧目录的问题。确保在所有相关的配置文件中正确设置和删除环境变量,并刷新当前会话,使更改生效。通过这些措施,能够确保系统环境变量的正确性和一致性。
31 1
|
1月前
|
开发框架 Java 关系型数据库
Java哪个框架适合开发API接口?
在快速发展的软件开发领域,API接口连接了不同的系统和服务。Java作为成熟的编程语言,其生态系统中出现了许多API开发框架。Magic-API因其独特优势和强大功能,成为Java开发者优选的API开发框架。本文将从核心优势、实际应用价值及未来展望等方面,深入探讨Magic-API为何值得选择。
55 2