Hadoop Java api操作hdfs

简介: Hadoop Java api操作hdfs

新建项目

  • File->New->Module->Maven,选择quickstart
    新建项目1.jpg
  • 设置文件名和文件地址
    新建项目2.jpg
  • 点击完成
    新建项目3.jpg
  • 项目目录
    新建项目4.jpg
  • 配置pom.xml
  • 添加hadoop依赖包
<!--添加hadoop依赖--><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>${hadoop.version}</version></dependency>
  • 全局定义hadoop版本
<!--全局定义hadoop的版本--><hadoop.version>2.6.0-cdh5.7.0</hadoop.version>
  • 配置好的pom.xml
<?xmlversion="1.0" encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>com.syh</groupId><artifactId>hadoopdemo</artifactId><version>1.0-SNAPSHOT</version><name>hadoopdemo</name><!-- FIXME change it to the project's website --><url>http://www.example.com</url><properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><maven.compiler.source>1.7</maven.compiler.source><maven.compiler.target>1.7</maven.compiler.target><!--全局定义hadoop的版本--><hadoop.version>2.6.0-cdh5.7.0</hadoop.version></properties><repositories><repository><id>cloudera</id><url>https://repository.cloudera.com/artifactory/cloudera-repos/</url></repository></repositories><dependencies><!--添加hadoop依赖--><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.11</version><scope>test</scope></dependency></dependencies><build><pluginManagement><!-- lock down plugins versions to avoid using Maven defaults (may be moved to parent pom) --><plugins><!-- clean lifecycle, see https://maven.apache.org/ref/current/maven-core/lifecycles.html#clean_Lifecycle --><plugin><artifactId>maven-clean-plugin</artifactId><version>3.1.0</version></plugin><!-- default lifecycle, jar packaging: see https://maven.apache.org/ref/current/maven-core/default-bindings.html#Plugin_bindings_for_jar_packaging --><plugin><artifactId>maven-resources-plugin</artifactId><version>3.0.2</version></plugin><plugin><artifactId>maven-compiler-plugin</artifactId><version>3.8.0</version></plugin><plugin><artifactId>maven-surefire-plugin</artifactId><version>2.22.1</version></plugin><plugin><artifactId>maven-jar-plugin</artifactId><version>3.0.2</version></plugin><plugin><artifactId>maven-install-plugin</artifactId><version>2.5.2</version></plugin><plugin><artifactId>maven-deploy-plugin</artifactId><version>2.8.2</version></plugin><!-- site lifecycle, see https://maven.apache.org/ref/current/maven-core/lifecycles.html#site_Lifecycle --><plugin><artifactId>maven-site-plugin</artifactId><version>3.7.1</version></plugin><plugin><artifactId>maven-project-info-reports-plugin</artifactId><version>3.0.0</version></plugin></plugins></pluginManagement></build></project>
  • 点击图中标志
    配置pom.jpg
  • 配置好的Maven目录
    配置pom2.jpg

测试hadoop是否安装成功

  • AppTest文件中写入以下代码
packagecom.syh;
importstaticorg.junit.Assert.assertTrue;
importorg.junit.Test;
importorg.apache.hadoop.fs.*;
/*** Unit test for simple App.*/publicclassAppTest{
/*** Rigorous Test :-)*/@TestpublicvoidshouldAnswerWithTrue()
    {
assertTrue( true );
    }
@TestpublicvoidtestHadoop() {
FileSystemfileSystem=null;
    }
}
  • 按住Ctrl点击FilrSystem可以看到跳转到hadoop目录下,说明安装成功了
    测试是否安装成功.jpg

连接hdfs

  • 新建java文件
    连接hdfs.jpg
  • HDFSApp文件中写入以下代码,在hadoop中创建文件夹
packagecom.syh.hdfs;
importorg.apache.hadoop.conf.Configuration;
importorg.apache.hadoop.fs.FileSystem;
importorg.apache.hadoop.fs.Path;
importorg.junit.After;
importorg.junit.Before;
importorg.junit.Test;
importjava.net.URI;
publicclassHDFSApp {
Configurationconfiguration=null;
FileSystemfileSystem=null;
// 配置路径(ip地址)publicstaticfinalStringHDFS_PATH="hdfs://192.168.207.128:8020";
// 测试(新建文件夹)@Testpublicvoidmkdir() throwsException {
fileSystem.mkdirs(newPath("/emperorlawd/test"));
    }
// Java 连接hdfs 需要先建立一个连接// 测试方法执行之前要执行的操作@BeforepublicvoidsetUp() throwsException {
System.out.println("开始建立与HDFS的连接");
configuration=newConfiguration();
fileSystem=FileSystem.get(newURI(HDFS_PATH), configuration, "hadoop");
    }
// 测试之后要执行的代码@AfterpublicvoidtearDown() {
configuration=null;
fileSystem=null;
System.out.println("关闭与HDFS的连接");
    }
}
  • 运行成功的效果
    连接成功.jpg

创建文件

  • HDFSApp文件中加入以下代码
// 创建文件@Testpublicvoidcreate() throwsException {
Pathpath=newPath("/emperorlawd/test/hello.txt");
FSDataOutputStreamoutputStream=fileSystem.create(path);
outputStream.write("hello hadoop".getBytes());
outputStream.flush();
outputStream.close();
    }
  • 运行create()
    java新建文件.jpg

重命名文件

  • HDFSApp文件中加入以下代码
// 重命名文件@Testpublicvoidrename() throwsException {
PatholdPath=newPath("/emperorlawd/test/hello.txt");
PathnewPath=newPath("/emperorlawd/test/rehello.txt");
fileSystem.rename(oldPath, newPath);
    }
  • 运行rename()
    java重命名文件.jpg

查看文件

  • HDFSApp文件中加入以下代码
// 查看文件@Testpublicvoidcat() throwsException {
Pathpath=newPath("/emperorlawd/test/rehello.txt");
FSDataInputStreaminputStream=fileSystem.open(path);
IOUtils.copyBytes(inputStream, System.out, 1024);
inputStream.close();
    }
  • 运行cat()
    java查看文件.jpg

上传文件

  • HDFSApp文件中加入以下代码
// 上传文件@Testpublicvoidupload() throwsException {
PathlocalPath=newPath("cifar-10-python.tar.gz");
PathhdfsPath=newPath("/");
fileSystem.copyFromLocalFile(localPath, hdfsPath);
    }
  • 运行upload()
    java上传文件.jpg

下载文件

  • HDFSApp文件中加入以下代码
// 下载文件@Testpublicvoiddownload() throwsException {
PathhdfsPath=newPath("/hadoop-2.6.0-cdh5.7.0.tar.gz");
PathlocalPath=newPath("./down/hadoop-2.6.0-cdh5.7.0.tar.gz");
fileSystem.copyToLocalFile(false, hdfsPath, localPath, true);
    }
  • 运行download()
    java下载文件.jpg
相关文章
|
4月前
|
JSON Java API
【干货满满】分享京东API接口到手价,用Java语言实现
本示例使用 Java 调用京东开放平台商品价格及优惠信息 API,通过商品详情和促销接口获取到手价(含优惠券、满减等),包含签名生成、HTTP 请求及响应解析逻辑,适用于比价工具、电商系统集成等场景。
|
9月前
|
XML 存储 分布式计算
【赵渝强老师】史上最详细:Hadoop HDFS的体系架构
HDFS(Hadoop分布式文件系统)由三个核心组件构成:NameNode、DataNode和SecondaryNameNode。NameNode负责管理文件系统的命名空间和客户端请求,维护元数据文件fsimage和edits;DataNode存储实际的数据块,默认大小为128MB;SecondaryNameNode定期合并edits日志到fsimage中,但不作为NameNode的热备份。通过这些组件的协同工作,HDFS实现了高效、可靠的大规模数据存储与管理。
1081 70
|
9月前
|
缓存 监控 负载均衡
如何提升 API 性能:来自 Java 和测试开发者的优化建议
本文探讨了如何优化API响应时间,提升用户体验。通过缓存(如Redis/Memcached)、减少数据负载(REST过滤字段或GraphQL精确请求)、负载均衡(Nginx/AWS等工具)、数据压缩(Gzip/Brotli)、限流节流、监控性能(Apipost/New Relic等工具)、升级基础设施、减少第三方依赖、优化数据库查询及采用异步处理等方式,可显著提高API速度。快速响应的API不仅让用户满意,还能增强应用整体性能。
|
4月前
|
JSON Java API
【干货满满】分享拼多多API接口到手价,用Java语言实现
本方案基于 Java 实现调用拼多多开放平台商品详情 API,通过联盟接口获取商品到手价(含拼团折扣与优惠券),包含签名生成、HTTP 请求及响应解析逻辑,适用于电商比价、导购系统集成。
|
4月前
|
JSON Java API
【干货满满】分享淘宝API接口到手价,用Java语言实现
本文介绍了如何使用 Java 调用淘宝开放平台 API 获取商品到手价,涵盖依赖配置、签名生成、HTTP 请求与响应解析等核心实现步骤。
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
384 2
|
5月前
|
JSON JavaScript 前端开发
Python+JAVA+PHP语言,苏宁商品详情API
调用苏宁商品详情API,可通过HTTP/HTTPS发送请求并解析响应数据,支持多种编程语言,如JavaScript、Java、PHP、C#、Ruby等。核心步骤包括构造请求URL、发送GET/POST请求及解析JSON/XML响应。不同语言示例展示了如何获取商品名称与价格等信息,实际使用时请参考苏宁开放平台最新文档以确保兼容性。
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
528 6
|
9月前
|
前端开发 Cloud Native Java
Java||Springboot读取本地目录的文件和文件结构,读取服务器文档目录数据供前端渲染的API实现
博客不应该只有代码和解决方案,重点应该在于给出解决方案的同时分享思维模式,只有思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
Java||Springboot读取本地目录的文件和文件结构,读取服务器文档目录数据供前端渲染的API实现
|
9月前
|
缓存 安全 Java
《从头开始学java,一天一个知识点》之:字符串处理:String类的核心API
🌱 **《字符串处理:String类的核心API》一分钟速通!** 本文快速介绍Java中String类的3个高频API:`substring`、`indexOf`和`split`,并通过代码示例展示其用法。重点提示:`substring`的结束索引不包含该位置,`split`支持正则表达式。进一步探讨了String不可变性的高效设计原理及企业级编码规范,如避免使用`new String()`、拼接时使用`StringBuilder`等。最后通过互动解密游戏帮助读者巩固知识。 (上一篇:《多维数组与常见操作》 | 下一篇预告:《输入与输出:Scanner与System类》)
277 11