分布式系统详解--框架(Hadoop--JAVA操作HDFS文件)

简介: 分布式系统详解--框架(Hadoop--JAVA操作HDFS文件)

分布式系统详解--框架(Hadoop--JAVA操作HDFS文件)

       前面的文章介绍了怎么将整个集群系统搭建起来,并进行了有效的测试。为了解决登录一台服务器登录其他服务器需要多次输入密码的问题,提供了SSH免密码登录解决方案。还有一些hadoop的简单操作shell命令。今天我们就结合eclipse来用JAVA语言来读取和操作我们的hadoop文件系统中的文件。

一、POM文件

1.1 让我们来先看一下mvnrepository里面关于hadoop中的JAR包

1.2 需要引进的JAR包。

<!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-common -->
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-common</artifactId>
      <version>2.7.5</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client -->
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-client</artifactId>
      <version>2.7.5</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-hdfs -->
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-hdfs</artifactId>
      <version>2.7.5</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-mapreduce-client-core -->
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-mapreduce-client-core</artifactId>
      <version>2.7.5</version>
    </dependency>
      <dependency>
      <groupId>jdk.tools</groupId>
      <artifactId>jdk.tools</artifactId>
      <version>1.8</version>
      <scope>system</scope>
      <systemPath>${JAVA_HOME}/lib/tools.jar</systemPath>
    </dependency>

二、代码

2.1 前提我先在hdfs dfs 系统根目录下建立一个test文件夹,将README.txt复制了进去。

2.2 查看文件

/**
 * 
 */
package com.yuyi.hadoop;
 
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStream;
import java.net.URI;
import java.net.URISyntaxException;
 
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
 
/**
 * @author mcb
 *
 *         2018年10月11日 下午5:49:28
 */
public class ReadFileToConSoleTest {
 
  public static void main(String[] args) throws Exception {
    // 该路径为你想获取的文件的路径,就是想着读取那一个文件
    String filePath = "/test/README.txt";
    readFileToConSole(filePath);
//    readFileToLocal(filePath);
    localToHDFS();
  }
 
  static FileSystem fs = null;
  static {
    Configuration conf =new Configuration();
    try {
      fs = FileSystem.get(new URI("hdfs://192.168.71.233:8020"), conf, "root");
    } catch (IOException e) {
      // TODO 自动生成的 catch 块
      e.printStackTrace();
    } catch (InterruptedException e) {
      // TODO 自动生成的 catch 块
      e.printStackTrace();
    } catch (URISyntaxException e) {
      // TODO 自动生成的 catch 块
      e.printStackTrace();
    }
  }
 
  // 文件读取
  public static void readFileToConSole(String filePath) throws Exception {
    // 获取配置
    Configuration conf = new Configuration();
    // 配置
    conf.set("fs.defaultFS", "hdfs://192.168.71.233:8020");
    // 获取hdfs文件系统的操作对象
    FileSystem fs = FileSystem.get(conf);
    // 具体对文件操作
    FSDataInputStream fin = fs.open(new Path(filePath));
    // 输入流读取,读出到何处,读出大小和是否关闭
    IOUtils.copyBytes(fin, System.out, 4096, true);
  }
 
  // 文件下载到本地
  public static void readFileToLocal(String filePath) throws Exception {
 
    FSDataInputStream fin = null;
    OutputStream out = null;
    try {
      // 获取配置
      Configuration conf = new Configuration();
      // 配置
      // conf.set("fs.defaultFS", "hdfs://192.168.71.233:8020");
      // 获取hdfs文件系统的操作对象
      FileSystem fs = FileSystem.get(new URI("hdfs://192.168.71.233:8020"), conf, "root");
      // 具体对文件操作
      fin = fs.open(new Path(filePath));
 
      out = new FileOutputStream(new File("F:\\hadoop\\testout\\a.txt"));
      // 输入流读取,读出到何处,读出大小和是否关闭
      IOUtils.copyBytes(fin, out, 4096, true);
    } catch (Exception e) {
      // TODO 自动生成的 catch 块
      e.printStackTrace();
 
    } finally {
      fin.close();
      out.close();
    }
  }
 
  // 文件从本地上传到hdfs系统中
  public static void localToHDFS() throws IllegalArgumentException, IOException {
    String localPath="F:\\hadoop\\testout";
    String hdfsPath="/test/b.txt";
    fs.copyFromLocalFile(new Path(localPath), new Path(hdfsPath));
    System.out.println("传输完成~~");
    
    
  }
 
}

目录
相关文章
|
3月前
|
XML 存储 分布式计算
【赵渝强老师】史上最详细:Hadoop HDFS的体系架构
HDFS(Hadoop分布式文件系统)由三个核心组件构成:NameNode、DataNode和SecondaryNameNode。NameNode负责管理文件系统的命名空间和客户端请求,维护元数据文件fsimage和edits;DataNode存储实际的数据块,默认大小为128MB;SecondaryNameNode定期合并edits日志到fsimage中,但不作为NameNode的热备份。通过这些组件的协同工作,HDFS实现了高效、可靠的大规模数据存储与管理。
300 70
|
12天前
|
存储 Java 数据安全/隐私保护
Java技术栈揭秘:Base64加密和解密文件的实战案例
以上就是我们今天关于Java实现Base64编码和解码的实战案例介绍。希望能对你有所帮助。还有更多知识等待你去探索和学习,让我们一同努力,继续前行!
66 5
|
12天前
|
网络协议 安全 Java
实现Java语言的文件断点续传功能的技术方案。
像这样,我们就完成了一项看似高科技、实则亲民的小工程。这样的技术实现不仅具备实用性,也能在面对网络不稳定的挑战时,稳稳地、不失乐趣地完成工作。
27 0
|
3月前
|
前端开发 Cloud Native Java
Java||Springboot读取本地目录的文件和文件结构,读取服务器文档目录数据供前端渲染的API实现
博客不应该只有代码和解决方案,重点应该在于给出解决方案的同时分享思维模式,只有思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
Java||Springboot读取本地目录的文件和文件结构,读取服务器文档目录数据供前端渲染的API实现
|
4月前
|
存储 算法 Java
解锁“分享文件”高效密码:探秘 Java 二叉搜索树算法
在信息爆炸的时代,文件分享至关重要。二叉搜索树(BST)以其高效的查找性能,为文件分享优化提供了新路径。本文聚焦Java环境下BST的应用,介绍其基础结构、实现示例及进阶优化。BST通过有序节点快速定位文件,结合自平衡树、多线程和权限管理,大幅提升文件分享效率与安全性。代码示例展示了文件插入与查找的基本操作,适用于大规模并发场景,确保分享过程流畅高效。掌握BST算法,助力文件分享创新发展。
|
4月前
|
Java API 数据处理
深潜数据海洋:Java文件读写全面解析与实战指南
通过本文的详细解析与实战示例,您可以系统地掌握Java中各种文件读写操作,从基本的读写到高效的NIO操作,再到文件复制、移动和删除。希望这些内容能够帮助您在实际项目中处理文件数据,提高开发效率和代码质量。
103 4
|
8月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
369 6
|
8月前
|
SQL 分布式计算 监控
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
144 3
|
8月前
|
存储 分布式计算 资源调度
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
188 5
|
8月前
|
资源调度 数据可视化 大数据
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
104 4

热门文章

最新文章