分布式系统详解--框架(Hadoop--JAVA操作HDFS文件)

简介: 分布式系统详解--框架(Hadoop--JAVA操作HDFS文件)

分布式系统详解--框架(Hadoop--JAVA操作HDFS文件)

       前面的文章介绍了怎么将整个集群系统搭建起来,并进行了有效的测试。为了解决登录一台服务器登录其他服务器需要多次输入密码的问题,提供了SSH免密码登录解决方案。还有一些hadoop的简单操作shell命令。今天我们就结合eclipse来用JAVA语言来读取和操作我们的hadoop文件系统中的文件。

一、POM文件

1.1 让我们来先看一下mvnrepository里面关于hadoop中的JAR包

1.2 需要引进的JAR包。

<!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-common -->
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-common</artifactId>
      <version>2.7.5</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client -->
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-client</artifactId>
      <version>2.7.5</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-hdfs -->
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-hdfs</artifactId>
      <version>2.7.5</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-mapreduce-client-core -->
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-mapreduce-client-core</artifactId>
      <version>2.7.5</version>
    </dependency>
      <dependency>
      <groupId>jdk.tools</groupId>
      <artifactId>jdk.tools</artifactId>
      <version>1.8</version>
      <scope>system</scope>
      <systemPath>${JAVA_HOME}/lib/tools.jar</systemPath>
    </dependency>

二、代码

2.1 前提我先在hdfs dfs 系统根目录下建立一个test文件夹,将README.txt复制了进去。

2.2 查看文件

/**
 * 
 */
package com.yuyi.hadoop;
 
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStream;
import java.net.URI;
import java.net.URISyntaxException;
 
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
 
/**
 * @author mcb
 *
 *         2018年10月11日 下午5:49:28
 */
public class ReadFileToConSoleTest {
 
  public static void main(String[] args) throws Exception {
    // 该路径为你想获取的文件的路径,就是想着读取那一个文件
    String filePath = "/test/README.txt";
    readFileToConSole(filePath);
//    readFileToLocal(filePath);
    localToHDFS();
  }
 
  static FileSystem fs = null;
  static {
    Configuration conf =new Configuration();
    try {
      fs = FileSystem.get(new URI("hdfs://192.168.71.233:8020"), conf, "root");
    } catch (IOException e) {
      // TODO 自动生成的 catch 块
      e.printStackTrace();
    } catch (InterruptedException e) {
      // TODO 自动生成的 catch 块
      e.printStackTrace();
    } catch (URISyntaxException e) {
      // TODO 自动生成的 catch 块
      e.printStackTrace();
    }
  }
 
  // 文件读取
  public static void readFileToConSole(String filePath) throws Exception {
    // 获取配置
    Configuration conf = new Configuration();
    // 配置
    conf.set("fs.defaultFS", "hdfs://192.168.71.233:8020");
    // 获取hdfs文件系统的操作对象
    FileSystem fs = FileSystem.get(conf);
    // 具体对文件操作
    FSDataInputStream fin = fs.open(new Path(filePath));
    // 输入流读取,读出到何处,读出大小和是否关闭
    IOUtils.copyBytes(fin, System.out, 4096, true);
  }
 
  // 文件下载到本地
  public static void readFileToLocal(String filePath) throws Exception {
 
    FSDataInputStream fin = null;
    OutputStream out = null;
    try {
      // 获取配置
      Configuration conf = new Configuration();
      // 配置
      // conf.set("fs.defaultFS", "hdfs://192.168.71.233:8020");
      // 获取hdfs文件系统的操作对象
      FileSystem fs = FileSystem.get(new URI("hdfs://192.168.71.233:8020"), conf, "root");
      // 具体对文件操作
      fin = fs.open(new Path(filePath));
 
      out = new FileOutputStream(new File("F:\\hadoop\\testout\\a.txt"));
      // 输入流读取,读出到何处,读出大小和是否关闭
      IOUtils.copyBytes(fin, out, 4096, true);
    } catch (Exception e) {
      // TODO 自动生成的 catch 块
      e.printStackTrace();
 
    } finally {
      fin.close();
      out.close();
    }
  }
 
  // 文件从本地上传到hdfs系统中
  public static void localToHDFS() throws IllegalArgumentException, IOException {
    String localPath="F:\\hadoop\\testout";
    String hdfsPath="/test/b.txt";
    fs.copyFromLocalFile(new Path(localPath), new Path(hdfsPath));
    System.out.println("传输完成~~");
    
    
  }
 
}

目录
相关文章
|
数据采集 存储 数据可视化
分布式爬虫框架Scrapy-Redis实战指南
本文介绍如何使用Scrapy-Redis构建分布式爬虫系统,采集携程平台上热门城市的酒店价格与评价信息。通过代理IP、Cookie和User-Agent设置规避反爬策略,实现高效数据抓取。结合价格动态趋势分析,助力酒店业优化市场策略、提升服务质量。技术架构涵盖Scrapy-Redis核心调度、代理中间件及数据解析存储,提供完整的技术路线图与代码示例。
1784 0
分布式爬虫框架Scrapy-Redis实战指南
|
消息中间件 运维 数据库
Seata框架和其他分布式事务框架有什么区别
Seata框架和其他分布式事务框架有什么区别
587 153
|
存储 Java 关系型数据库
在Spring Boot中整合Seata框架实现分布式事务
可以在 Spring Boot 中成功整合 Seata 框架,实现分布式事务的管理和处理。在实际应用中,还需要根据具体的业务需求和技术架构进行进一步的优化和调整。同时,要注意处理各种可能出现的问题,以保障分布式事务的顺利执行。
1534 160
|
数据库
如何在Seata框架中配置分布式事务的隔离级别?
总的来说,配置分布式事务的隔离级别是实现分布式事务管理的重要环节之一,需要认真对待和仔细调整,以满足业务的需求和性能要求。你还可以进一步深入研究和实践 Seata 框架的配置和使用,以更好地应对各种分布式事务场景的挑战。
709 160
|
监控 Java 调度
SpringBoot中@Scheduled和Quartz的区别是什么?分布式定时任务框架选型实战
本文对比分析了SpringBoot中的`@Scheduled`与Quartz定时任务框架。`@Scheduled`轻量易用,适合单机简单场景,但存在多实例重复执行、无持久化等缺陷;Quartz功能强大,支持分布式调度、任务持久化、动态调整和失败重试,适用于复杂企业级需求。文章通过特性对比、代码示例及常见问题解答,帮助开发者理解两者差异,合理选择方案。记住口诀:单机简单用注解,多节点上Quartz;若是任务要可靠,持久化配置不能少。
1060 4
|
存储 监控 数据可视化
常见的分布式定时任务调度框架
分布式定时任务调度框架用于在分布式系统中管理和调度定时任务,确保任务按预定时间和频率执行。其核心概念包括Job(任务)、Trigger(触发器)、Executor(执行器)和Scheduler(调度器)。这类框架应具备任务管理、任务监控、良好的可扩展性和高可用性等功能。常用的Java生态中的分布式任务调度框架有Quartz Scheduler、ElasticJob和XXL-JOB。
5847 66
|
数据采集 人工智能 分布式计算
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
872 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
|
存储 人工智能 算法
解锁分布式文件分享的 Java 一致性哈希算法密码
在数字化时代,文件分享成为信息传播与协同办公的关键环节。本文深入探讨基于Java的一致性哈希算法,该算法通过引入虚拟节点和环形哈希空间,解决了传统哈希算法在分布式存储中的“哈希雪崩”问题,确保文件分配稳定高效。文章还展示了Java实现代码,并展望了其在未来文件分享技术中的应用前景,如结合AI优化节点布局和区块链增强数据安全。
|
Java
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
516 34
|
人工智能 分布式计算 大数据
MaxFrame 产品评测:大数据与AI融合的Python分布式计算框架
MaxFrame是阿里云MaxCompute推出的自研Python分布式计算框架,支持大规模数据处理与AI应用。它提供类似Pandas的API,简化开发流程,并兼容多种机器学习库,加速模型训练前的数据准备。MaxFrame融合大数据和AI,提升效率、促进协作、增强创新能力。尽管初次配置稍显复杂,但其强大的功能集、性能优化及开放性使其成为现代企业与研究机构的理想选择。未来有望进一步简化使用门槛并加强社区建设。
692 8

相关实验场景

更多