IntelliJ IDEA实现Hadoop读写HDFS文件(非Maven、离线版)

简介: IntelliJ IDEA实现Hadoop读写HDFS文件(非Maven、离线版)

0x00 教程内容


  1. 新建Java项目
  2. 编写HDFS读写代码
  3. 打包到服务器执行

实验前提:


a. 安装好了JDK


0x01 新建Java项目



1. 新建Java项目

a. 新建一个Java项目,配置好Project SDK,然后NextNext,起个有意义的项目名hadoop-project


image.png


b. 如果有提示,可以随便选一个


image.png


2. 项目配置

a. 右击src,建一个包,比如:com.shaonaiyi


image.png


b. 然后编辑项目结构,确保我们的SDKS已经配置上了我们的JDK(找到我们win本地的JDK主目录即可):


image.png


导入之后点击OK

c. 导入我们的HDFS依赖的jar包,一个是公共包,一个是HDFS的依赖包(然后OK):


image.png


0x02 编写HDFS代码


1. 编写写HDFS代码

a. 新建一个WriteFile

b. 编写WriteFile类代码:


package com.shaonaiyi;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import java.io.IOException;
import java.net.URI;
public class WriteFile {
    public static void main(String[] args) throws IOException {
        String content = "Hello,shaonaiyi!\n";
        String dest = "hdfs://master:9999/test.txt";
        Configuration configuration = new Configuration();
        FileSystem fileSystem = FileSystem.get(URI.create(dest), configuration);
        FSDataOutputStream out = fileSystem.create(new Path(dest));
        out.write(content.getBytes("UTF-8"));
        out.close();
    }
}


2. 编写读HDFS代码

a. 新建一个ReadFile

b. 编写ReadFile类代码:

package com.shaonaiyi;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import java.io.*;
import java.net.URI;
public class ReadFile {
    public static void main(String[] args) throws IOException {
        String dest = "hdfs://master:9999/test.txt";
        Configuration configuration = new Configuration();
        FileSystem fileSystem = FileSystem.get(URI.create(dest), configuration);
        FSDataInputStream in = fileSystem.open(new Path(dest));
        BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(in));
        String line = null;
        while ((line = bufferedReader.readLine()) != null) {
            System.out.println(line);
        }
        in.close();
    }
}


0x03 打包到服务器执行


1. 设置打包工程

a. 选择一种类型的包


image.png


b. 因为我们有几个main方法,所以我们可以不选择main方法,直接点击OK


image.png


c. 排除我们服务器上有的包,即服务器已经有的jar包就不用也把他们打包上去了。


image.png


然后一直ok,执行完,稍等一会可以看到src同级目录下多了个out文件夹。

2. 打包操作

a. 打包


image.png


b. 执行完可以看到out目录有jar包了


image.png


3. 上传服务器并执行

a. 使用XFtp等工具上传jar包和项目下的即可(此处直接上传到~路径)

hadoop-project.jar

~路径下

b. 启动hdfs

$HADOOP_HOME/sbin/start-dfs.sh


0x04 执行结果展示


c. 执行(在jar包当前路径下):

先执行写HDFS的代码(如HDFS上已有/test.txt文件会报错,请先删除或者换名字):

hadoop jar hadoop-project.jar com.shaonaiyi.WriteFile

查看是否写内容进去:

hadoop fs -cat /test.txt


image.png


执行读HDFS的代码:

hadoop jar hadoop-project.jar com.shaonaiyi.ReadFile

可以看到展示的效果:


image.png


0xFF 总结


本教程不用联网也可以执行HDFS的读写操作,此外,一样也可以执行Spark、机器学习等案例。

本教程非常关键,因为网络不好或者是简单的项目,这种传统的方式也是非常简单方便的。

关于HDFS的其他相关操作(Maven版本),请查看教程:Java API实现HDFS的相关操作


相关文章
|
1月前
|
缓存 IDE Java
maven install报错原因揭秘:‘parent.relativePath‘指向错误的本地POM文件
在使用Maven构建项目时,遇到'parent.relativePath'错误通常是由于父项目POM路径设置错误、版本不一致或内容不匹配导致的。解决方法包括:校正父项目POM的相对路径、确保版本一致、保持POM文件内容同步,并排查其他潜在问题,如子模块命名冲突和Maven缓存问题。通过这些步骤可解决该错误,避免项目构建失败。
maven install报错原因揭秘:‘parent.relativePath‘指向错误的本地POM文件
|
1月前
|
存储 分布式计算 Hadoop
Hadoop Distributed File System (HDFS): 概念、功能点及实战
【6月更文挑战第12天】Hadoop Distributed File System (HDFS) 是 Hadoop 生态系统中的核心组件之一。它设计用于在大规模集群环境中存储和管理海量数据,提供高吞吐量的数据访问和容错能力。
259 4
|
23天前
|
存储 分布式计算 Hadoop
Hadoop的HDFS数据均衡
【6月更文挑战第13天】
34 3
|
1月前
|
存储 分布式计算 安全
|
27天前
|
SQL JSON 数据处理
实时计算 Flink版产品使用问题之把hdfs集群里的core-site.xml hdfs.xml两个文件放到flink/conf/目录下,启动集群说找不到hdfs,该如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
1月前
|
存储 分布式计算 资源调度
|
21天前
|
分布式计算 Hadoop Java
分布式系统详解--框架(Hadoop--JAVA操作HDFS文件)
分布式系统详解--框架(Hadoop--JAVA操作HDFS文件)
22 0
|
28天前
|
存储 分布式计算 Hadoop
Hadoop生态系统详解:HDFS与MapReduce编程
Apache Hadoop是大数据处理的关键,其核心包括HDFS(分布式文件系统)和MapReduce(并行计算框架)。HDFS为大数据存储提供高容错性和高吞吐量,采用主从结构,通过数据复制保证可靠性。MapReduce将任务分解为Map和Reduce阶段,适合大规模数据集的处理。通过代码示例展示了如何使用MapReduce实现Word Count功能。HDFS和MapReduce的结合,加上YARN的资源管理,构成处理和分析大数据的强大力量。了解和掌握这些基础对于有效管理大数据至关重要。【6月更文挑战第12天】
47 0
|
23天前
|
Java Apache Maven
Maven 项目文档
在`C:/MVN/consumerBanking`中创建Maven Java项目,使用命令`mvn archetype:generate`生成基础结构。确保`pom.xml`包含`maven-site-plugin`和`maven-project-info-reports-plugin`,版本至少为3.3和2.7,以避免`NoClassDefFoundError`。运行`mvn site`生成文档。
|
15天前
|
Java Maven
Maven如何创建Maven web项目
Maven如何创建Maven web项目