【分布式计算框架】HDFS常用操作及编程实践

简介: 【分布式计算框架】HDFS常用操作及编程实践

HDFS常用操作及编程实践

一、实验目的

  • 熟悉HDFS的常用shell命令
  • 配置eclipse编程环境
  • 编程实现创建目录、上传文件、显示文件内容功能
  • 创建一个约1.6M大小的文件,然后设置块大小(1048576)上传文件
  • 编程实现按行读取HDFS文件,显示文件块信息,实现缓存功能

二、实验环境

  • centos 6.5
  • VMware Workstation

三、实验内容

先关闭集群

stop-dfs.sh

zkServer.sh stop

下次启动只要执行

start-dfs.sh

api客户端设置

1.解压hadoop-2.6.5.tar.gz ,hadoop-2.6.5-src.tar.gz 两个压缩文件 到一个干净的目录,比如d:\hadoop\usr

2.再创建hadoop-lib目录,将hadoop-2.6.5/share/hadoop各个目录里的jar包拷贝至这里(httpfs,kms除外)

3.配置windows环境变量 :

HADOOP_HOME=D:\hadoop\usr\hadoop-2.6.5

HADOOP_USER_NAME=root

path=%HADOOP_HOME%\bin;

4.将老师提供的bin目录的文件复制到d:\hadoop\usr\hadoop-2.6.5\bin(覆盖)

5.将bin里的hadoop.dll拷贝到c:\windows\System32

6.解压 eclipse-mars.rar,将hadoop-eclipse-plugin-2.6.0.jar(可视化插件)拷贝到d:\eclipse-mars\mars\plugins

  1. 启动hadoop (node01)

  1. 启动eclipse,project Explorer里有DFS Locations(如果没有出现,选择Java EE),小象图标(可视化控件)

  2. 配置eclipse:

菜单:

window-preferences-hadoop map/reduce

hadoop installation directory:d:\hadoop\usr\hadoop-2.6.5

new hadoop location(定位器)

location name: 任意取

DFS Master (不选 use M/R Master host)

Host:node01 #active的节点

port:8020(50070是浏览器的端口)

实验(创建一个目录/user/root)

  1. 新建一个Java项目

  2. 导入Jar包:

菜单:window-preferences-java-build path-user libraries

自定义一个jar包(比如hadoop_jars)

菜单:add external JARS

选择D:\hadoop\usr\hadoop-lib所有jar包

项目里导入hadoop_jars包 //右击项目名-build path-configure build path-java build path-libraries-add library-use library-hadoop_jars

项目里导入jUnit 4 //右击项目名-build path-configure build path-java build path-libraries-add library-jUnit 4

  1. 导入hdfs-site.xml,core-site.xml配置文件到项目的src目录(使用xftp传输)



  2. 新建一个class
Test20191909/src
com.sxt.hdfs.test
TestHDFS

四、出现的问题及解决方案

  1. jdk版本太高,导致eclipce安装失败,方案:重新安装低版本的jdk

五、实验结果

  1. 浏览器查看上传文件块信息截图

  1. HDFS命令,程序源代码,程序运行结果截图

代码:

Configuration conf=null;
FileSystem fs=null;

@Before
public void conn() throws IOException{
    conf=new Configuration();
    fs=FileSystem.get(conf);
}

@Test
public void mkdir() throws IOException{
    Path path=new Path("/mytemp");
    if(fs.exists(path))
    fs.delete(path,true);

    fs.mkdirs(path);
}

@Test
public void uploadFile() throws IOException{

    // 文件的上传路径
    Path path=new Path("/mytemp/jk.txt");
    FSDataOutputStream fdos=fs.create(path);

    // 拿到磁盘文件
    InputStream is=new BufferedInputStream(new FileInputStream("D:\\hadoop\\usr\\Test\\hadoop实操.txt"));

    IOUtils.copyBytes(is,fdos,conf,true);
}


//在远端上传root/software/test.txt

//hdfs dfs -D dfs.blocksize=1048576 -put test.txt

@Test

public void readFile() throws IOException{

    Path path=new Path("/user/root/test.txt");
    FileStatus file=fs.getFileStatus(path);
    BlockLocation[] blks=fs.getFileBlockLocations(file, 0, file.getLen());

    // 遍历数组
    for(BlockLocation blk:blks){
    System.out.println(blk);
    }
 
    //读取文件
    FSDataInputStream fdis=fs.open(path);

    System.out.println((char)fdis.readByte());
    System.out.println((char)fdis.readByte());
    System.out.println((char)fdis.readByte());
    System.out.println((char)fdis.readByte());
    System.out.println((char)fdis.readByte());

package com.sxt.hdfs.test;

import java.io.BufferedInputStream;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.BlockLocation;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;

public class TestHDFS {
  Configuration conf=null;
  FileSystem fs=null;

  @Before
  public void conn() throws IOException{

  conf=new Configuration();
  fs=FileSystem.get(conf);


  }

  @Test
  public void mkdir() throws IOException{

  Path path=new Path("/mytemp");
  if(fs.exists(path))
  fs.delete(path,true);

  fs.mkdirs(path);

  }

  @Test
  public void uploadFile() throws IOException{

  // 文件的上传路径
  Path path=new Path("/mytemp/jk.txt");
  FSDataOutputStream fdos=fs.create(path);

  // 拿到磁盘文件
  InputStream is=new BufferedInputStream(new FileInputStream("D:\\hadoop\\usr\\Test\\hadoop实操.txt"));

  IOUtils.copyBytes(is,fdos,conf,true);



  }


  //上传root/software/test.txt

  //hdfs dfs -D dfs.blocksize=1048576 -put test.txt

  @Test

  public void readFile() throws IOException{

  Path path=new Path("/user/root/test.txt");
  FileStatus file=fs.getFileStatus(path);
  BlockLocation[] blks=fs.getFileBlockLocations(file, 0, file.getLen());

  // 遍历数组
  for(BlockLocation blk:blks){
  System.out.println(blk);
  }

  //读取文件

  FSDataInputStream fdis=fs.open(path);


  System.out.println((char)fdis.readByte());
  System.out.println((char)fdis.readByte());
  System.out.println((char)fdis.readByte());
  System.out.println((char)fdis.readByte());
  System.out.println((char)fdis.readByte());


  }

  @After
  public void close() throws IOException{
    fs.close();
  }
}

}


@After
public void close() throws IOException{
  fs.close();
}

使用mkdir程序创建目录

使用uploadFile程序上传文件

在远端上传root/software/test.txt

hdfs dfs -D dfs.blocksize=1048576 -put test.txt

使用readFile程序获取节点信息

六、实验思考题

  1. 端口号9000和50070的区别?
  • 9000端口通常用于HDFS的通信,即Hadoop分布式文件系统的通信端口。在Hadoop配置中,HDFS使用9000端口进行数据通信。
  • 50070端口一般用于Hadoop集群的Web界面,是Hadoop的NameNode节点的Web UI端口,可以通过浏览器访问该端口查看Hadoop集群的状态以及文件系统的相关信息。

编程中你用到了哪些Java对象?

在你的Java程序中,主要使用了以下Java对象:

  • Configuration:Hadoop配置对象,用于管理Hadoop的配置信息。
  • FileSystem:Hadoop的文件系统抽象类,用于与HDFS进行交互。
  • Path:表示Hadoop中的路径对象,用于指定文件或目录的路径。
  • FSDataOutputStream:用于向HDFS写入数据的输出流对象。
  • InputStream:Java标准库中的输入流,用于读取本地文件的数据。
  • FileStatus:表示文件状态的对象,包括文件大小、块信息等。
  • BlockLocation:表示文件块在HDFS上的位置信息。
  • FSDataInputStream:用于从HDFS读取数据的输入流对象。
  1. hadoop fs、hadoop dfs、hdfs dfs的区别?
  • hadoop fs是Hadoop提供的一个通用文件系统操作命令,可以用来操作不同类型的文件系统,默认情况下会映射到HDFS文件系统。
  • hadoop dfs是Hadoop早期版本提供的命令,用于操作HDFS文件系统,现在已经废弃,推荐使用hadoop fs命令代替。
  • hdfs dfs是Hadoop当前版本推荐的操作HDFS文件系统的命令,是最新版本中用于操作HDFS的命令,推荐使用这个命令进行HDFS文件系统的管理和操作。

atus:表示文件状态的对象,包括文件大小、块信息等。

  • BlockLocation:表示文件块在HDFS上的位置信息。
  • FSDataInputStream:用于从HDFS读取数据的输入流对象。
  1. hadoop fs、hadoop dfs、hdfs dfs的区别?
  • hadoop fs是Hadoop提供的一个通用文件系统操作命令,可以用来操作不同类型的文件系统,默认情况下会映射到HDFS文件系统。
  • hadoop dfs是Hadoop早期版本提供的命令,用于操作HDFS文件系统,现在已经废弃,推荐使用hadoop fs命令代替。
  • hdfs dfs是Hadoop当前版本推荐的操作HDFS文件系统的命令,是最新版本中用于操作HDFS的命令,推荐使用这个命令进行HDFS文件系统的管理和操作。

相关文章
|
3天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
21 2
|
12天前
|
运维 Kubernetes 调度
阿里云容器服务 ACK One 分布式云容器企业落地实践
阿里云容器服务ACK提供强大的产品能力,支持弹性、调度、可观测、成本治理和安全合规。针对拥有IDC或三方资源的企业,ACK One分布式云容器平台能够有效解决资源管理、多云多集群管理及边缘计算等挑战,实现云上云下统一管理,提升业务效率与稳定性。
|
19天前
|
机器学习/深度学习 存储 运维
分布式机器学习系统:设计原理、优化策略与实践经验
本文详细探讨了分布式机器学习系统的发展现状与挑战,重点分析了数据并行、模型并行等核心训练范式,以及参数服务器、优化器等关键组件的设计与实现。文章还深入讨论了混合精度训练、梯度累积、ZeRO优化器等高级特性,旨在提供一套全面的技术解决方案,以应对超大规模模型训练中的计算、存储及通信挑战。
48 4
|
22天前
|
NoSQL Java 数据处理
基于Redis海量数据场景分布式ID架构实践
【11月更文挑战第30天】在现代分布式系统中,生成全局唯一的ID是一个常见且重要的需求。在微服务架构中,各个服务可能需要生成唯一标识符,如用户ID、订单ID等。传统的自增ID已经无法满足在集群环境下保持唯一性的要求,而分布式ID解决方案能够确保即使在多个实例间也能生成全局唯一的标识符。本文将深入探讨如何利用Redis实现分布式ID生成,并通过Java语言展示多个示例,同时分析每个实践方案的优缺点。
39 8
|
3月前
|
运维 Kubernetes 调度
阿里云容器服务 ACK One 分布式云容器企业落地实践
3年前的云栖大会,我们发布分布式云容器平台ACK One,随着3年的发展,很高兴看到ACK One在混合云,分布式云领域帮助到越来越多的客户,今天给大家汇报下ACK One 3年来的发展演进,以及如何帮助客户解决分布式领域多云多集群管理的挑战。
阿里云容器服务 ACK One 分布式云容器企业落地实践
|
2月前
|
分布式计算 Hadoop 网络安全
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
41 1
|
2月前
|
存储 机器学习/深度学习 缓存
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
54 1
|
2月前
|
分布式计算 资源调度 Hadoop
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
56 1
|
4月前
|
存储 分布式计算 Hadoop
【揭秘Hadoop背后的秘密!】HDFS读写流程大曝光:从理论到实践,带你深入了解Hadoop分布式文件系统!
【8月更文挑战第24天】Hadoop分布式文件系统(HDFS)是Hadoop生态系统的关键组件,专为大规模数据集提供高效率存储及访问。本文深入解析HDFS数据读写流程并附带示例代码。HDFS采用NameNode和DataNode架构,前者负责元数据管理,后者承担数据块存储任务。文章通过Java示例演示了如何利用Hadoop API实现数据的写入与读取,有助于理解HDFS的工作原理及其在大数据处理中的应用价值。
121 1
|
4月前
|
机器学习/深度学习 人工智能 负载均衡
【AI大模型】分布式训练:深入探索与实践优化
在人工智能的浩瀚宇宙中,AI大模型以其惊人的性能和广泛的应用前景,正引领着技术创新的浪潮。然而,随着模型参数的指数级增长,传统的单机训练方式已难以满足需求。分布式训练作为应对这一挑战的关键技术,正逐渐成为AI研发中的标配。
212 5

热门文章

最新文章