【分布式计算框架】HDFS常用操作及编程实践

简介: 【分布式计算框架】HDFS常用操作及编程实践

HDFS常用操作及编程实践

一、实验目的

  • 熟悉HDFS的常用shell命令
  • 配置eclipse编程环境
  • 编程实现创建目录、上传文件、显示文件内容功能
  • 创建一个约1.6M大小的文件,然后设置块大小(1048576)上传文件
  • 编程实现按行读取HDFS文件,显示文件块信息,实现缓存功能

二、实验环境

  • centos 6.5
  • VMware Workstation

三、实验内容

先关闭集群

stop-dfs.sh

zkServer.sh stop

下次启动只要执行

start-dfs.sh

api客户端设置

1.解压hadoop-2.6.5.tar.gz ,hadoop-2.6.5-src.tar.gz 两个压缩文件 到一个干净的目录,比如d:\hadoop\usr

2.再创建hadoop-lib目录,将hadoop-2.6.5/share/hadoop各个目录里的jar包拷贝至这里(httpfs,kms除外)

3.配置windows环境变量 :

HADOOP_HOME=D:\hadoop\usr\hadoop-2.6.5

HADOOP_USER_NAME=root

path=%HADOOP_HOME%\bin;

4.将老师提供的bin目录的文件复制到d:\hadoop\usr\hadoop-2.6.5\bin(覆盖)

5.将bin里的hadoop.dll拷贝到c:\windows\System32

6.解压 eclipse-mars.rar,将hadoop-eclipse-plugin-2.6.0.jar(可视化插件)拷贝到d:\eclipse-mars\mars\plugins

  1. 启动hadoop (node01)

  1. 启动eclipse,project Explorer里有DFS Locations(如果没有出现,选择Java EE),小象图标(可视化控件)

  2. 配置eclipse:

菜单:

window-preferences-hadoop map/reduce

hadoop installation directory:d:\hadoop\usr\hadoop-2.6.5

new hadoop location(定位器)

location name: 任意取

DFS Master (不选 use M/R Master host)

Host:node01 #active的节点

port:8020(50070是浏览器的端口)

实验(创建一个目录/user/root)

  1. 新建一个Java项目

  2. 导入Jar包:

菜单:window-preferences-java-build path-user libraries

自定义一个jar包(比如hadoop_jars)

菜单:add external JARS

选择D:\hadoop\usr\hadoop-lib所有jar包

项目里导入hadoop_jars包 //右击项目名-build path-configure build path-java build path-libraries-add library-use library-hadoop_jars

项目里导入jUnit 4 //右击项目名-build path-configure build path-java build path-libraries-add library-jUnit 4

  1. 导入hdfs-site.xml,core-site.xml配置文件到项目的src目录(使用xftp传输)



  2. 新建一个class
Test20191909/src
com.sxt.hdfs.test
TestHDFS

四、出现的问题及解决方案

  1. jdk版本太高,导致eclipce安装失败,方案:重新安装低版本的jdk

五、实验结果

  1. 浏览器查看上传文件块信息截图

  1. HDFS命令,程序源代码,程序运行结果截图

代码:

Configuration conf=null;
FileSystem fs=null;

@Before
public void conn() throws IOException{
    conf=new Configuration();
    fs=FileSystem.get(conf);
}

@Test
public void mkdir() throws IOException{
    Path path=new Path("/mytemp");
    if(fs.exists(path))
    fs.delete(path,true);

    fs.mkdirs(path);
}

@Test
public void uploadFile() throws IOException{

    // 文件的上传路径
    Path path=new Path("/mytemp/jk.txt");
    FSDataOutputStream fdos=fs.create(path);

    // 拿到磁盘文件
    InputStream is=new BufferedInputStream(new FileInputStream("D:\\hadoop\\usr\\Test\\hadoop实操.txt"));

    IOUtils.copyBytes(is,fdos,conf,true);
}


//在远端上传root/software/test.txt

//hdfs dfs -D dfs.blocksize=1048576 -put test.txt

@Test

public void readFile() throws IOException{

    Path path=new Path("/user/root/test.txt");
    FileStatus file=fs.getFileStatus(path);
    BlockLocation[] blks=fs.getFileBlockLocations(file, 0, file.getLen());

    // 遍历数组
    for(BlockLocation blk:blks){
    System.out.println(blk);
    }
 
    //读取文件
    FSDataInputStream fdis=fs.open(path);

    System.out.println((char)fdis.readByte());
    System.out.println((char)fdis.readByte());
    System.out.println((char)fdis.readByte());
    System.out.println((char)fdis.readByte());
    System.out.println((char)fdis.readByte());

package com.sxt.hdfs.test;

import java.io.BufferedInputStream;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.BlockLocation;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;

public class TestHDFS {
  Configuration conf=null;
  FileSystem fs=null;

  @Before
  public void conn() throws IOException{

  conf=new Configuration();
  fs=FileSystem.get(conf);


  }

  @Test
  public void mkdir() throws IOException{

  Path path=new Path("/mytemp");
  if(fs.exists(path))
  fs.delete(path,true);

  fs.mkdirs(path);

  }

  @Test
  public void uploadFile() throws IOException{

  // 文件的上传路径
  Path path=new Path("/mytemp/jk.txt");
  FSDataOutputStream fdos=fs.create(path);

  // 拿到磁盘文件
  InputStream is=new BufferedInputStream(new FileInputStream("D:\\hadoop\\usr\\Test\\hadoop实操.txt"));

  IOUtils.copyBytes(is,fdos,conf,true);



  }


  //上传root/software/test.txt

  //hdfs dfs -D dfs.blocksize=1048576 -put test.txt

  @Test

  public void readFile() throws IOException{

  Path path=new Path("/user/root/test.txt");
  FileStatus file=fs.getFileStatus(path);
  BlockLocation[] blks=fs.getFileBlockLocations(file, 0, file.getLen());

  // 遍历数组
  for(BlockLocation blk:blks){
  System.out.println(blk);
  }

  //读取文件

  FSDataInputStream fdis=fs.open(path);


  System.out.println((char)fdis.readByte());
  System.out.println((char)fdis.readByte());
  System.out.println((char)fdis.readByte());
  System.out.println((char)fdis.readByte());
  System.out.println((char)fdis.readByte());


  }

  @After
  public void close() throws IOException{
    fs.close();
  }
}

}


@After
public void close() throws IOException{
  fs.close();
}

使用mkdir程序创建目录

使用uploadFile程序上传文件

在远端上传root/software/test.txt

hdfs dfs -D dfs.blocksize=1048576 -put test.txt

使用readFile程序获取节点信息

六、实验思考题

  1. 端口号9000和50070的区别?
  • 9000端口通常用于HDFS的通信,即Hadoop分布式文件系统的通信端口。在Hadoop配置中,HDFS使用9000端口进行数据通信。
  • 50070端口一般用于Hadoop集群的Web界面,是Hadoop的NameNode节点的Web UI端口,可以通过浏览器访问该端口查看Hadoop集群的状态以及文件系统的相关信息。

编程中你用到了哪些Java对象?

在你的Java程序中,主要使用了以下Java对象:

  • Configuration:Hadoop配置对象,用于管理Hadoop的配置信息。
  • FileSystem:Hadoop的文件系统抽象类,用于与HDFS进行交互。
  • Path:表示Hadoop中的路径对象,用于指定文件或目录的路径。
  • FSDataOutputStream:用于向HDFS写入数据的输出流对象。
  • InputStream:Java标准库中的输入流,用于读取本地文件的数据。
  • FileStatus:表示文件状态的对象,包括文件大小、块信息等。
  • BlockLocation:表示文件块在HDFS上的位置信息。
  • FSDataInputStream:用于从HDFS读取数据的输入流对象。
  1. hadoop fs、hadoop dfs、hdfs dfs的区别?
  • hadoop fs是Hadoop提供的一个通用文件系统操作命令,可以用来操作不同类型的文件系统,默认情况下会映射到HDFS文件系统。
  • hadoop dfs是Hadoop早期版本提供的命令,用于操作HDFS文件系统,现在已经废弃,推荐使用hadoop fs命令代替。
  • hdfs dfs是Hadoop当前版本推荐的操作HDFS文件系统的命令,是最新版本中用于操作HDFS的命令,推荐使用这个命令进行HDFS文件系统的管理和操作。

atus:表示文件状态的对象,包括文件大小、块信息等。

  • BlockLocation:表示文件块在HDFS上的位置信息。
  • FSDataInputStream:用于从HDFS读取数据的输入流对象。
  1. hadoop fs、hadoop dfs、hdfs dfs的区别?
  • hadoop fs是Hadoop提供的一个通用文件系统操作命令,可以用来操作不同类型的文件系统,默认情况下会映射到HDFS文件系统。
  • hadoop dfs是Hadoop早期版本提供的命令,用于操作HDFS文件系统,现在已经废弃,推荐使用hadoop fs命令代替。
  • hdfs dfs是Hadoop当前版本推荐的操作HDFS文件系统的命令,是最新版本中用于操作HDFS的命令,推荐使用这个命令进行HDFS文件系统的管理和操作。

相关文章
|
6月前
|
人工智能 安全 Java
分布式 Multi Agent 安全高可用探索与实践
在人工智能加速发展的今天,AI Agent 正在成为推动“人工智能+”战略落地的核心引擎。无论是技术趋势还是政策导向,都预示着一场深刻的变革正在发生。如果你也在探索 Agent 的应用场景,欢迎关注 AgentScope 项目,或尝试使用阿里云 MSE + Higress + Nacos 构建属于你的 AI 原生应用。一起,走进智能体的新世界。
1361 88
|
6月前
|
关系型数据库 Apache 微服务
《聊聊分布式》分布式系统基石:深入理解CAP理论及其工程实践
CAP理论指出分布式系统中一致性、可用性、分区容错性三者不可兼得,必须根据业务需求进行权衡。实际应用中,不同场景选择不同策略:金融系统重一致(CP),社交应用重可用(AP),内网系统可选CA。现代架构更趋向动态调整与混合策略,灵活应对复杂需求。
|
8月前
|
数据采集 消息中间件 监控
单机与分布式:社交媒体热点采集的实践经验
在舆情监控与数据分析中,单机脚本适合小规模采集如微博热榜,而小红书等大规模、高时效性需求则需分布式架构。通过Redis队列、代理IP与多节点协作,可提升采集效率与稳定性,适应数据规模与变化速度。架构选择应根据实际需求,兼顾扩展性与维护成本。
263 2
|
11月前
|
人工智能 安全 应用服务中间件
阿里巴巴 MCP 分布式落地实践:快速转换 HSF 到 MCP server
本文分享了阿里巴巴内部将大规模HSF服务快速转换为MCP Server的实践经验,通过Higress网关实现MCP协议卸载,无需修改代码即可接入MCP生态。文章分析了MCP生态面临的挑战,如协议快速迭代和SDK不稳定性,并详细介绍了操作步骤及组件功能。强调MCP虽非终极解决方案,但作为AI业务工程化的起点具有重要意义。最后总结指出,MCP只是AI原生应用发展的第一步,未来还有更多可能性值得探索。
1545 49
|
数据采集 存储 数据可视化
分布式爬虫框架Scrapy-Redis实战指南
本文介绍如何使用Scrapy-Redis构建分布式爬虫系统,采集携程平台上热门城市的酒店价格与评价信息。通过代理IP、Cookie和User-Agent设置规避反爬策略,实现高效数据抓取。结合价格动态趋势分析,助力酒店业优化市场策略、提升服务质量。技术架构涵盖Scrapy-Redis核心调度、代理中间件及数据解析存储,提供完整的技术路线图与代码示例。
1567 0
分布式爬虫框架Scrapy-Redis实战指南
|
7月前
|
消息中间件 缓存 监控
中间件架构设计与实践:构建高性能分布式系统的核心基石
摘要 本文系统探讨了中间件技术及其在分布式系统中的核心价值。作者首先定义了中间件作为连接系统组件的"神经网络",强调其在数据传输、系统稳定性和扩展性中的关键作用。随后详细分类了中间件体系,包括通信中间件(如RabbitMQ/Kafka)、数据中间件(如Redis/MyCAT)等类型。文章重点剖析了消息中间件的实现机制,通过Spring Boot代码示例展示了消息生产者的完整实现,涵盖消息ID生成、持久化、批量发送及重试机制等关键技术点。最后,作者指出中间件架构设计对系统性能的决定性影响,
|
11月前
|
监控 Linux 应用服务中间件
Linux多节点多硬盘部署MinIO:分布式MinIO集群部署指南搭建高可用架构实践
通过以上步骤,已成功基于已有的 MinIO 服务,扩展为一个 MinIO 集群。该集群具有高可用性和容错性,适合生产环境使用。如果有任何问题,请检查日志或参考MinIO 官方文档。作者联系方式vx:2743642415。
3647 57
|
11月前
|
安全 JavaScript 前端开发
HarmonyOS NEXT~HarmonyOS 语言仓颉:下一代分布式开发语言的技术解析与应用实践
HarmonyOS语言仓颉是华为专为HarmonyOS生态系统设计的新型编程语言,旨在解决分布式环境下的开发挑战。它以“编码创造”为理念,具备分布式原生、高性能与高效率、安全可靠三大核心特性。仓颉语言通过内置分布式能力简化跨设备开发,提供统一的编程模型和开发体验。文章从语言基础、关键特性、开发实践及未来展望四个方面剖析其技术优势,助力开发者掌握这一新兴工具,构建全场景分布式应用。
994 35
|
11月前
|
监控 Java 调度
SpringBoot中@Scheduled和Quartz的区别是什么?分布式定时任务框架选型实战
本文对比分析了SpringBoot中的`@Scheduled`与Quartz定时任务框架。`@Scheduled`轻量易用,适合单机简单场景,但存在多实例重复执行、无持久化等缺陷;Quartz功能强大,支持分布式调度、任务持久化、动态调整和失败重试,适用于复杂企业级需求。文章通过特性对比、代码示例及常见问题解答,帮助开发者理解两者差异,合理选择方案。记住口诀:单机简单用注解,多节点上Quartz;若是任务要可靠,持久化配置不能少。
990 4
|
并行计算 PyTorch 算法框架/工具
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题,文章提出利用UCC和UCX等统一通信框架实现高效数据传输,并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战,如计算能力不平衡、内存容量差异及通信性能优化,文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性,但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开,供读者参考实践。
1213 3
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践