分布式系统详解--框架(Hadoop-单机版搭建)

简介: 分布式系统详解--框架(Hadoop-单机版搭建)

分布式系统详解--框架(Hadoop-单机版搭建)

      前面讲了这么多的理论知识,也有一些基础的小知识点,很简单的概括了一下。从这篇文章开始,就会进入到一个理论实践相结合中,这篇文章主要是讲的Hadoop,讲解它的基础认识、安装、常用命令、还有就是代码实现。让我们开始跟着小象走一遭~~

一、hadoop是什么?

       Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用程序层的故障,从而在计算机集群之上提供高可用性服务,每个计算机都可能容易出现故障。

好专业的样子(点击这个连接,这是 Hadoop的官网)。

二、hadoop安装教程--单机版

2.1 下载hadoop

登录Apache Hadoop的官网。下载适合的版本,文章下载的是 2.7.5版本。当然现在已经到了3.x版本了~

2.2 解压hadoop

解压hadoop到指定目录,比如说放在 /opt 目录下面。

2.3 配置hadoop的安装环境变量

修改系统配置文件 /etc/profile文件。   操作命令 :vi  /etc/profile    添加上HADOOP_HOME

2.4 修改hadoop的配置文件

因为hadoop依赖于jdk,所以需要告诉hadoop JDK 的位置

找到hadoop的安装目录。 我自己的目录是  /opt/hadoop-2.7.5/etc/hadoop 找到一个文件是hadoop-env.sh。

2.5 测试 which hadoop或者 hadoop version

2.6 根据官网给出的测试实例,我们自己做一个简单单机版的使用测试

进行上面官网的四部操作。不过这里需要有一些注意 。

第一步中新建了一个文件夹,要记住input文件夹放在了哪一个位置。

第二步就是将在etc/hadoop/下面所有的xml文件 放在上面建立的input文件夹中。

第三步就是运行 hadoop中的jar包 运行的是input 文件夹,运行完的结果放在了output文件夹下(output文件夹不要提前建立)。

第四步就是查看output文件夹。(下面用的命令是 more output part-r-00000

注:后面数字乃是input文件夹下面的8个文件出现的次数。

三、HDFS--原理

(1)HDFS原理图

(2)HDFS读写流程

使劲看(要仔细)就行了~~

目录
相关文章
|
26天前
|
机器学习/深度学习 自然语言处理 并行计算
DeepSpeed分布式训练框架深度学习指南
【11月更文挑战第6天】随着深度学习模型规模的日益增大,训练这些模型所需的计算资源和时间成本也随之增加。传统的单机训练方式已难以应对大规模模型的训练需求。
82 3
|
1月前
|
机器学习/深度学习 并行计算 Java
谈谈分布式训练框架DeepSpeed与Megatron
【11月更文挑战第3天】随着深度学习技术的不断发展,大规模模型的训练需求日益增长。为了应对这种需求,分布式训练框架应运而生,其中DeepSpeed和Megatron是两个备受瞩目的框架。本文将深入探讨这两个框架的背景、业务场景、优缺点、主要功能及底层实现逻辑,并提供一个基于Java语言的简单demo例子,帮助读者更好地理解这些技术。
61 2
|
2月前
|
分布式计算 NoSQL Java
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
45 2
|
2月前
|
分布式计算 Hadoop
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
50 1
|
2月前
|
存储 数据采集 分布式计算
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
48 1
|
2月前
|
分布式计算 Hadoop 网络安全
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
38 1
|
2月前
|
存储 机器学习/深度学习 缓存
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
48 1
|
2月前
|
分布式计算 资源调度 Hadoop
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
52 1
|
3月前
|
数据采集 分布式计算 MaxCompute
MaxCompute 分布式计算框架 MaxFrame 服务正式商业化公告
MaxCompute 分布式计算框架 MaxFrame 服务于北京时间2024年09月27日正式商业化!
95 3
|
3月前
|
负载均衡 监控 Dubbo
分布式框架-dubbo
分布式框架-dubbo