大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece

简介: 大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece

点一下关注吧!!!非常感谢!!持续更新!!!

目前已经更新到了:

  • Hadoop(正在更新)

背景介绍

这里是三台公网云服务器,每台 2C4G,搭建一个Hadoop的学习环境,供我学习。

之前已经在 VM 虚拟机上搭建过一次,但是没留下笔记,这次趁着前几天薅羊毛的3台机器,赶紧尝试在公网上搭建体验一下。


注意,如果你和我一样,打算用公网部署,那一定要做好防火墙策略,避免不必要的麻烦!!!

注意,如果你和我一样,打算用公网部署,那一定要做好防火墙策略,避免不必要的麻烦!!!

注意,如果你和我一样,打算用公网部署,那一定要做好防火墙策略,避免不必要的麻烦!!!


请大家都以学习为目的,也请不要对我的服务进行嗅探或者攻击!!!

请大家都以学习为目的,也请不要对我的服务进行嗅探或者攻击!!!

请大家都以学习为目的,也请不要对我的服务进行嗅探或者攻击!!!


但是有一台公网服务器我还运行着别的服务,比如前几天发的:autodl-keeper 自己写的小工具,防止AutoDL机器过期的。还跑着别的Web服务,所以只能挤出一台 2C2G 的机器。那我的配置如下了:


2C4G 编号 h121

2C4G 编号 h122

2C2G 编号 h123 (后续如果服务器多出来,我还有好几台别的,到时候换一下)

Hadoop

Hadoop 是一个开源的分布式计算框架,由 Apache 软件基金会维护,主要用于处理大规模数据集。Hadoop 的核心组件包括:


HDFS(Hadoop Distributed File System)

Hadoop 分布式文件系统,是 Hadoop 中的存储系统,能够以分布式的方式存储大规模数据集。HDFS 将数据分成块,并将这些块分散存储在集群中的不同节点上,从而提供高容错性和可靠性。


MapReduce

这是 Hadoop 的数据处理模型,适合处理大规模的、需要并行计算的任务。MapReduce 将任务分为两个阶段:


Map 阶段:将输入数据拆分为一系列键值对。

Reduce 阶段:根据键对数据进行聚合或处理。

通过分布式计算,MapReduce 能够处理数百甚至上千台服务器上的数据,并有效利用硬件资源。

YARN(Yet Another Resource Negotiator)

YARN 是 Hadoop 集群中的资源管理器。YARN 负责调度和分配集群中的计算资源,使得 Hadoop 体系结构更灵活,可以支持 MapReduce 之外的其他处理框架。


Hadoop Common

这一组件为 Hadoop 各个模块提供了通用的工具和库,如文件系统抽象、序列化机制和 RPC(远程过程调用)框架。


优点

可扩展性:Hadoop 可以通过增加节点来扩展计算和存储能力,适用于从单台服务器到上千节点的大规模集群。

容错性:HDFS 会将数据复制到不同的节点中,即使部分节点出现故障,数据仍然可以恢复。

成本效益:Hadoop 是开源的,能够运行在廉价的商用硬件上,适合处理 PB 级别的数据。

灵活性:Hadoop 能够处理各种格式的数据,包括结构化、半结构化和非结构化数据。

应用场景

Hadoop 常用于大数据分析、数据仓库、日志处理、推荐系统、机器学习和金融风险分析等场景。例如:


数据存储和处理:企业可以使用 Hadoop 来存储并处理大量的历史数据,并在这些数据上运行分析程序。

机器学习:Hadoop 可以作为机器学习模型训练的基础架构,帮助处理大量的数据集。

日志处理:Hadoop 常用于分析和处理来自不同服务器和应用程序的日志数据,以便监控性能或进行故障排除。

Hadoop 已经成为大数据生态系统的基础,围绕它形成了丰富的技术栈,例如 Apache Hive、Apache HBase、Apache Pig 和 Apache Spark 等,进一步拓展了其能力。


Java 环境

apt 安装

sudo apt install openjdk-8-jdk

下载安装

这种就是大家常用的方式安装,我选择的是 apt 的方式

# JDK8:https://www.oracle.com/cn/java/technologies/downloads/#java8-linux

验证环境

java -version
• 1

环境变量

虽然 apt 安装完之后,是有了环境变量,但是为了后续 Hadoop 能够正常的工作,我们还需要手动去配置一下。

找到你目前的Java目录

  • 1

修改配置文件

sudo vim /etc/profile

**写入如下内容: **

# java 
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$JAVA_HOME/bin:$PATH

退出保存,并刷新环境变量

source /etc/profile

此时,重新测试环境,如果没有问题,恭喜你一切顺利!

Hadoop环境

创建目录

现在根目录下创建

  • 1
  • 2

创建完毕后,进入 软件的目录。

cd /opt/software

下载文件

我们直接使用 wget 工具来帮助我们下载:

sudo wget -O hadoop-2.9.2.tar.gz https://archive.apache.org/dist/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz
• 1

解压文件

将文件解压到 servers 目录下

sudo tar -zxvf hadoop-2.9.2.tar.gz -C /opt/servers
• 1

我们查看当前的目录:

环境变量

打开环境配置

sudo vim /etc/profile
• 1

在最底部加入如下的内容:

# HADOOP_HOME
export HADOOP_HOME=/opt/servers/hadoop-2.9.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

刷新环境变量

source /etc/profile
• 1

验证环境

hadoop version

如果出现如图的内容,那么恭喜你!已经完成了初步的Java和Hadoop的环境配置!

相关实践学习
基于ECS搭建FTP服务
本教程介绍如何在Linux实例上安装并配置vsftpd,在被动模式下,使用本地用户访问FTP服务器的配置方法。。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
8月前
|
传感器 Java 大数据
Java 大视界 -- 基于 Java 的大数据实时数据处理在车联网车辆协同控制中的应用与挑战(197)
本文深入探讨了基于 Java 的大数据实时数据处理在车联网车辆协同控制中的关键应用与技术挑战。内容涵盖数据采集、传输与实时处理框架,并结合实际案例分析了其在车辆状态监测、交通优化与协同驾驶中的应用效果,展示了 Java 大数据技术在提升交通安全性与效率方面的巨大潜力。
|
8月前
|
存储 分布式计算 Java
Java 大视界 -- Java 大数据在智能建筑能耗监测与节能策略制定中的应用(182)
本文探讨了Java大数据技术在智能建筑能耗监测与节能策略制定中的关键应用。通过Hadoop、Spark等技术实现能耗数据的存储、分析与可视化,结合实际案例,展示了Java大数据如何助力建筑行业实现节能减排目标。
|
8月前
|
存储 机器学习/深度学习 Java
Java 大视界 -- Java 大数据在智慧水利水资源调度与水情预测中的应用创新(180)
本文探讨了Java大数据技术在智慧水利中的创新应用,重点分析了其在水资源调度与水情预测中的关键技术与实践案例。通过大数据存储、实时处理与深度学习模型,Java有效提升了水利数据管理效率与水情预测准确性,助力传统水利向智能化转型。
|
8月前
|
存储 搜索推荐 算法
Java 大视界 -- Java 大数据在智能金融理财产品风险评估与个性化配置中的应用(195)
本文深入探讨了Java大数据技术在智能金融理财产品风险评估与个性化配置中的关键应用。通过高效的数据采集、存储与分析,Java大数据技术助力金融机构实现精准风险评估与个性化推荐,提升投资收益并降低风险。
Java 大视界 -- Java 大数据在智能金融理财产品风险评估与个性化配置中的应用(195)
|
7月前
|
存储 供应链 数据可视化
Java 大视界 -- 基于 Java 的大数据可视化在企业供应链风险预警与决策支持中的应用(204)
本篇文章探讨了基于 Java 的大数据可视化技术在企业供应链风险预警与决策支持中的深度应用。文章系统介绍了从数据采集、存储、处理到可视化呈现的完整技术方案,结合供应链风险预警与决策支持的实际案例,展示了 Java 大数据技术如何助力企业实现高效、智能的供应链管理。
|
7月前
|
存储 SQL Java
Java 大视界 -- Java 大数据在智能医疗手术风险评估与术前方案制定中的应用探索(203)
本文探讨了Java大数据技术在智能医疗手术风险评估与术前方案制定中的创新应用。通过多源数据整合、智能分析模型构建及知识图谱技术,提升手术风险预测准确性与术前方案制定效率,助力医疗决策智能化,推动精准医疗发展。
|
8月前
|
机器学习/深度学习 Java 大数据
Java 大视界 -- Java 大数据在智能政务公共资源交易数据分析与监管中的应用(202)
本篇文章深入探讨了 Java 大数据在智能政务公共资源交易监管中的创新应用。通过构建高效的数据采集、智能分析与可视化决策系统,Java 大数据技术成功破解了传统监管中的数据孤岛、效率低下和监管滞后等难题,为公共资源交易打造了“智慧卫士”,助力政务监管迈向智能化、精准化新时代。
|
8月前
|
数据采集 机器学习/深度学习 Java
Java 大视界 -- Java 大数据在智能体育赛事运动员体能监测与训练计划调整中的应用(200)
本篇文章聚焦 Java 大数据在智能体育赛事中对运动员体能监测与训练计划的智能化应用。通过构建实时数据采集与分析系统,结合机器学习模型,实现对运动员体能状态的精准评估与训练方案的动态优化,推动体育训练迈向科学化、个性化新高度。
|
9月前
|
数据采集 机器学习/深度学习 Java
Java 大视界 —— Java 大数据在智慧交通停车场智能管理与车位预测中的应用实践(174)
本文围绕 Java 大数据在智慧交通停车场智能管理与车位预测中的应用展开,深入剖析行业痛点,系统阐述大数据技术的应用架构,结合大型体育中心停车场案例,展示系统实施过程与显著成效,提供极具实操价值的技术方案。
|
8月前
|
机器学习/深度学习 分布式计算 Java
Java 大视界 -- Java 大数据机器学习模型在遥感图像土地利用分类中的优化与应用(199)
本文探讨了Java大数据与机器学习模型在遥感图像土地利用分类中的优化与应用。面对传统方法效率低、精度差的问题,结合Hadoop、Spark与深度学习框架,实现了高效、精准的分类。通过实际案例展示了Java在数据处理、模型融合与参数调优中的强大能力,推动遥感图像分类迈向新高度。