大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece

点一下关注吧!!!非常感谢!!持续更新!!!

目前已经更新到了:

  • Hadoop(正在更新)

背景介绍

这里是三台公网云服务器,每台 2C4G,搭建一个Hadoop的学习环境,供我学习。

之前已经在 VM 虚拟机上搭建过一次,但是没留下笔记,这次趁着前几天薅羊毛的3台机器,赶紧尝试在公网上搭建体验一下。


注意,如果你和我一样,打算用公网部署,那一定要做好防火墙策略,避免不必要的麻烦!!!

注意,如果你和我一样,打算用公网部署,那一定要做好防火墙策略,避免不必要的麻烦!!!

注意,如果你和我一样,打算用公网部署,那一定要做好防火墙策略,避免不必要的麻烦!!!


请大家都以学习为目的,也请不要对我的服务进行嗅探或者攻击!!!

请大家都以学习为目的,也请不要对我的服务进行嗅探或者攻击!!!

请大家都以学习为目的,也请不要对我的服务进行嗅探或者攻击!!!


但是有一台公网服务器我还运行着别的服务,比如前几天发的:autodl-keeper 自己写的小工具,防止AutoDL机器过期的。还跑着别的Web服务,所以只能挤出一台 2C2G 的机器。那我的配置如下了:


2C4G 编号 h121

2C4G 编号 h122

2C2G 编号 h123 (后续如果服务器多出来,我还有好几台别的,到时候换一下)

Hadoop

Hadoop 是一个开源的分布式计算框架,由 Apache 软件基金会维护,主要用于处理大规模数据集。Hadoop 的核心组件包括:


HDFS(Hadoop Distributed File System)

Hadoop 分布式文件系统,是 Hadoop 中的存储系统,能够以分布式的方式存储大规模数据集。HDFS 将数据分成块,并将这些块分散存储在集群中的不同节点上,从而提供高容错性和可靠性。


MapReduce

这是 Hadoop 的数据处理模型,适合处理大规模的、需要并行计算的任务。MapReduce 将任务分为两个阶段:


Map 阶段:将输入数据拆分为一系列键值对。

Reduce 阶段:根据键对数据进行聚合或处理。

通过分布式计算,MapReduce 能够处理数百甚至上千台服务器上的数据,并有效利用硬件资源。

YARN(Yet Another Resource Negotiator)

YARN 是 Hadoop 集群中的资源管理器。YARN 负责调度和分配集群中的计算资源,使得 Hadoop 体系结构更灵活,可以支持 MapReduce 之外的其他处理框架。


Hadoop Common

这一组件为 Hadoop 各个模块提供了通用的工具和库,如文件系统抽象、序列化机制和 RPC(远程过程调用)框架。


优点

可扩展性:Hadoop 可以通过增加节点来扩展计算和存储能力,适用于从单台服务器到上千节点的大规模集群。

容错性:HDFS 会将数据复制到不同的节点中,即使部分节点出现故障,数据仍然可以恢复。

成本效益:Hadoop 是开源的,能够运行在廉价的商用硬件上,适合处理 PB 级别的数据。

灵活性:Hadoop 能够处理各种格式的数据,包括结构化、半结构化和非结构化数据。

应用场景

Hadoop 常用于大数据分析、数据仓库、日志处理、推荐系统、机器学习和金融风险分析等场景。例如:


数据存储和处理:企业可以使用 Hadoop 来存储并处理大量的历史数据,并在这些数据上运行分析程序。

机器学习:Hadoop 可以作为机器学习模型训练的基础架构,帮助处理大量的数据集。

日志处理:Hadoop 常用于分析和处理来自不同服务器和应用程序的日志数据,以便监控性能或进行故障排除。

Hadoop 已经成为大数据生态系统的基础,围绕它形成了丰富的技术栈,例如 Apache Hive、Apache HBase、Apache Pig 和 Apache Spark 等,进一步拓展了其能力。


Java 环境

apt 安装

sudo apt install openjdk-8-jdk

下载安装

这种就是大家常用的方式安装,我选择的是 apt 的方式

# JDK8:https://www.oracle.com/cn/java/technologies/downloads/#java8-linux

验证环境

java -version
• 1

环境变量

虽然 apt 安装完之后,是有了环境变量,但是为了后续 Hadoop 能够正常的工作,我们还需要手动去配置一下。

找到你目前的Java目录

  • 1

修改配置文件

sudo vim /etc/profile

**写入如下内容: **

# java 
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$JAVA_HOME/bin:$PATH

退出保存,并刷新环境变量

source /etc/profile

此时,重新测试环境,如果没有问题,恭喜你一切顺利!

Hadoop环境

创建目录

现在根目录下创建

  • 1
  • 2

创建完毕后,进入 软件的目录。

cd /opt/software

下载文件

我们直接使用 wget 工具来帮助我们下载:

sudo wget -O hadoop-2.9.2.tar.gz https://archive.apache.org/dist/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz
• 1

解压文件

将文件解压到 servers 目录下

sudo tar -zxvf hadoop-2.9.2.tar.gz -C /opt/servers
• 1

我们查看当前的目录:

环境变量

打开环境配置

sudo vim /etc/profile
• 1

在最底部加入如下的内容:

# HADOOP_HOME
export HADOOP_HOME=/opt/servers/hadoop-2.9.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

刷新环境变量

source /etc/profile
• 1

验证环境

hadoop version

如果出现如图的内容,那么恭喜你!已经完成了初步的Java和Hadoop的环境配置!

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
4天前
|
存储 弹性计算 人工智能
2025年阿里云企业云服务器ECS选购与配置全攻略
本文介绍了阿里云服务器的核心配置选择方法论,涵盖算力需求分析、网络与存储设计、地域部署策略三大维度。针对不同业务场景,如初创企业官网和AI模型训练平台,提供了具体配置方案。同时,详细讲解了购买操作指南及长期运维优化建议,帮助用户快速实现业务上云并确保高效运行。访问阿里云官方资源聚合平台可获取更多最新产品动态和技术支持。
|
2天前
|
存储 人工智能 缓存
怎么根据自己的业务选择阿里云服务器配置大小?
本文指导如何根据业务需求精准选择阿里云服务器配置,涵盖个人轻量级至企业级、计算密集型等场景,推荐不同实例类型、存储与带宽方案,并提供成本优化策略,如包年包月节省成本、按需升级配置及选用性价比高的自研ARM架构实例。帮助用户在数字化转型中实现性能与成本的平衡。 注:以上配置与价格基于阿里云2025年官方数据,实际信息可能有所调整,请以官网实时页面为准。
|
2天前
|
人工智能 运维 监控
2025年阿里云服务器配置选择全攻略:CPU、内存、带宽与系统盘详解
在2025年,阿里云服务器以高性能、灵活扩展和稳定服务助力数字化转型,提供轻量应用服务器、通用型g8i实例等多样化配置,满足个人博客至企业级业务需求。针对不同场景(如计算密集型、内存密集型),推荐相应实例类型与带宽规划,强调成本优化策略,包括包年包月节省成本、ESSD云盘选择及地域部署建议。文中还提及安全设置、监控备份的重要性,并指出未来可关注第九代实例g9i支持的新技术。整体而言,阿里云致力于帮助用户实现性能与成本的最优平衡。 以上简介共计238个字符。
|
2天前
|
存储 人工智能 监控
新手小白购买阿里云服务器省钱策略、配置选型与注意事项
针对初次使用阿里云服务器的用户,本文提供系统化的指导方案以优化成本并满足业务需求。首先介绍配置选型,包括实例类型(通用型、计算型、内存型)与基础配置建议;其次阐述省钱策略,如企业认证、合理选择计费模式及批量购买;最后提醒注意事项,涵盖带宽存储规划、地域网络优化及安全管理。新手可通过明确需求、选择配置、优化购买和持续监控四步快速上手,实现高效稳定的云端部署。 注:推荐配置基于2025年阿里云产品体系,具体信息请参考官网。
|
5天前
|
存储 人工智能 并行计算
2025年阿里云弹性裸金属服务器架构解析与资源配置方案
🚀 核心特性与技术创新:提供100%物理机性能输出,支持NVIDIA A100/V100 GPU直通,无虚拟化层损耗。网络与存储优化,400万PPS吞吐量,ESSD云盘IOPS达100万,RDMA延迟<5μs。全球部署覆盖华北、华东、华南及海外节点,支持跨地域负载均衡。典型应用场景包括AI训练、科学计算等,支持分布式训练和并行计算框架。弹性裸金属服务器+OSS存储+高速网络综合部署,满足高性能计算需求。
|
2月前
|
Java
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
117 34
|
2月前
|
存储 弹性计算 安全
阿里云服务器配置选择策略参考及后期使用注意事项
对于初次购买阿里云服务器的一些新手用户来说,在云服务器配置选择和后期使用过程中有一些不清楚的地方,小编分享几点阿里云服务器配置选择策略,以及后期使用注意事项,购买过程中注意好下面这些事项,能让我们选对选好阿里云服务器,购买之后,在使用过程中,注意下面这些事项,能够让我们更好、更安全的使用阿里云服务器。下面是小编分享的一份详尽的阿里云服务器配置与使用指南,以供参考和借鉴。
|
2月前
|
开发框架 .NET PHP
网站应用项目如何选择阿里云服务器实例规格+内存+CPU+带宽+操作系统等配置
对于使用阿里云服务器的搭建网站的用户来说,面对众多可选的实例规格和配置选项,我们应该如何做出最佳选择,以最大化业务效益并控制成本,成为大家比较关注的问题,如果实例、内存、CPU、带宽等配置选择不合适,可能会影响到自己业务在云服务器上的计算性能及后期运营状况,本文将详细解析企业在搭建网站应用项目时选购阿里云服务器应考虑的一些因素,以供参考。
|
2天前
|
Java 程序员 开发者
Java社招面试题:一个线程运行时发生异常会怎样?
大家好,我是小米。今天分享一个经典的 Java 面试题:线程运行时发生异常,程序会怎样处理?此问题考察 Java 线程和异常处理机制的理解。线程发生异常,默认会导致线程终止,但可以通过 try-catch 捕获并处理,避免影响其他线程。未捕获的异常可通过 Thread.UncaughtExceptionHandler 处理。线程池中的异常会被自动处理,不影响任务执行。希望这篇文章能帮助你深入理解 Java 线程异常处理机制,为面试做好准备。如果你觉得有帮助,欢迎收藏、转发!
35 14
|
5天前
|
安全 Java 程序员
Java 面试必问!线程构造方法和静态块的执行线程到底是谁?
大家好,我是小米。今天聊聊Java多线程面试题:线程类的构造方法和静态块是由哪个线程调用的?构造方法由创建线程实例的主线程调用,静态块在类加载时由主线程调用。理解这些细节有助于掌握Java多线程机制。下期再见! 简介: 本文通过一个常见的Java多线程面试题,详细讲解了线程类的构造方法和静态块是由哪个线程调用的。构造方法由创建线程实例的主线程调用,静态块在类加载时由主线程调用。理解这些细节对掌握Java多线程编程至关重要。
34 13

热门文章

最新文章