如何8步完成hadoop单机安装

简介: 本文介绍了在Ubuntu 20.04上安装和配置Hadoop 3.3.6的详细步骤。首先更新系统并安装Java环境,接着下载、解压Hadoop并配置环境变量。然后编辑核心配置文件`core-site.xml`和`hdfs-site.xml`,格式化HDFS文件系统,并启动Hadoop服务。最后通过`jps`命令和浏览器访问Web界面验证安装是否成功。Hadoop是一个开源框架,用于分布式存储和处理大规模数据集,其核心组件包括HDFS、MapReduce和YARN。

前言


添加图片注释,不超过 140 字(可选)


Hadoop是一个开源框架,用于存储和处理大规模数据集。

系统要求

  • Ubuntu 20.04
  • 4GB(建议8GB)
  • hadoop-3.3.6

步骤1:更新系统

打开终端并输入以下命令来更新您的系统:

apt update

步骤2:安装Java

Hadoop需要Java环境,我们将安装OpenJDK 8。

apt install openjdk-8-jdk

安装完成后,验证Java版本:

java -version

如果出现相应的版本信息说明已经安装成功了。

那么apt install的java安装的目录在哪里呢?

# which java   /usr/bin/java # ls -l /usr/bin/java   /usr/bin/java -> /etc/alternatives/java # ls -l /etc/alternatives/java   /etc/alternatives/java -> /usr/lib/jvm/java-8-openjdk-amd64/jre/bin/java

也就是/usr/lib/jvm/java-8-openjdk-amd64就是java安装目录即JAVA_HOME,后面会用到配置。

步骤3:安装Hadoop

首先,我们需要下载Hadoop 3.3.6的tar.gz文件。您可以从Apache官方网站下载。

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz

文件比较大,大概600多M,需要下载一会。

下载完成后,解压缩文件到/usr/local目录下:

tar -xzvf hadoop-3.3.6.tar.gz -C /usr/local

步骤4:配置Hadoop环境


编辑/etc/profile文件,添加Hadoop和Java的环境变量:


vim /etc/profile

在文件末尾添加:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export JRE_HOME=${JAVA_HOME}/jre export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib export HADOOP_HOME=/usr/local/hadoop-3.3.6 export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH export HDFS_NAMENODE_USER=root export HDFS_DATANODE_USER=root export HDFS_DATANODE_SECURE_USER=root

保存并退出,然后应用更改:

source /etc/profile

查看hadoop是否安装成功

hadoop version


添加图片注释,不超过 140 字(可选)


看到版本说明已安装成功,下面继续配置hadoop

步骤5:配置Hadoop文件

您需要编辑Hadoop的配置文件,这些文件位于$HADOOP_HOME/etc/hadoop目录下。

core-site.xml

<configuration>     <property>             <name>fs.defaultFS</name>             <value>hdfs://10.9.2.86:9000</value>     </property>     <property>             <name>hadoop.tmp.dir</name>             <value>file:/usr/local/hadoop/tmp</value>             <description>Abasefor other temporary directories.</description>     </property> </configuration>

hdfs-site.xml

<configuration>     <property>         <name>dfs.namenode.name.dir</name>         <value>file:/usr/local/hadoop/dfs/name</value>     </property>     <property>         <name>dfs.datanode.data.dir</name>         <value>file:/usr/local/hadoop/dfs/data</value>     </property>     <property>         <name>dfs.replication</name>         <value>1</value>     </property> </configuration>

步骤6:格式化HDFS

在启动Hadoop之前,需要格式化HDFS文件系统:

hdfs namenode -format


添加图片注释,不超过 140 字(可选)


步骤7:启动Hadoop

使用以下命令启动Hadoop:

start-dfs.sh


添加图片注释,不超过 140 字(可选)


步骤8:验证安装

使用jps命令检查Hadoop进程:

jps


添加图片注释,不超过 140 字(可选)


能看到NameNodeDataNodeSecondaryNameNodeNodeManager等进程正在运行。

通过浏览器访问:http://10.9.2.86:9870/

添加图片注释,不超过 140 字(可选)


相关问题

  1. 什么是 Hadoop?Hadoop 是一个开源框架,它允许使用简单的编程模型在计算机集群中分布式处理大数据集。它设计用于从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。
  2. Hadoop 的核心组件有哪些?Hadoop 的核心组件包括 HDFS(Hadoop Distributed File System),MapReduce 和 YARN(Yet Another Resource Negotiator)。
  3. HDFS 的工作原理是什么?HDFS 是一个分布式文件系统,它将大文件分割成块(block),并将这些块分布在整个集群的节点上。它通过复制每个块来提供容错。
  4. MapReduce 是如何工作的?MapReduce 是一个编程模型和处理工具,用于并行处理大量数据。它工作分为两个阶段:Map 阶段将输入数据转换成一组中间键值对,Reduce 阶段则将这些键值对合并以形成输出结果。
  5. YARN 的作用是什么?YARN 是 Hadoop 的资源管理层,它允许多个数据处理引擎如 MapReduce 和 Spark 在 Hadoop 上有效地共享资源。
  6. Hadoop 1.x 和 Hadoop 2.x 有什么区别?Hadoop 2.x 引入了 YARN,这是一个新的资源管理器,它允许更多种类的数据处理任务。Hadoop 2.x 还提高了系统的可扩展性和集群的利用率。
  7. Hadoop 如何保证数据的可靠性?Hadoop 通过在集群中的不同节点上存储数据块的多个副本来保证数据的可靠性。如果一个节点失败,系统可以从其他节点的副本中恢复数据。
  8. 什么是 NameNode 和 DataNode?NameNode 是 Hadoop HDFS 的主服务器,负责存储文件系统的元数据。DataNode 存储实际数据。客户端直接与 NameNode 交互以获取文件位置信息,然后与 DataNode 交互以读写数据。



目录
相关文章
|
2天前
|
调度 云计算 芯片
云超算技术跃进,阿里云牵头制定我国首个云超算国家标准
近日,由阿里云联合中国电子技术标准化研究院主导制定的首个云超算国家标准已完成报批,不久后将正式批准发布。标准规定了云超算服务涉及的云计算基础资源、资源管理、运行和调度等方面的技术要求,为云超算服务产品的设计、实现、应用和选型提供指导,为云超算在HPC应用和用户的大范围采用奠定了基础。
|
9天前
|
存储 运维 安全
云上金融量化策略回测方案与最佳实践
2024年11月29日,阿里云在上海举办金融量化策略回测Workshop,汇聚多位行业专家,围绕量化投资的最佳实践、数据隐私安全、量化策略回测方案等议题进行深入探讨。活动特别设计了动手实践环节,帮助参会者亲身体验阿里云产品功能,涵盖EHPC量化回测和Argo Workflows量化回测两大主题,旨在提升量化投研效率与安全性。
云上金融量化策略回测方案与最佳实践
|
11天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
8880 20
|
15天前
|
Cloud Native Apache 流计算
资料合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
4769 12
资料合集|Flink Forward Asia 2024 上海站
|
15天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
23天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
11天前
|
人工智能 容器
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
本文介绍了如何利用千问开发一款情侣刮刮乐小游戏,通过三步简单指令实现从单个功能到整体框架,再到多端优化的过程,旨在为生活增添乐趣,促进情感交流。在线体验地址已提供,鼓励读者动手尝试,探索编程与AI结合的无限可能。
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
|
10天前
|
消息中间件 人工智能 运维
12月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
878 58