[绝对要收藏]配置hadoop完全分布式环境

简介: [绝对要收藏]配置hadoop完全分布式环境

##

环境:

hadoop-2.7.2,jdk1.8.0_144,CentOS-7-x86_64-Minimal-2009.iso

1 先创建一个主机

2 修改id,hostname,hosts

3 关闭防火墙

4 连接xshell

5 在opt下创建en和software包并将java导入到software包中

6 解压 java到en下

7 配置/etc/profile将java的环境加入进去

8 让文件生效并检测java环境是否配置成功

9 java -version

10 将主虚拟机关机

11 克隆3台虚拟机并把ip和hostname改掉重启

12 连接xshell

13 做免密

mkdir .ssh

ssh-keygen -t rsa

cd .ssh

在.ssh文件夹下进行免密秘钥生成并修改文件权限:

命令:

cat id_rsa.pub >> authorized_keys

文件权限修改

chmod 700 .ssh

chmod 600 .ssh/*

scp -r authorized_keys root@hadoop2:~/.ssh/ 从主节点到次节点

ssh-copy-id -i id_rsa.pub root@hadoop1          从次节点到主节点

14 配置好核心文件和hdfs文件

核心文件

<!-- 指定HDFS中NameNode的地址(第一台主机名) -->

<property>

       <name>fs.defaultFS</name>

     <value>hdfs://hadoop5:9000</value>

</property>

<!-- 指定Hadoop运行时产生文件的存储目录 -->

<property>

       <name>hadoop.tmp.dir</name>

       <value>/opt/en/hadoop-2.7.2/data/tmp</value>

</property>

HDFS文件

配置hadoop-env.sh

export JAVA_HOME=/opt/en/jdk1.8.0_144

配置hdfs-site.xml

<property>

       <name>dfs.replication</name>

       <value>3</value>

</property>

<!-- 指定Hadoop辅助名称节点主机配置(第二台主机名) -->

<property>

     <name>dfs.namenode.secondary.http-address</name>

     <value>hadoop6:50090</value>

</property>

15 向其他两个子节点分发hadoop文件夹,并将从节点的Hadoop环境配置好

scp  -r root hadoop2:/opt/en

16 第一次启动时,在主机格式化namenode,进入hadoop/bin文件下,执行

hadoop namenode -format

17 启动hadoop集群进入hadoop/sbin文件夹下,执行start-all.sh启动集群

18 打开50070端口

19 将测试文件内容上传到文件系统上

hadoop-2.7.2]$bin/hdfs dfs -put wcinput/wc.input  /input

目录
打赏
0
0
0
0
35
分享
相关文章
YashanDB分布式节点间SSL连接配置
本文介绍YashanDB分布式节点间SSL连接配置方法,确保通信安全。需统一为整个集群配置SSL,使用相同根证书签名的服务器证书,否则可能导致连接失败或数据库无法启动。文章详细说明了使用OpenSSL生成根证书、服务器私钥、证书及DH文件的步骤,并指导如何将证书分发至各节点。最后,通过配置数据库参数(如`din_ssl_enable`)并重启集群完成设置。注意,证书过期需重新生成以保障安全性。
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题,文章提出利用UCC和UCX等统一通信框架实现高效数据传输,并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战,如计算能力不平衡、内存容量差异及通信性能优化,文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性,但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开,供读者参考实践。
271 3
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
【YashanDB 知识库】用 yasldr 配置 Bulkload 模式作单线程迁移 300G 的业务数据到分布式数据库,迁移任务频繁出错
问题描述 详细版本:YashanDB Server Enterprise Edition Release 23.2.4.100 x86_64 6db1237 影响范围: 离线数据迁移场景,影响业务数据入库。 外场将部分 NewCIS 的报表业务放到分布式数据库,验证 SQL 性能水平。 操作系统环境配置: 125G 内存 32C CPU 2T 的 HDD 磁盘 问题出现的步骤/操作: 1、部署崖山分布式数据库 1mm 1cn 3dn 单线启动 yasldr 数据迁移任务,设置 32 线程的 bulk load 模式 2、观察 yasldr.log 是否出现如下错
|
8月前
|
如何在Seata框架中配置分布式事务的隔离级别?
总的来说,配置分布式事务的隔离级别是实现分布式事务管理的重要环节之一,需要认真对待和仔细调整,以满足业务的需求和性能要求。你还可以进一步深入研究和实践 Seata 框架的配置和使用,以更好地应对各种分布式事务场景的挑战。
246 63
如何设计一个分布式配置中心?
这篇文章介绍了分布式配置中心的概念、实现原理及其在实际应用中的重要性。首先通过一个面试场景引出配置中心的设计问题,接着详细解释了为什么需要分布式配置中心,尤其是在分布式系统中统一管理配置文件的必要性。文章重点分析了Apollo这一开源配置管理中心的工作原理,包括其基础模型、架构模块以及配置发布后实时生效的设计。此外,还介绍了客户端与服务端之间的交互机制,如长轮询(Http Long Polling)和定时拉取配置的fallback机制。最后,结合实际工作经验,分享了配置中心在解决多台服务器配置同步问题上的优势,帮助读者更好地理解其应用场景和价值。
309 18
基于Java的Hadoop文件处理系统:高效分布式数据解析与存储
本文介绍了如何借鉴Hadoop的设计思想,使用Java实现其核心功能MapReduce,解决海量数据处理问题。通过类比图书馆管理系统,详细解释了Hadoop的两大组件:HDFS(分布式文件系统)和MapReduce(分布式计算模型)。具体实现了单词统计任务,并扩展支持CSV和JSON格式的数据解析。为了提升性能,引入了Combiner减少中间数据传输,以及自定义Partitioner解决数据倾斜问题。最后总结了Hadoop在大数据处理中的重要性,鼓励Java开发者学习Hadoop以拓展技术边界。
204 7
云产品评测|分布式Python计算服务MaxFrame | 在本地环境中使用MaxFrame + 基于MaxFrame实现大语言模型数据处理
本文基于官方文档,介绍了由浅入深的两个部分实操测试,包括在本地环境中使用MaxFrame & 基于MaxFrame实现大语言模型数据处理,对步骤有详细说明。体验下来对MaxCompute的感受是很不错的,值得尝试并使用!
145 1
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
239 1
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
172 4

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问