Hadoop集群节点添加

简介: Hadoop集群节点添加

一、准备系统环境

  • 在新节点slave上安装与master相同的Java环境,JDK配套安装
  • 修改集群所有节点(master和slave)的host文件(注意是所有节点),增加ip和主机名映射关系

e.g. 10.100.40.188 Lm3doc02


  • 配置新节点slave免密登录,使master能免密访问slave节点
  • 关防火墙

二、修改hadoop配置文件

  • 修改集群所有节点(master和slave)的/opt/tpapp/hadoop-2.7.3/etc/hadoop/slaves文件,增加新节点主机名

e.g. Lm3doc02


三、主从节点拷贝

  • 通过master主机完成节点拷贝,切换到jboss用户,使用scp命令将master机上的hadoop拷贝至新节点。p.s. 新节点的hadoop路径和master路径保持一致

scp -r /opt/tpapp/hadoop-2.7.3 jboss@Lm3doc02

四、单独启动新节点

  • hadoop集群增加slave节点后,可以不用整个集群重启,仅启动新增加的节点,实现新节点动态接入

[jboss@Lm3doc02 hadoop-2.7.3]$ ./sbin/hadoop-daemon.sh start datanode #启动datanode

starting datanode...

[jboss@Lm3doc02 hadoop-2.7.3]$ ./sbin/hadoop-daemon.sh start tasktracker #启动tasktracker

starting tasktracker...


五、验证新节点

  • 访问http://master:50070/主页可以看到Live Nodes节点数,或者查看DataNodes页节点空间信息
  • 或者通过命令查看节点健康状况

[jboss@Lm3doc02 hadoop-2.7.3]$ ./bin/hadoop dfsadmin -report


六、集群负载均衡balance操作

  • 由于新增加了节点,需要从master上对原集群数据块进行balance操作,使集群各节点数据处于相对平衡状态,避免集群性能低下(不进行balance大部分数据会往新节点写)

[jboss@Lm3doc02 hadoop-2.7.3]$ ./sbin/start-balancer.sh


相关文章
|
2月前
|
存储 分布式计算 资源调度
Hadoop入门基础(三):如何巧妙划分Hadoop集群,全面提升数据处理性能?
Hadoop入门基础(三):如何巧妙划分Hadoop集群,全面提升数据处理性能?
|
1月前
|
分布式计算 Hadoop Devops
Hadoop集群配置https实战案例
本文提供了一个实战案例,详细介绍了如何在Hadoop集群中配置HTTPS,包括生成私钥和证书文件、配置keystore和truststore、修改hdfs-site.xml和ssl-client.xml文件,以及重启Hadoop集群的步骤,并提供了一些常见问题的故障排除方法。
52 3
Hadoop集群配置https实战案例
|
13天前
|
分布式计算 Hadoop Java
Hadoop集群搭建,基于3.3.4hadoop和centos8【图文教程-从零开始搭建Hadoop集群】,常见问题解决
本文是一份详细的Hadoop集群搭建指南,基于Hadoop 3.3.4版本和CentOS 8操作系统。文章内容包括虚拟机创建、网络配置、Java与Hadoop环境搭建、克隆虚拟机、SSH免密登录设置、格式化NameNode、启动Hadoop集群以及通过UI界面查看Hadoop运行状态。同时,还提供了常见问题的解决方案。
Hadoop集群搭建,基于3.3.4hadoop和centos8【图文教程-从零开始搭建Hadoop集群】,常见问题解决
|
1月前
|
机器学习/深度学习 分布式计算 安全
Hadoop集群常见报错汇总
这篇博客总结了Hadoop集群中可能遇到的各种常见错误,包括Kerberos认证问题、配置错误、权限问题等,并为每个问题提供了详细的错误复现、原因分析以及相应的解决方案。
55 1
Hadoop集群常见报错汇总
|
1月前
|
资源调度 分布式计算 运维
Hadoop集群资源管理篇-资源调度器
详细介绍了Hadoop集群资源管理中的资源调度器,包括资源分配的概念、大数据运维工程师如何管理集群工作负载、资源调度器的背景、Hadoop提供的FIFO、容量调度器和公平调度器三种资源调度器的概述以及它们之间的对比。
84 4
|
1月前
|
分布式计算 监控 Hadoop
监控Hadoop集群实战篇
介绍了监控Hadoop集群的方法,包括监控Linux服务器、Hadoop指标、使用Ganglia监控Hadoop集群、Hadoop日志记录、通过Hadoop的Web UI进行监控以及其他Hadoop组件的监控,并提供了相关监控工具和资源的推荐阅读链接。
52 2
|
2月前
|
机器学习/深度学习 存储 分布式计算
Hadoop高可用集群搭建
Hadoop高可用集群搭建
|
2月前
|
存储 分布式计算 负载均衡
|
2月前
|
存储 分布式计算 资源调度
Hadoop集群的扩展性与容错能力
【8月更文第28天】Hadoop 是一种用于处理和存储大规模数据集的开源软件框架。它由两个核心组件构成:Hadoop 分布式文件系统 (HDFS) 和 MapReduce 计算框架。Hadoop 的设计考虑了可扩展性和容错性,使其成为大规模数据处理的理想选择。
59 0
|
2月前
|
存储 分布式计算 Hadoop
【Azure 存储服务】Hadoop集群中使用ADLS(Azure Data Lake Storage)过程中遇见执行PUT操作报错
【Azure 存储服务】Hadoop集群中使用ADLS(Azure Data Lake Storage)过程中遇见执行PUT操作报错

相关实验场景

更多