CDH大数据节点宕机测试-阿里云开发者社区

CDH大数据节点宕机测试

2022-05-30 594

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： CDH大数据节点宕机测试

一、集群现状

集群组件说明：目前集群中安装了若干大数据相关组件，包括HDFS、Hbase、Hive等存储相关组件与Flume、Spark、Kafka等数据采集与处理相关组件。
在这里插入图片描述
集群主机说明：目前集群中有5台主机，为同一台宿主机上的5台虚拟机。为确保HDFS副本正常分布，故主机cdh1、cdh2、cdh3的机架设置为“test1”，cdh4、cdh5的机架设置为“test2”

注：Hadoop在设计时考虑到数据的安全与高效，数据文件默认在HDFS上存放三份，存储策略为:
第一个副本放在其中一台节点中
第二个副本放置在与第一个副本所在节点相同机架内的其它节点上
第三个副本放置在不同机架的节点上

二、测试内容与目标

在集群中某一台节点完全宕机的情况下，通过新增主机的方式，能够恢复到集群原状态。其中包括但不限于以下几点：
1、集群中所有数据正常不变，不丢失。
2、集群中组件保证正常运行。
3、新增主机正常运行，不出现异常。
我们选择cdh3作为宕机主机，目前cdh3所运行的服务如下所示，在cdh3宕机后，我们需要将新增主机安装同样的服务以恢复集群。
在这里插入图片描述

注：集群中所有节点在测试前都最好打上快照，不要问我为什么知道

三、节点删除
1、首先我们让cdh3节点“宕机”，即将节点cdh3关机，集群呈现以下状态
在这里插入图片描述
在“主机”中将cdh3宕机节点删除，取消选中“跳过管理角色”，我们需要完成将此主机所有组件完全清除。

删除成功后即显示以下内容

然后我们将其从CM管理平台中删除，即为彻底将其节点清除

在上述操作都完成后，目前集群中只剩下4个节点，且集群现状如下
在这里插入图片描述

注：集群中Oozie出现异常的原因为Oozie Server节点安装在cdh3上，对本次测试影响不大，后续我们重新添加上即可

四、数据验证
检测一下hdfs中的数据健康情况，可以看到数据一切正常，并没有因为cdh3的宕机而造成数据丢失和出现坏块。
在删除cdh3主机时，集群自动做了数据平衡，将cdh3中的副本数据全都恢复至其他节点中去了。在这里插入图片描述

CDH大数据节点宕机测试

一、集群现状

二、测试内容与目标

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

CDH大数据节点宕机测试

一、集群现状

二、测试内容与目标

热门文章

最新文章

相关课程

相关电子书