0023-HOSTS配置问题导致集群异常故障分析

本文涉及的产品
注册配置 MSE Nacos/ZooKeeper,182元/月
任务调度 XXL-JOB 版免费试用,400 元额度,开发版规格
云原生网关 MSE Higress,422元/月
简介:

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

1.问题现象

Hadoop集群HDFS、YARN、Hive等服务出现异常告警

重启集群异常告警任然存在大量告警

Cluster 1

HDFS

可用空间抑制...

NameNode 运行状况抑制...
HDFS 金丝雀抑制...

DataNode (ip-172-31-10-118) 日志文件

NameNode 连接抑制...

DataNode (ip-172-31-5-190) 日志文件

NameNode 连接抑制...

DataNode (ip-172-31-9-33) 日志文件

NameNode 连接抑制...

Hive Metastore Server (ip-172-31-6-148)  日志文件

Hive Metastore Canary 抑制...

Impala Daemon (ip-172-31-10-118)  日志文件

进程状态抑制...

Impala Daemon (ip-172-31-5-190)  日志文件

进程状态抑制...

Impala Daemon (ip-172-31-9-33)  日志文件

进程状态抑制...

NameNode (ip-172-31-6-148) 日志文件

安全模式状态抑制...

Server (ip-172-31-5-190) 日志文件

Quorum 成员资格抑制...

Zookeeper服务“Quorum 成员资格”告警

CM节点上的所有服务的角色日志不能正常通过ClouderaManager控制台查看,显示如下错误:

2.问题复现

集群环境:

  • CDH5.12.0
  • 集群服务(HDFS/Hive/YARN/Zookeeper/Hue/Impala/Kudu/Oozie)

1.还原现场配置,所有服务器hosts配置文件配置

127.0.0.1   ip-172-31-10-156.ap-southeast-1.compute.internal
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

172.31.8.141 ip-172-31-8-141.ap-southeast-1.compute.internal
172.31.1.175 ip-172-31-1-175.ap-southeast-1.compute.internal
172.31.9.186 ip-172-31-9-186.ap-southeast-1.compute.internal
172.31.10.156 ip-172-31-10-156.ap-southeast-1.compute.internal

配置中的第一行配置为多出的异常配置。

在主机上ping自己的hostname显示

2.重启集群服务

CM出现如下大量告警

Cluster 1

HDFS
可用空间抑制...
    NameNode 运行状况抑制...
    HDFS 金丝雀抑制...
DataNode (ip-172-31-10-118)  日志文件
NameNode 连接抑制...
DataNode (ip-172-31-5-190)  日志文件
NameNode 连接抑制...
DataNode (ip-172-31-9-33)  日志文件
NameNode 连接抑制...
    Hive Metastore Server (ip-172-31-6-148)  日志文件
Hive Metastore Canary 抑制...
HiveServer2 (ip-172-31-6-148)  日志文件
进程状态抑制...
    Impala Daemon (ip-172-31-10-118)  日志文件
进程状态抑制...
    Impala Daemon (ip-172-31-5-190)  日志文件
进程状态抑制...
    Impala Daemon (ip-172-31-9-33)  日志文件
进程状态抑制...
NameNode (ip-172-31-6-148)  日志文件
安全模式状态抑制...
Server (ip-172-31-5-190)  日志文件
Quorum 成员资格抑制...
    ip-172-31-10-118
代理状态抑制...
    ip-172-31-5-190
代理状态抑制...
    ip-172-31-9-33
代理状态抑制...

Zookeeper与现场告警一致,且Zookeeper服务如下状态

在查看CM节点的日志出现如下异常“Connection refused”

Host列表监控状态

3.问题原因

集群在运行正常的情况下,所有节点的hosts文件被修改为127.0.0.1导致

4.解决方法

修改所有节点的hosts文件,将127.0.0.1行配置注释

重启集群服务恢复正常;

醉酒鞭名马,少年多浮夸! 岭南浣溪沙,呕吐酒肆下!挚友不肯放,数据玩的花!

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。


原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

相关文章
|
SQL 运维 监控
Clickhouse运维之你最需要知道的SQL总结
Clickhouse运维之你最需要知道的SQL总结
Clickhouse运维之你最需要知道的SQL总结
|
前端开发
AJAX请求 状态pending
AJAX请求 状态pending
611 0
AJAX请求 状态pending
|
测试技术 程序员 C++
iOS:项目中无用类检测和无用图片检测汇总
在涉及到项目大改版,或者涉及到某个功能模块大变更,就会涉及到图片废弃和文件废弃的情况。 但是这时候就会遗留下一个很大的问题,没有将废弃的、无用的文件类或资源删除干净。而这次需要对工程代码的无用资源和无用文件进行删除处理,感触颇多,故在此笔记。 首先,感觉很多人的代码习惯还是恶待提高。比如我发现一些人的代码操作习惯,从好到次,可以大略分以下情况
1507 0
iOS:项目中无用类检测和无用图片检测汇总
|
11月前
|
数据采集 前端开发 搜索推荐
|
10月前
|
运维 物联网 网络虚拟化
网络功能虚拟化(NFV):定义、原理及应用前景
网络功能虚拟化(NFV):定义、原理及应用前景
1087 3
|
10月前
|
设计模式 算法 Java
16.迭代器模式设计思想
本文详细介绍了迭代器模式的设计思想、原理、结构及应用场景,通过Java代码示例解析了迭代器模式的具体实现过程,并讨论了其优缺点及适用环境。迭代器模式通过提供统一的遍历接口,简化了集合对象的访问,支持多种遍历方式,同时保持了良好的封装性和灵活性。文章还提供了丰富的资源链接,帮助读者深入理解和应用设计模式。
154 7
|
JSON 关系型数据库 MySQL
MySQL 5.x和8.0区别
性能:8.0的速度要比5.7快2倍,8.0在以下方面带来了更好的性能:读/写负载、IO密集型工作负载、高竞争("hot spot"热点竞争问题)工作负载。
398 3
|
11月前
|
数据可视化 Python
使用Python进行数据可视化的初学者指南
【10月更文挑战第20天】本文旨在为编程新手提供一个简洁明了的入门指南,通过Python语言实现数据可视化。我们会介绍如何安装必要的库、理解数据结构,并利用这些知识来创建基本图表。文章将用通俗易懂的语言和示例代码,帮助读者快速掌握数据可视化的基础技能。
129 4
|
JavaScript 开发工具 git
大事件项目17----Vue项目引入Echarts
大事件项目17----Vue项目引入Echarts
大事件项目17----Vue项目引入Echarts
|
机器学习/深度学习 人工智能 自然语言处理
深度学习的伦理困境与未来发展方向
【8月更文挑战第5天】随着深度学习技术在多个领域的广泛应用,其带来的伦理问题也日益受到关注。本文将探讨深度学习中存在的伦理挑战,包括数据隐私、算法偏见和自动化失业等问题,并提出相应的解决策略。同时,文章还将展望深度学习的未来发展趋势,探讨其在技术创新和社会应用中的潜力与挑战。
196 3

热门文章

最新文章