记一次服务器宕机处理过程

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介:

今天整理之前的运维资料,发现了自己整理的一次刀片服务器(运行的vmware虚拟化)事故处理流程,所以记录下,备忘。

一、事件处理过程

14:10 接到机房运维工程师通知,Opmanager监控系统上出现了多台服务器宕机现象,并且均为虚拟机。

14:12 通知机房运维工程师检查HP刀片服务器是否有告警,远程登录vcenter进行检查。远程查看发现ESX0410.203.11.64)出现告警,告警信息如下图所示:

wKiom1kiqpShSkmFAAAe0ZMy9N0873.png 14:15 通知工程师ESX04出现告警,然后确认该刀片服务器是否存活,并进入机房确认设备上是否有硬件上的告警。

wKiom1kiqv6BdIOJAAA5P2Qz-Cg782.png

14:16 检查逻辑上的网络接口是否存在异常

wKioL1kiq1PR1qW6AACW7q-Xk44550.png


如下图所示,发现有两块网卡处于离线状态

wKioL1kiqv7wgo43AADk9e8nEBs303.png


14:18 检查其它刀片,发现ESXI02对应的网卡,发现为正常的

wKiom1kiq_2zvgdjAAEBIHmun5c684.png

14:20 登录HP刀片管理控制台查看,未发现服务器告警信息。

wKioL1kiq_7xVPzYAAEAKaC3Yls120.png

14:19 参照其它EXSI,尝试更改vmnic6、vmnic7两块网卡模式,该操作无法生效

wKioL1kirLrxChSZAAAU755mvlk100.png

更改网卡模式无法生效

wKiom1kirLqyNTB7AABlLn9dk04490.png

14:27 在ESX04进行手动迁移虚拟机到其他主机上,迁移失败。

wKioL1kirLuz0qPIAACi0qojR6U716.png

14:58 ESX04主机上的虚拟机全部关机

wKioL1kirSvDjurpAAA2YecvVz8846.png

15:20 重启ESXI主机,HA 自动将开着的虚拟机迁移到其他EXSI主机上启动

15:30 ESX04主机启动成功后,vsphereHA尝试自动将虚拟机迁移回ESX04主机失败,

15:50 手动迁移部分虚拟机回ESX04主机,观察运行状态。

二、日志分析

1、远程登录到ESXI的命令行,查看vmkernel的日志:

说明:由于esxi4采用的是utc时间,日志中显示的较时间时间会慢8小时

1
2
3
4
5
6
/var/log  # cat /var/log/vmkernel.log | grep '2014-12-18'
2014-12-18T03:27:49.106Zcpu46:6396479)WARNING: ScsiDeviceIO: 1211: Devicenaa.60014380064900f30000800000e40000 performance hasdeteriorated. I /O  latency increased from average value of 3303 microseconds to68755 microseconds.
2014-12-18T03:31:54.595Zcpu8:16392)ScsiDeviceIO: 1191: Device naa.60014380064900f30000800000e40000performance has improved. I /O  latency reduced from 68755 microseconds to 13691microseconds.
2014-12-18T03:32:32.643Zcpu12:17017)MigrateNet: vm 17017: 2061: Accepted connection from <10.203.11.100>
2014-12-18T03:32:32.643Zcpu12:17017)MigrateNet: vm 17017: 2131: dataSocket 0x4100253292f0 receivebuffer size is 563560
2014-12-18T03:32:32.644Z cpu12:17017)WARNING:Migrate: 262: Invalid message  type  for  new connection: 542393671.  Expecting message

如上面的日志显示:13:27,主机的性能开始下降,I/O延迟变的较大

2、查看10.203.11.100是否有相关告警:

wKioL1kirjqiNn_nAABXg3gIRW4730.png如上图所示,提示esx04主机的网卡状态出现错误

wKioL1kiroHg6iO2AAB-XH3wsp8608.png

3、收集的其它日志如下,暂未发现异常

wKioL1kirtvCKAz2AAAbcvnTZoM157.jpg

整个处理过程到此基本完成,所有的刀片服务器中,也就这台偶尔抽风,也没有明显的特征











本文转自 冰冻vs西瓜 51CTO博客,原文链接:http://blog.51cto.com/molewan/1928339,如需转载请自行联系原作者
目录
相关文章
|
4月前
|
弹性计算 JSON 运维
阿里云ECS实例运维属性-如何控制实例的宕机表现
介绍如何通过运维属性指定阿里云ECS的宕机运维表现等
|
5月前
|
监控 Linux Shell
"揭秘!一键掌控Linux服务器健康的秘密武器——超实用系统检查脚本,让你的服务器稳如老狗,告别宕机烦恼!"
【8月更文挑战第14天】服务器宕机或资源耗尽会严重影响业务。为此,你需要一个Linux系统检查脚本来守护服务器健康。它可以自动检测潜在问题如磁盘满载、内存泄漏等,避免服务中断。脚本应包括磁盘空间、内存/CPU使用、系统时间准确性、关键服务状态及系统日志分析等检查项。通过编写并定期运行这样的脚本,可以显著提高服务器的稳定性和可靠性。
73 1
|
8月前
|
弹性计算 运维 安全
《幻兽帕鲁》服务器再次宕机?自建服务器教程来了
《幻兽帕鲁》服务器再次宕机?自建服务器教程来了,如何自建幻兽帕鲁服务器?基于阿里云服务器搭建幻兽帕鲁palworld服务器教程来了,一看就懂系列。本文是利用OOS中幻兽帕鲁扩展程序来一键部署幻兽帕鲁服务器,阿里云百科分享官方基于阿里云服务器快速创建幻兽帕鲁服务器教程
103 0
|
6月前
|
Prometheus 监控 Cloud Native
Java 服务挂掉,服务器异常宕机问题排查
Java 服务挂掉,服务器异常宕机问题排查
1206 1
|
8月前
|
弹性计算
ECS服务保活和宕机启动
学习ECS服务保活、宕机启动的配置方法,并体验其实现效果。通过应用程序配置保活和宕机启动策略,可以确保关键服务在遇到各种问题时保持运行,从而为用户和企业提供稳定和可靠的服务。
关于服务器内存溢出导致宕机的总结
关于服务器内存溢出导致宕机的总结
149 0
Java 最常见的面试题:集群中有 3 台服务器,其中一个节点宕机,这个时候 zookeeper 还可以使用吗?
Java 最常见的面试题:集群中有 3 台服务器,其中一个节点宕机,这个时候 zookeeper 还可以使用吗?
|
前端开发 Java Linux
Java服务器宕机解决方法论(上)
Java服务器宕机解决方法论(上)
769 0
Java服务器宕机解决方法论(上)
|
Java 调度
Java服务器宕机解决方法论(下)
Java服务器宕机解决方法论(下)
385 0
|
云安全 弹性计算 前端开发