VMware故障案例分享-ESXi6.0磁盘拥堵

简介: 更换了一个新SSD后,发生了拥堵的现象.将其卸载,拥堵就消失了.下面是拥堵故障的一个分析过程.

故障现象:

一台esxi6.0于7月5号3am左右出现 一块 ssd congestion;这块ssd卡是刚更换上去的;将这块 ssd卡unmount之后,ssd congestion 消失了。

分析过程:

产品版本信息。

Huawei Technologies Co., Ltd. RH2288H V2-24S | BIOS: RMIBV503 | Date (ISO-8601): 2015-03-09
VMware ESXi 6.0.0 build-6921384
ESXi 6.0 Patch 6 ESXi600-201711001 11/9/2017 6921384 N/A

检查vSAN使用的hba卡的驱动信息,发现连接两个SSD所使用的hba3和hba4并不在vSAN的兼容列表里面。
Support Bundle: .(ESXi 6.0 U3) Virtual SAN Enabled: Yes
HBA: vmhba4

Huawei <class> Mass storage controller(19e5:0007 19e5:0007) Status:  Not Listed on HCL
hio 2.1.0.23 Status:  Not checked

HBA: vmhba2

LSI Logic / Symbios Logic LSI2308_2(1000:0087 1000:0087) Status:  Found Match on HCL
mpt2sas 19.00.00.00.1vmw Status:  Driver/Version As per HCL
Recommended Drivers for version ESXi 6.0 U3:
    Driver: mpt2sas Ver:19.00.00.00.1vmw (Match Confidence: 100) Firmware: 19.00.00.00-IT
VCG link: http://vcg-stg-vip-1.vmware.com/comp_guide2/detail.php?deviceCategory=vsanio&productid=39286

HBA: vmhba3

Huawei <class> Mass storage controller(19e5:0007 19e5:0007) Status:  Not Listed on HCL
hio 2.1.0.23 Status:  Not checked

vmhba2 mpt2sas 19.00.00.00.1vmw 1000 0087 1000 0087 LSI Logic / Symbios Logic LSI2308_2
vmhba3 hio 2.1.0.23 19e5 0007 19e5 0007
vmhba4 hio 2.1.0.23 19e5 0007 19e5 0007

Disk Group: 5275c7e2-f296-a38e-9b0d-15fe4aea962c
Device Type In CMMDS Vendor Model Revision Offline? Size Transport HBA
t10.hioa___00030PXS10D6000058 SSD false Huawei ES3000 2.0 false 1121.81GB parallel vmhba4
naa.5000cca0720a8210 MD false HGST HUC101212CSS600 A440 false 1117.81GB sas vmhba2
naa.5000c500c18343d7 MD false SEAGATE ST1200MM0009 N003 false 1117.81GB sas vmhba2
naa.5000cca0720a5a60 MD false HGST HUC101212CSS600 A440 false 1117.81GB sas vmhba2
naa.5000cca0720a15c8 MD false HGST HUC101212CSS600 A440 false 1117.81GB sas vmhba2
naa.5000c500c15a6cfb MD false SEAGATE ST1200MM0009 N003 false 1117.81GB sas vmhba2
naa.5000cca07209c0cc MD false HGST HUC101212CSS600 A440 false 1117.81GB sas vmhba2
naa.5000c500c1a59b2f MD false SEAGATE ST1200MM0009 N003 false 1117.81GB sas vmhba2

Disk Group: 52d8a147-5bf1-2fa3-f755-ffc14a44ab8f
Device Type In CMMDS Vendor Model Revision Offline? Size Transport HBA
naa.5000cca0720a63d4 MD true HGST HUC101212CSS600 A440 false 1117.81GB sas vmhba2
naa.5000cca0720a1c3c MD true HGST HUC101212CSS600 A440 false 1117.81GB sas vmhba2
naa.5000cca07209d7a8 MD true HGST HUC101212CSS600 A440 false 1117.81GB sas vmhba2
t10.hiob___00030PXT10F3000198 SSD true Huawei ES3000 2.0 false 747.88GB parallel vmhba3
naa.5000cca0720a5cb4 MD true HGST HUC101212CSS600 A440 false 1117.81GB sas vmhba2
naa.5000cca07209ab74 MD true HGST HUC101212CSS600 A440 false 1117.81GB sas vmhba2
naa.5000cca0720a5a4c MD true HGST HUC101212CSS600 A440 false 1117.81GB sas vmhba2
naa.5000cca0720a7bf4 MD true HGST HUC101212CSS600 A440 false 1117.81GB sas vmhba2

检查vsan磁盘信息可以看到这个磁盘组的InCMMDS都是false,应该是没有被mount到vSAN中。

2020-07-02T09:04:01Z shell[38762]: [root]: esxcli vsan storage add -d naa.5000cca0720a5fac -s t10.hioa___00030PXS10D6000058
2020-07-02T09:05:56Z shell[38762]: [root]: esxcli vsan storage add -d naa.5000cca0720a5fac -s t10.hioa___00030PXS10D6000058
2020-07-02T09:07:25Z shell[38762]: [root]: esxcli vsan storage add -d naa.5000c500c15a6cfb -s t10.hioa___00030PXS10D6000058
2020-07-02T09:07:43Z shell[38762]: [root]: esxcli vsan storage add -d naa.5000cca07209c0cc -s t10.hioa___00030PXS10D6000058
2020-07-02T09:07:55Z shell[38762]: [root]: esxcli vsan storage add -d naa.5000cca0720a5a60 -s t10.hioa___00030PXS10D6000058
2020-07-02T09:08:05Z shell[38762]: [root]: esxcli vsan storage add -d naa.5000c500c1a59b2f -s t10.hioa___00030PXS10D6000058
2020-07-02T09:08:13Z shell[38762]: [root]: esxcli vsan storage add -d naa.5000cca0720a15c8 -s t10.hioa___00030PXS10D6000058
2020-07-02T09:08:25Z shell[38762]: [root]: esxcli vsan storage add -d naa.5000c500c18343d7 -s t10.hioa___00030PXS10D6000058
2020-07-05T00:40:49Z shell[37182]: [root]: esxcli vsan storage diskgroup unmount -d t10.hioa___00030PXS10D6000058
2020-07-05T00:41:08Z shell[37182]: [root]: esxcli vsan storage diskgroup unmount -s t10.hioa___00030PXS10D6000058

Disk Group: 5275c7e2-f296-a38e-9b0d-15fe4aea962c

Device Type In CMMDS Vendor Model Revision Offline? Size Transport HBA
t10.hioa___00030PXS10D6000058 SSD false Huawei ES3000 2.0 false 1121.81GB parallel vmhba4
naa.5000cca0720a8210 MD false HGST HUC101212CSS600 A440 false 1117.81GB sas vmhba2
naa.5000c500c18343d7 MD false SEAGATE ST1200MM0009 N003 false 1117.81GB sas vmhba2
naa.5000cca0720a5a60 MD false HGST HUC101212CSS600 A440 false 1117.81GB sas vmhba2
naa.5000cca0720a15c8 MD false HGST HUC101212CSS600 A440 false 1117.81GB sas vmhba2
naa.5000c500c15a6cfb MD false SEAGATE ST1200MM0009 N003 false 1117.81GB sas vmhba2
naa.5000cca07209c0cc MD false HGST HUC101212CSS600 A440 false 1117.81GB sas vmhba2
naa.5000c500c1a59b2f MD false SEAGATE ST1200MM0009 N003 false 1117.81GB sas vmhba2
Disk Group: 52d8a147-5bf1-2fa3-f755-ffc14a44ab8f
Device Type In CMMDS Vendor Model Revision Offline? Size Transport HBA
naa.5000cca0720a63d4 MD true HGST HUC101212CSS600 A440 false 1117.81GB sas vmhba2
naa.5000cca0720a1c3c MD true HGST HUC101212CSS600 A440 false 1117.81GB sas vmhba2
naa.5000cca07209d7a8 MD true HGST HUC101212CSS600 A440 false 1117.81GB sas vmhba2
t10.hiob___00030PXT10F3000198 SSD true Huawei ES3000 2.0 false 747.88GB parallel vmhba3
naa.5000cca0720a5cb4 MD true HGST HUC101212CSS600 A440 false 1117.81GB sas vmhba2
naa.5000cca07209ab74 MD true HGST HUC101212CSS600 A440 false 1117.81GB sas vmhba2
naa.5000cca0720a5a4c MD true HGST HUC101212CSS600 A440 false 1117.81GB sas vmhba2
naa.5000cca0720a7bf4 MD true HGST HUC101212CSS600 A440 false 1117.81GB sas vmhba2

检查vobd和vmkernel日志,可以看到下面时间点开始该磁盘组突然开始报拥堵,并且拥堵前驱动和磁盘都没有报错。
vobd.log
2020-07-04T01:56:52.204Z: [VsanCorrelator] 60119767788us: [vob.vsan.lsom.congestionthreshold] LSOM SSD 5275c7e2-f296-a38e-9b0d-15fe4aea962c Congestion State: Exceeded. Cong
estion Threshold: 200 Current Congestion: 202.
2020-07-04T01:56:52.204Z: [VsanCorrelator] 60120438700us: [esx.problem.vsan.lsom.congestionthreshold] LSOM SSD 5275c7e2-f296-a38e-9b0d-15fe4aea962c Congestion State: Exceed

  1. Congestion Threshold: 200 Current Congestion: 202.
    2020-07-04T01:57:52.204Z: [VsanCorrelator] 60179767871us: [vob.vsan.lsom.congestionthreshold] LSOM SSD 5275c7e2-f296-a38e-9b0d-15fe4aea962c Congestion State: Normal. Conges

tion Threshold: 200 Current Congestion: 148.
2020-07-04T01:57:52.204Z: [VsanCorrelator] 60180439130us: [esx.problem.vsan.lsom.congestionthreshold] LSOM SSD 5275c7e2-f296-a38e-9b0d-15fe4aea962c Congestion State: Normal
. Congestion Threshold: 200 Current Congestion: 148.
2020-07-04T01:58:52.224Z: [VsanCorrelator] 60239787321us: [vob.vsan.lsom.congestionthreshold] LSOM SSD 5275c7e2-f296-a38e-9b0d-15fe4aea962c Congestion State: Exceeded. Cong
estion Threshold: 200 Current Congestion: 202.
2020-07-04T01:58:52.224Z: [VsanCorrelator] 60240459260us: [esx.problem.vsan.lsom.congestionthreshold] LSOM SSD 5275c7e2-f296-a38e-9b0d-15fe4aea962c Congestion State: Exceed

  1. Congestion Threshold: 200 Current Congestion: 202.
    2020-07-04T01:59:52.226Z: [VsanCorrelator] 60299788319us: [vob.vsan.lsom.congestionthreshold] LSOM SSD 5275c7e2-f296-a38e-9b0d-15fe4aea962c Congestion State: Normal. Conges

tion Threshold: 200 Current Congestion: 148.
2020-07-04T01:59:52.226Z: [VsanCorrelator] 60300460977us: [esx.problem.vsan.lsom.congestionthreshold] LSOM SSD 5275c7e2-f296-a38e-9b0d-15fe4aea962c Congestion State: Normal
. Congestion Threshold: 200 Current Congestion: 148.
2020-07-04T02:00:52.233Z: [VsanCorrelator] 60359795073us: [vob.vsan.lsom.congestionthreshold] LSOM SSD 5275c7e2-f296-a38e-9b0d-15fe4aea962c Congestion State: Exceeded. Cong
estion Threshold: 200 Current Congestion: 202.
2020-07-04T02:00:52.233Z: [VsanCorrelator] 60360468427us: [esx.problem.vsan.lsom.congestionthreshold] LSOM SSD 5275c7e2-f296-a38e-9b0d-15fe4aea962c Congestion State: Exceed

  1. Congestion Threshold: 200 Current Congestion: 202.
    2020-07-04T02:01:52.235Z: [VsanCorrelator] 60419795887us: [vob.vsan.lsom.congestionthreshold] LSOM SSD 5275c7e2-f296-a38e-9b0d-15fe4aea962c Congestion State: Normal. Conges

tion Threshold: 200 Current Congestion: 148.

结论:

虽然报拥堵的时候总是报磁盘组SSD拥堵,但是造成拥堵的原因可以是IO链上HBA卡、SSD、MD的性能问题导致的,
拥堵的原因调查非常复杂,由于日志中并没有驱动、ssd,md相关报错信息,无法仅仅通过日志信息来判断拥堵具体原因的。
对于这台主机,可以尝试更换兼容的HBA卡的驱动固件,再加入mount磁盘进行观察.如果还有问题,可以考虑升级ESXi到6.5及以上版本,并同步更新兼容的驱动固件.

目录
相关文章
|
SQL 存储 数据挖掘
【虚拟机数据恢复】VMware虚拟机文件被误删除的数据恢复案例
虚拟机数据恢复环境: 某品牌R710服务器+MD3200存储,上层是ESXI虚拟机和虚拟机文件,虚拟机中存放有SQL Server数据库。 虚拟机故障: 机房非正常断电导致虚拟机无法启动。服务器管理员检查后发现虚拟机配置文件丢失,所幸xxx-flat.vmdk磁盘文件和xxx-000001-delta.vmdk快照文件还在。服务器管理员在尝试恢复虚拟机的过程中,将原虚拟机内的xxx-flat.vmdk删除后新建了一个虚拟机,并分配了精简模式的虚拟机磁盘和快照数据盘,但原虚拟机内的数据并没有恢复。
【虚拟机数据恢复】VMware虚拟机文件被误删除的数据恢复案例
|
11月前
|
存储 网络安全 虚拟化
虚拟化数据恢复—VMware ESX Server数据恢复案例
虚拟化数据恢复环境: 某企业信息管理平台, 几台VMware ESX Server主机共享一台存储设备,大约有几十台虚拟机。 虚拟化故障&原因: Vcenter报告虚拟磁盘丢失。管理员通过ssh远程到ESX中执行fdisk -l命令查看磁盘,发现STORAGE已经没有分区表了。重启所有设备后,ESX SERVER均无法连接到存储设备中的STORAGE。
|
存储 监控 固态存储
【vSAN分布式存储服务器数据恢复】VMware vSphere vSAN 分布式存储虚拟化平台VMDK文件1KB问题数据恢复案例
在一例vSAN分布式存储故障中,因替换故障闪存盘后磁盘组失效,一台采用RAID0策略且未使用置备的虚拟机VMDK文件受损,仅余1KB大小。经分析发现,该VMDK文件与内部虚拟对象关联失效导致。恢复方案包括定位虚拟对象及组件的具体物理位置,解析分配空间,并手动重组RAID0结构以恢复数据。此案例强调了深入理解vSAN分布式存储机制的重要性,以及定制化数据恢复方案的有效性。
270 5
|
10月前
|
存储 SQL 数据库
虚拟化数据恢复—Vmware虚拟机误还原快照的数据恢复案例
虚拟化数据恢复环境: 一台虚拟机从物理机迁移到ESXI虚拟化平台,迁移完成后做了一个快照。虚拟机上运行了一个SQL Server数据库,记录了数年的数据。 ESXI虚拟化平台上有数十台虚拟机,EXSI虚拟化平台连接了一台EVA存储,所有的虚拟机都存放在EVA存储上。 虚拟化故障: 工组人员误操作将数年前迁移完成后做的快照还原了,也就意味着虚拟机状态还原到数年前,近几年数据都被删除了。 还原快照相当于删除数据,意味着部分存储空间会被释放。为了不让这部分释放的空间被重用,需要将连接到这台存储的所有虚拟机都关掉,需要将不能长时间宕机的虚拟机迁移到别的EXSI虚拟化平台上。
273 50
|
10月前
|
存储 网络安全 虚拟化
虚拟化数据恢复—VMware ESX SERVER数据恢复案例
虚拟化数据恢复环境&故障: 某单位信息管理平台,数台VMware ESX SERVER共享一台某品牌DS4100存储。 vc报告虚拟磁盘丢失,管理员ssh到ESX中执行fdisk -l查看磁盘,发现STORAGE中的分区表不见了。重启所有设备后,ESX SERVER均无法连接到DS4100存储中的STORAGE。
|
运维 虚拟化 Windows
VMware Workstation常见的故障处理
关于VMware Workstation常见故障处理的指南,包括Windows 10开启虚拟机蓝屏问题的解决方案和虚拟机无法开机时的解决方法。
606 21
VMware Workstation常见的故障处理
|
虚拟化
VMware Workstation子网划分及bond配置案例
本文主要介绍了如何在VMware Workstation中进行子网划分以及如何添加和配置四块网卡以实现bond模式,并通过配置文件和命令行操作来验证bond模式的有效性。
268 3
VMware Workstation子网划分及bond配置案例
|
存储 SQL 数据挖掘
虚拟化数据恢复—VMware虚拟机vmdk文件被误删除的数据恢复案例
虚拟化数据恢复环境: 某品牌服务器(部署VMware EXSI虚拟机)+同品牌存储(存放虚拟机文件)。 虚拟化故障: 意外断电导致服务器上某台虚拟机无法正常启动。查看虚拟机配置文件发现这台故障虚拟机除了磁盘文件以外其他配置文件全部丢失,xxx-flat.vmdk磁盘文件和xxx-000001-delta.vmdk快照文件还在。管理员联系VMware工程师寻求帮助。VMware工程师尝试新建一个虚拟机来解决故障,但发现ESXi存储空间不足。于是将故障虚拟机下的xxx-flat.vmdk磁盘文件删除,然后重建一个虚拟机并且分配固定大小的虚拟磁盘。
|
存储 固态存储 虚拟化
【vSAN分布式存储服务器数据恢复】VMware vSphere vSAN ESXi超融合HCI分布式存储数据恢复案例
近期,我司处理了一个由10台华为OceanStor存储组成的vSAN超融合架构,其中一台存储闪存盘出现故障,用户取下后用新的闪存盘代替,然后对该闪存盘所在的磁盘组进行重建,导致集群中一台使用0置备策略的虚拟机数据丢失。
280 6
|
存储 SQL 运维
服务器数据恢复—Isilon存储误删除vmware虚拟机的数据恢复案例
Isilon存储使用的是分布式文件系统OneFS。在Isilon存储集群里面每个节点均为单一的OneFS文件系统,所以Isilon存储在进行横向扩展的同时不会影响数据的正常使用。Isilon存储集群所有节点提供相同的功能,节点与节点之间没有主备之分。当用户向Isilon存储集群中存储文件时,OneFS文件系统层面将文件划分为128K的片段分别存放到不同的节点中,而节点层面将128K的片段分成8K的小片段分别存放到节点的不同硬盘中。用户文件的Indoe信息、目录项及数据MAP则会分别存储在所有节点中,这样可以确保用户不管从哪个节点都可以访问到所有数据。Isilon存储在初始化时会让用户选择相应的
157 12

热门文章

最新文章