XenServer 虚拟机假死亮黄解决思路之我见 2

简介:

去年曾经写过一篇文章,关于XenServer虚拟机假死的问题,http://kaiqian.blog.51cto.com/236001/1625411 有兴趣的同学可以参看此文章。


前段时间又有人向我反映这个问题,所以延续当时的思路做了进一步排错。


现象:一台XenServer上的在正常运行过程中,数台虚拟机进入亮黄、假死的状态,由于是生产环境,管理员直接将服务器重启,虚拟机工作正常。但这个问题据说之前还发生过一次,说明不是单点问题,所以需要找到问题的原因,防止此问题再次发生。


初步检查:服务器为Dell R720,XenServer 6.5 SP1 + 005hotfix。


这是一组非常常见的组合Dell R720 + XS 6.5 SP1,兼容性应该没有太大的问题,R720肯定在Citrix XenServer兼容列表中。

虚拟机跑了少于10台,负载也并不高。所以不会是高负载导致的。


分析:通过XenCenter导出XenServer report,并上传到Citrix Insight Service(简称CIS)  https://cis.citrix.com ,利用Citrix的后台数据库(需要有mycitrix账号)对于这台XenServer进行深度的分析。结果发现了一些有价值的信息。

通过CIS系统,一共发现了7个Alert。其中有一个Alert与我们问题看起来非常相关,

wKioL1cVzXSizHGeAAC_YG9IPmI323.png

显示由于一个关于Deadbeef的报错信息,与VM卡死问题相关。这里还给了两个KB,但是访问以后发现解决方案是对应老版本的XenServer,并不适用6.5版本。


进一步Research,在公网上发现https://bugs.xenserver.org/browse/XSO-399,提示这种问题是由于网卡驱动不适用导致。在这里提到了Dell服务器上所使用的Broadcom网卡,检查了故障服务器配置发现和罗列的配置非常非常类似。

wKiom1cVz8PAFGwdAAA5ZrkzNaQ506.png

 

所以在这里,下载对应的Driver Disk并安装出问题的XenServer服务器上。

Driver Disk for Broadcom tg3 3.137f - For XenServer 6.5.0

http://support.citrix.com/article/CTX201909 


后续监控数月,没有再出现类似的问题。


小结:对于XenServer来说,他的内核Dom0事实上就是一个CentOS的Linux,他层的硬件的通信、处理机制,如:网卡/HBA卡都是与一个普通的Linux系统相同的模式。所以,就和一个普通的Linux操作系统一样,虽然他自带了很多硬件的驱动,但是很多时候硬件驱动需要升级来解决包括兼容问题、性能问题在内的一些问题。


所以在此特别提醒,当XenServer出现一些异常情况的时候:(我相信其他Hypervisor也是类似的机理)

  1. 在项目实施前,请务必确认服务器、HBA卡、网卡在XenServer的兼容列表中,http://hcl.xensource.com/ 

  2. 如果遇到类似的不稳定、兼容问题,访问https://www.citrix.com/support 网站,查看对应的网卡、HBA卡是否有新的Driver Disk可以升级。当然服务器的Bios也是要去检索的。

  3. 通过CIS网站,可以获取更加丰富而详细的报告,保证大家进行有效的分析,更快速的找出潜在的问题原因。

注:CIS网站支持的产品包括XenServer,XenDesktop,XenApp,NetScaler等。






      本文转自sesame.qian  51CTO博客,原文链接:http://blog.51cto.com/kaiqian/1765368,如需转载请自行联系原作者




相关文章
|
3月前
|
SQL 数据挖掘 数据库
服务器数据恢复—意外断电导致XenServer虚拟机不可用的数据恢复案例
服务器数据恢复环境: 一台服务器中有一组由4块STAT硬盘通过RAID卡组建的RAID10阵列,上层是XenServer虚拟化平台,虚拟机安装Windows Server操作系统,作为Web服务器使用。 服务器故障: 因机房异常断电导致服务器中一台VPS(Xen Server虚拟机)不可用,虚拟磁盘文件丢失。
服务器数据恢复—意外断电导致XenServer虚拟机不可用的数据恢复案例
|
5月前
|
SQL 存储 数据库
虚拟化数据恢复—XenServer虚拟机磁盘文件丢失的数据恢复案例
虚拟化数据恢复环境: 某品牌R720服务器,4块STAT硬盘通过H710P阵列卡组建了一组raid10磁盘阵列。服务器上部署XenServer虚拟化平台,虚拟机安装Windows Server系统,作为Web服务器使用,运行SQL Server数据库。共有2个虚拟磁盘:数据盘+系统盘。 虚拟化故障: 机房断电导致XenServer虚拟化平台中一台VPS不可用,XenServer虚拟机磁盘文件丢失。
虚拟化数据恢复—XenServer虚拟机磁盘文件丢失的数据恢复案例
|
数据挖掘 数据库 虚拟化
服务器数据恢复—XenServer虚拟机磁盘文件丢失的数据恢复案例
服务器数据恢复环境: 某品牌720服务器搭配该品牌某型号RAID卡,使用4块STAT硬盘组建了一组RAID10阵列。服务器上部署XenServer虚拟化平台,系统盘 +数据盘两个虚拟机磁盘。虚拟机上安装的是Windows Server操作系统,作为Web服务器使用,网站使用的是SQLServer数据库。 服务器故障: 服务器意外断电导致XenServer中一台VPS(XenServer虚拟机)不可用,虚拟磁盘文件丢失。
服务器数据恢复—XenServer虚拟机磁盘文件丢失的数据恢复案例
|
存储 Linux 虚拟化
基于XenServer7.3创建虚拟机和安装系统
本篇博客承接上篇XenServer安装教程,作为XenServer7.3环境下创建虚拟机和安装操作系统的简明教程。 图片较多,介意者慎入。 如需转载,请注明出处http://lzoro.com 唠唠嗑 惯例唠嗑,既然搭建了虚拟平台,目的肯定是为了安装虚拟机和整合系统服务,XenServer的虚拟机创建和系统安装并不像vSphere来得那么简单(个人觉得),但也不难,不过过程中需要注意一些细节,格子觉得还是记录下来,也许有人需要呢,是吧。
1469 0
|
1月前
|
Ubuntu 网络安全 虚拟化
VMware虚拟机ping不通原因排查及分析
下面以 VMware 虚拟机为例进行介绍。
670 3
|
1月前
|
存储 SQL 数据库
虚拟化数据恢复—Vmware虚拟机误还原快照的数据恢复案例
虚拟化数据恢复环境: 一台虚拟机从物理机迁移到ESXI虚拟化平台,迁移完成后做了一个快照。虚拟机上运行了一个SQL Server数据库,记录了数年的数据。 ESXI虚拟化平台上有数十台虚拟机,EXSI虚拟化平台连接了一台EVA存储,所有的虚拟机都存放在EVA存储上。 虚拟化故障: 工组人员误操作将数年前迁移完成后做的快照还原了,也就意味着虚拟机状态还原到数年前,近几年数据都被删除了。 还原快照相当于删除数据,意味着部分存储空间会被释放。为了不让这部分释放的空间被重用,需要将连接到这台存储的所有虚拟机都关掉,需要将不能长时间宕机的虚拟机迁移到别的EXSI虚拟化平台上。
109 50
|
2月前
|
安全 虚拟化 数据中心
Xshell 连接 VMware虚拟机操作 截图和使用
Xshell 连接 VMware虚拟机操作 截图和使用
79 4