Vmware vSphere常见问题汇总(五)-阿里云开发者社区

开发者社区> 安全> 正文

Vmware vSphere常见问题汇总(五)

简介:
注:本文的内容包含所有版本的ESX和ESXi,部分内容在不同的版本可能不适用。本文的部分内容来自虚拟人论坛(http://bbs.vmanager.cn),       需要了解更多的VMware技术知识,请登录该论坛查询。  

 

40、重启ESXi主机management agent

1、连接到ESXi服务器的console界面; 
2、按F2按钮进入到自定义管理系统的选项界面; 
3、输入root用户名和密码后上下利用上下移动按钮移动到Restart Management Agents选项; 
备注:如果是ESXi 4.1则这个选项在Troubleshooting Options里面; 
4、选定后回车,然后F11重启服务; 
5、重启完成后再次回车然后ESC按钮退出系统即可完成整个流程。

 

41、ESX主机不响应 
故障状态: 
clip_image002 
故障分析:

工作原理: 1. vCenter第一次加入ESX时会自动部署vpxa程序到ESX 
2. vpxa作为守护程序运行在ESX console 
3. vpxa维护ESX(hostd)和vCenter(vpxd) 之间的心跳 
4. vpxa默认每10秒发送心跳到vCenter

clip_image004

可能原因:vCenterAgent service(vmware-vpxa) 停止运行 / 挂起 / 崩溃 / 不能启动 
ESX Manamgent Agent(mgmt-vmware) 停止运行 / 挂起 / 崩溃 / 不能启动 
防火墙禁用 端口 
DN S 解析 ESX/vCenter 错误 
ESX 主机网络连通性 
ESX service console 资源不足 
ESX 重启,紫屏, 掉电, 挂起( Alt+F12 )

存储 APD

解决方案:

1. 【程序】 首先定位是hostd还是vpxa的问题 (VIC直连) 
2. 【网络】 检查网络包括IP层和网络端口 (Ping/telnet/Firewall) 
3. 【硬件】 检查主机健康状况 (console/tty)

clip_image006

 

42、VMFS 数据存储丢失或不可访问

故障状态:

通过 VMware vSphere Client 或 VMware Infrastructure Client ,在主机配置的存储适配器视图上仍然可以显示并发现这个丢失的 VMFS 数据存储卷,ESX vmkernel 日志显示: 
cpu0:1031)LVM: 2294: Could not open device , vol[ 45e3ef74-706b3012-b730- 
000423cd, 45e3ef74-706b3012-b730-000423cd17ea, 1 ]: No such partition on target

故障分析:

这些错误会发生在当 ESX/ESXi 在使用分区表的同时,该分区表被删除。 这可能是其它操作系统对其可见的卷进行初始化导致的结果。 例如: 
? 安装一个新的操作系统时,会删除或覆盖这些卷上的分区表,比如 Windows2008 
? 在一个操作系统被安装后, 也有可能去覆盖其可见卷的分区表 , 比如 ESXi 
? ESX 安装程序会选择去覆盖一个已经存在的 VMFS 数据存储的分区表 
? 自动安装程序比如kickstart, jumpstart或磁盘镜像软件比如ghost可能会覆盖VMFS数据存 储的内容 
? 磁盘工具如 fdisk, parted 或 dd, 可能被手工或程序调用移除或更改 LUN 的分区表 
? 存储阵列发生故障也可能影响卷的内容 
? 如果卷被同时分配给 ESX/ESXi 和非 ESX/ESXi 的系统, 上述或类似的情况可能会发生。 为了避免上述情况的发生,将卷限制给那些信任的,并且要求访问 VMFS 数据存储的服务器使用。

解决方案: 
运行查看命令:

fdisk-l

输出结果类似如下:

Disk /dev/sde: 268.4 GB, 268440698880 bytes

255 heads, 63 sectors/track, 32636 cylinders

Units = cylinders of 16065 * 512 = 8225280 bytes

Device Boot Start End Blocks Id System

运行编辑命令,并按回车

fdisk-u

1. 按 n 并按回车来创建一个新的分区

2. 按 p 并按回车来选择该分区为一个主分区

3. 按1 并按回车做为第一个分区

4. 按 128 并回车调整分区到扇区 128

5. 再按回车来保留缺省数据

6. 将分区类型更改为 fb ( VMFS ) : 
7. 按 t 并按回车.分区1被自动选择

8. 按 fb 并按回车

9. 按 w 并按回车来保存

10. 运行 vmkfstools-V 并按回车来发现 VMFS

 

43、使用Convertor后Windows XP系统无法在ESX中启动

故障状态:

使用Convertor P2V操作后,可能出现以下错误

系统在XP启动画面时出现蓝屏

提示错误SESSION3_INITALIZATION_FAILED

clip_image008

故障分析:

原因:XP启动时在C:\WINDOWS\SYSTEM32下缺少smss.exe文件。

解决方案

这是由于在物理机上存在杀毒软件,某些杀毒软件会锁定系统文件导致Convertor无法对该文件进行处理。请关闭杀毒软件重新进行P2V。

 

44、解决HP DL980 G7服务器安装ESXi失败问题

环境介绍:

HP ProLiant DL980 G7

ESX|ESXi 4.1 U1

问题描述:

在HP服务器上安装ESX/ESXi时,安装刚一开始就报错了,且无法继续安装,错误信息如下:

The system has found a problem on your machine and cannot continue.     
The BIOS reports that NUMA node 1 has no memory. This problem is either caused by a bad BIOS or a very unbalanced distribution of memory modules.

问题分析:

根据以上错误查找原因,发现是CPU与内存不匹配靠成的,该服务器配置了四路CPU,但是只有两路CPU对应的内存插槽上配置有内存。为了在这种情况下使用四路CPU,HP配置为Memory-Mirror的方式工作,允许CPU交替使用内存。

ESX/ESXi没有检测到这一情况于是就出现报错,也就无法安装,后来在HP的官网上找到解决办法,官方提供的白皮书说得比较清楚:

http://h20427.www2.hp.com/campaign/promotion/kr/ko/09_storagesolution/doc/DL980_G7with_VMware.pdf

解决办法:

1、安装开始前的选择菜单上按F2,在启动Kernel的命令行后添加useNUMAInfo=false,注意区别大小写。

2、安装完成后第一次启动前,按a键修改启动项,加入参数useNUMAInfo=false

3、最后用vSphere Client连接到ESX,修改服务器属性 Configuration Panel——>Software Advanced Settings——>VMkernel.

4、将VMkernel.Boot.useNUMAInfo后面的√去掉,重新安装ESX|ESXi即可

 

45、完全禁用时间同步 
由于客户的特殊需要,不需要更改虚拟机的时间,但安装vmtools后,有时候即使未打开周期性时间同步,虚拟机有时也会与主机同步时间。

解决方法:

1、关闭虚拟机电源。

2、使用文本编辑器打开虚拟机的配置 (.vmx) 文件。

为时间同步属性添加配置行,并将属性设置为 FALSE。

tools.syncTime = "FALSE"

time.synchronize.continue = "FALSE"

time.synchronize.restore = "FALSE"

time.synchronize.resume.disk = "FALSE"

time.synchronize.shrink = "FALSE"

time.synchronize.tools.startup = "FALSE"

    46、vSphere Client登录vCenter 4.1出错:Object reference not set to an instance of an object

故障状态:

登陆vSpherre Client时候发现如下错误

clip_image009

2、vSphere Client的Update Manager Plugin处于被激活状态;

3、在位于viclient.log文件里有类似如下信息: 
[Update M:SrvMsg :P:56] 2011-05-11 16:13:00.317 RMI Result Integrity.ComplianceStatusManager.GetComplianceStatus - 635

<Result type="ManagedObject">BaselineComplianceStatusCollector:session[5F5B677A-2C77-4B94-A3EE-F256A4F22DC8]0B973DA9-B2BC-4327-8616-0A65C1FEFECB [wdcsmvc.vmware.com:8084]</Result>

[ :Error :M: 6] 2011-05-11 16:13:00.333 System.NullReferenceException: Object reference not set to an instance of an object.

at VimIntegrityClient.Common.Utils.ManagedObjectUtils.ToManagedObjectReference(ManagedObject managedEntity)

at VimIntegrityClient.UpdateManagerPlugin.ViewExtension_Activated(Extension sender)

at VpxClient.Plugins.ExtensionImpl.Activate()

[ :Error :M: 6] 2011-05-11 16:13:00.333 System.NullReferenceException: Object reference not set to an instance of an object.

at VimIntegrityClient.Common.Utils.ManagedObjectUtils.ToManagedObjectReference(ManagedObject managedEntity)

at VimIntegrityClient.UpdateManagerPlugin.ViewExtension_Activated(Extension sender)

at VpxClient.Plugins.ExtensionImpl.Activate()

故障分析:

由错误信息中的“Ojbect reference not set to an instance of an object”来看,这是一个.NET导致的故障,而在viclient.log日志文件里也显示了相关错误信息;

解决方法:

vSphere Client登录到vCenter Server 4.1之后在插件管理器里禁止掉Update Manager插件即可。

如果安装了VMware Data Recovery版本过高后,克隆的时候也会导致该问题,请禁用VMware Data Recovery插件,重启VC服务器。

 

 

47、创建虚拟机快照失败:A general system error occured:Exceeded the maximum number

故障状态: 
1、无法为虚拟机创建快照; 
2、创建虚拟机快照失败提示如下错误信息: 
A general system error occured:Exceeded the maximum number of permitted snapshots. 
故障分析: 
这个问题一般由于虚拟机的snapshot.maxSnapshots参数导致; 
解决方案: 
修改这个参数即可,步骤如下: 
1、vSphere Client登录到主机后,关闭需要做快照的虚拟机后右击Edit Settings; 
2、点击Options页标签选择General选项后选择Configuration Parameters选项; 
3、找到名叫snapshot.MaxSnapshots选项,调整它的值(加大); 
4、点击OK后保存更改然后重启虚拟机并作快照即可。

 

 

48、移除掉“ host currently has no management network redundancy ” 警告

当在 ESX 的 HACluster 上启用时,如果没有多余网卡,系统可能会提示: host currently has no management network redundancy ,如下图:

 clip_image011 
要想去掉这个消息也简单,按照如下步骤操作即可: 
1. 右击 HA Cluster 点击 Properties ; 
2. 在弹出的对话框中选择左边的 HA 选项; 
3. 点击“ Advanced Options ” 按钮; 
4. 填入下面的内容: das.ignoreRedundantNetWarning=true 
5. 关闭这个对话框之后重新激活 HA Cluster 即可完成。 
clip_image013

clip_image014

clip_image016

申明: 这只是掩耳盗铃的做法, 不建议生产系统中这样部署, 因为,更好的错误提示能让我们清楚的知道存在什么问题,这里仅作为参考 。

 

 

49、删除datastore失败,系统提示:HostDatastoreSystem.RemoveDatastore

故障状态:

当尝试删除掉一个datastore时,系统提示如下错误提示:

1. Call "HostDatastoreSystem.RemoveDatastore" for object "ha-datastoresystem" on ESXi

"xx.xx.xx.xx" failed.

如下图:

故障分析:

clip_image018

这个问题,是由于这个datstore本身可能被后台应用占用;

解决方案:

1、root权限登录到ESXi/ESX系统的控制台界面下;

2、执行如下命令抓取磁盘的naa ID:

#esxcfg-scsidevs -l | grep -I naa

3、执行如下命令启动格式化naa 磁盘的进程:

#fdisk /vmfs/devices/disks/naa.xxxx

4、在向导里按“d”后选择分区1后按“w”,系统将提示类似如下信

The partition table has been altered!

5、执行如下命令刷新vmfs分区:

#vmkfstools -V

6、再次利用vSphere Client登录到图形界面后重新刷新一下。


本文转自 saturn 51CTO博客,原文链接:http://blog.51cto.com/saturn/810871

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
+ 订阅

云安全开发者的大本营

其他文章