VMware vSphere 5.1 提供了4种SCSI控制器的类型可选:
BUS Logic
LSI logic 并行
LSI logic SAS
Vmware准虚拟(PVSCSI)
在 Guest操作系统安装好后 通常是不能更改SCSI控制器类型的 更改后,操作系统会不能启动。
基于某些原因,在测试环境中 :
ESXI5.1 |Centos 5.9 X86_64| 内核2.6.18-348.el5| LSI 1028/8i SAS控制器 |hadoop|solr|hbase|..
估计在磁盘读写并发大的情况下 几乎所有vhost都出现了
**************************************************************************************************************************************************************
mptscsih: ioc0: attempting task abort! (sc=ffff8104ab981980)
Nov 21 15:52:01 node1006 kernel: sd 0:0:4:0:
Nov 21 15:52:01 node1006 kernel: command: Write(10): 2a 00 07 27 79 c8 00 00 08 00
Nov 21 15:52:01 node1006 kernel: mptscsih: ioc0: WARNING - Issuing Reset from mptscsih_IssueTaskMgmt!! doorbell=0x24000000
Nov 21 15:52:01 node1006 kernel: mptbase: ioc0: Initiating recovery
Nov 21 15:52:01 node1006 kernel: mptscsih: ioc0: task abort: SUCCESS (rv=2002) (sc=ffff8104ab981980)
Nov 21 15:52:01 node1006 kernel: mptscsih: ioc0: attempting task abort! (sc=ffff810527c8b800)
Nov 21 15:52:01 node1006 kernel: sd 0:0:4:0:
Nov 21 15:52:01 node1006 kernel: command: Write(10): 2a 00 07 24 4f 38 00 04 00 00
Nov 21 15:52:01 node1006 kernel: mptscsih: ioc0: task abort: SUCCESS (rv=2002) (sc=ffff810527c8b800)
Nov 21 15:52:01 node1006 kernel: mptscsih: ioc0: attempting task abort! (sc=ffff8103cbd52680)
Nov 21 15:52:01 node1006 kernel: sd 0:0:4:0:
。。。。
。。。。
。。。。
***************************************************************************************************************************************************************
应用现象是,solr hadoop Dispatcher 等等应用之间,几乎所有的机器不定时出现了no route 的错误 最初以为是防火墙等原因导致;最终发现,所有设备出现noroute的时间 正好对应应用所在服务器上也出现了上述错误。上述错误出现期间 大概3~4分钟时间 磁盘被锁定,取消了当时所有的读写操作并恢复task。
考虑到所有虚机 都选择的是LSI SAS SCSI控制器,可能是其内核驱动MPTSAS与系统,控制器等等的兼容性问题或其他BUG导致。决定将SCSI控制器更改为LSI Logic 并行。
直接更改SCSI控制器 系统肯定是不能启动的;采用步骤:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
|
###########以下是代码#################################
#/bin/bash
cp
/boot/initrd-2
.6.18-348.el5.img ~skybug
/initrd-2
.6.18-348.el5.gz
#复制出启动内核镜像
mkdir
~skybug
/initrd
cd
~skybug
/initrd
gzip
-
dc
..
/initrd-2
.6.18-348.el5.gz |cpio -
id
#解包;
cd
lib/
cp
/lib/modules/2
.6.18-348.el5
/kernel/drivers/message/fusion/mptspi
.ko ./ 将mptspi模块拷贝过来(LSI Logic 并行SCSI控制器需要的驱动)
rm
-rf mptsas.ko
#删除mptsas模块(LSI logci SAS 控制器需要的驱动)
chmod
0600 .
/mptspi
.ko
#授权
cp
/lib/modules/2
.6.18-348.el5
/kernel/drivers/scsi/scsi_transport_spi
.ko ./ 复制scsi_transport_spi.ko 模块(modinfo mptspi 可以看到是mptspi的依赖关系)
rm
-rf scsi_transport_sas.ko
#删除依赖mptsas的模块
chmod
0600 scsi_transport_spi.ko
#赋权
rm
-rf shpchp.ko
#删除shpchp模块,为什么?不清楚,保留该驱动以及init加载的话,系统卡到kernel panic 无法启动,删除该驱动后正常启动 原因不详 哪个解释下
cd
../
sed
-i
"s/mptsas.ko/mptspi.ko/g"
init
#在init里把mptsas换成mptspi
sed
-i
"s/scsi_transport_sas.ko/scsi_transport_spi.ko/g"
init
#同上
sed
-i
"/shpchp.ko/d"
.
/initrd/init
”
#删除shpchp模块的加载
cd
../
rm
-rf initrd-2.6.18-348.el5.gz
cd
initrd
find
./ -depth | cpio -H newc -o > ..
/initrd-2
.6.18-348.el5.cpio
#重新打包启动镜像
cd
../
gzip
initrd-2.6.18-348.el5.cpio
mv
initrd-2.6.18-348.el5.cpio.gz initrd-2.6.18-348.el5.img
#替换原启动镜像
chmod
0755
/boot/initrd-2
.6.18-348.el5.img
cp
initrd-2.6.18-348.el5.img
/boot
chmod
0600
/boot/initrd-2
.6.18-348.el5.img
sed
-i
"s/mptsas/mptspi/g"
/etc/modprobe
.conf
#修改modprobe配置 改为加载mptspi模块
poweroff
#####################以上是代码###########
|
关机后 在Vcenter里 将scsi控制器 类型从LSI Logic SAS 修改为 LSI logic 并行 #只能在guest系统关闭的情况下才能修改
然后给虚拟机加电启动。
本文转自天山三害 51CTO博客,原文链接:http://blog.51cto.com/skybug/1336785,如需转载请自行联系原作者