DELL POWEREDGE 830 RAID恢复与常见问题解决

简介:

clip_image002

clip_image004

1. 备份您重要的数据,以免导致数据的丢失。

2. 重新启动您的服务器,按下ctr+m(这是raid 卡的bios),进入raid bios

3. 选择object(目标对象),回车进入

4. 选择physical driver(物理硬盘),在物理硬盘这个菜单中,你可以看到各种硬盘的状态:

主要有(online(在线)/fail(失败)/rebuild(重建)/ready(预备)。通常情况下ready表示您的机器硬盘处于预备状态,硬盘没有任何数据。

Fail表示您的机器这个硬盘脱离了您的阵列,这个时候有可能硬盘坏了,也可能仅仅脱离阵列,您需要

在每个硬盘上按一下F2键,检查一下是否有media error (媒质错误),other error(其他错误)

如果错误超过10个就需要更换硬盘。

如果错误全部是0,仅仅需要rebuild(重建)就可以。

在经过5小时后硬盘会从rebuild(重建)状态改变为online(在线),就是raid 回复正常。

 

有关RAID的常见问题

1. 为什么硬盘会掉线?

SCSI 的通讯采用的是并行总线技术,当SCSI链路中出现冲突,设备故障或通讯干扰,就会造成总线无法释放,在此期间SCSI控制器可能无法正确识别到某些磁盘 的状态,因此会将这些磁盘置为离线状态。SCSI控制器会尝试通过总线的复位来释放总线。SCSI链路中的任何一个设备的故障都会造成SCSI总线通信故 障,它包括下面这些部件:

l SCSI线缆

l 硬盘背板

l 硬盘

l SCSI控制器或RAID卡

l 有缺陷的SCSI设备固件

l SCSI终结器

l EMM卡

2. 为什么诊断工具可以发现硬盘故障,而硬盘本身却没有报警?

硬 盘在工作一段时间后,可能因各种原因会产生一些介质错误,但硬盘厂商对这些介质错误都有设定一个报警阀值,当硬盘的介质错误超过预设的报警阀值,硬盘 firmware将触发报警,并反映到硬盘报警灯,但有时硬盘虽然产生了介质错误,但这些错误并没达到报警预设阀值,所以硬盘报警灯可能会没有提示。

3. 为什么硬盘可以rebuild成功,但却经常掉线?

Rebuilding的操作是一个RAID数据冗余性重新同步的过程,rebuilding成功仅反应出磁盘介质在同步过程中无读写错误。硬盘离线通常跟SCSI总线的稳定性有关(参见问题1)。

4. 什么原因导致Rebuilding失败?

l Double fault:由于多快磁盘故障,导致数据的冗余性丢失。

l 错误的操作:在更换硬盘时,如果该硬盘本身并没有离线,应该使用prepare remove功能通知RAID卡,以便系统更新磁盘状态。否则,系统可能不会接纳更换的硬盘,从而导致不能rebuild,另外,建议热更换故障硬盘。

l 新换磁盘上存在不正确的RAID配置信息(仅针对Apaptec公司的RAID卡)

l 更换的硬盘物理容量比故障硬盘的小或存在介质故障。

l RAID卡故障。

l SCSI总线不稳定。

5. RAIDFirmware有什么作用?

RAID卡的功能都是由firmware决定的,不同版本的firmware会有不同实现方式,高版本的firmware总是提供更多的功能以及修复早期版本的缺陷。

6. 如何维护RAID数据?

定期执行check consistency和启用RAID卡的patrol功能是一个良好的维护习惯。通常磁盘的介质会随着时间的推移出现读写故障。当一个写操作遇到坏块 (RAID卡会将其标记,并存放在RAID卡及磁盘的NVRAM中,如果该表中的值到达预设阀值时,硬盘firmware将触发故障告警),该写操作不能完成,但RAID卡会尝试将该数据写到其它健康的块上。当一个正常的读操作遇到坏块,那么数据是可以通过校验信息重新得到,RAID卡将得到的信息放到一个健康的块上,并将先前的坏块标记出来。有时我们可能会遭遇double fault(即数据存放于多个有坏块的的硬盘上),为了防止这些错误的出现,我们必须进行维护。

7. 什么是consistency check 

一 致性校验是磁盘阵列控制器的一种高级维护功能。它可以预先检查阵列上的数据,以保证它们的一致性,即数据是正确的、没有被破坏。对于有奇偶校验值的阵列 (RAID-5),一致性校验通过数据的奇偶校验,并且和存校验值的盘上的校验值进行比较,确定并纠正数据的一致性。对于镜像盘,一致性校验比较 RAID-1上2块硬盘的数据是否完全一致。不一致的需要进行同步处理。对于剩余空间的磁盘介质consistency check一样会进行读校验。

 

8. 为什么要进行一致性校验?

系 统崩溃、意外断电或者硬盘出现坏道,都可能导致阵列上的数据被破坏或不一致。根据硬盘的原厂家的数据,平均每进行 1,000,000,000,000,000次的比特位(bit)数据传输,就会产生一个不可恢复的数据错误。以36GB硬盘为例,平均每进行3000次 的全盘读操作,就会产生1个错误字节(byte)。如果在阵列不一致的状态时,发生硬盘故障,RAID控制器就无法通过奇偶校验计算出正确的数据,阵列将 无法rebuild成功。

9. 什么是RAID卡的Patrol功能

Patrol功能是基于磁盘介质的,RAID卡firmware会在后台按照设定的计划定期对磁盘介质进行读校验,类似于SCSI卡的verify, 当发现坏块时会对坏块进行标记及搬移。Patrol功能不对RAID数据进行校验。

10. 什么是Media error

Media Error一般是指RAID卡发现的磁盘读写错误。通过这个指标我们可以简单的判断磁盘介质的情况,有media error并不意味者磁盘一定需要更换,因为磁盘的firmware会对坏块进行屏蔽及迁移。但应建议对磁盘进行诊断,依据诊断结果来判断是否需要更换该磁盘。

11. 什么是other error

Other error一般是指RAID发现的SCSI总线通信错误。一般表明SCSI总线中存在硬件设备故障,一般是SCSI线缆,硬盘背板,SCSI终结器等。





本文转自 149banzhang 51CTO博客,原文链接:http://blog.51cto.com/149banzhang/723253,如需转载请自行联系原作者
目录
相关文章
|
4月前
|
存储 运维 数据挖掘
服务器数据恢复-DELL EqualLogic PS存储raid5数据恢复案例
服务器数据恢复环境: 一台DELL EqualLogic PS系列存储,存储中有一组由16块SAS硬盘组成的RAID5。上层是VMFS文件系统,存放虚拟机文件。存储上层分了4个卷。 服务器故障&检测: 存储上有2个硬盘指示灯显示黄色,磁盘出现故障导致存储不可用,存储设备已经过保。 硬件工程师对故障存储中的16块硬盘做了硬件故障检测,发现其中有2块磁盘存在坏道,SMART的错误冗余级别已经超过阈值。
服务器数据恢复-DELL EqualLogic PS存储raid5数据恢复案例
|
存储 数据安全/隐私保护 算法
|
Linux 数据安全/隐私保护 关系型数据库