DELL POWEREDGE 830 RAID恢复与常见问题解决-阿里云开发者社区

DELL POWEREDGE 830 RAID恢复与常见问题解决

2017-11-23 2052

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

1．备份您重要的数据，以免导致数据的丢失。

2．重新启动您的服务器，按下ctr＋m（这是raid 卡的bios），进入raid bios

3．选择object（目标对象），回车进入

4．选择physical driver（物理硬盘），在物理硬盘这个菜单中，你可以看到各种硬盘的状态：

主要有(online(在线)/fail(失败)/rebuild(重建)/ready(预备)。通常情况下ready表示您的机器硬盘处于预备状态，硬盘没有任何数据。

Fail表示您的机器这个硬盘脱离了您的阵列，这个时候有可能硬盘坏了，也可能仅仅脱离阵列，您需要

在每个硬盘上按一下F2键，检查一下是否有media error (媒质错误)，other error（其他错误）

如果错误超过10个就需要更换硬盘。

如果错误全部是0，仅仅需要rebuild(重建)就可以。

在经过5小时后硬盘会从rebuild(重建)状态改变为online(在线)，就是raid 回复正常。

有关RAID的常见问题

1. 为什么硬盘会掉线？

SCSI 的通讯采用的是并行总线技术，当SCSI链路中出现冲突，设备故障或通讯干扰，就会造成总线无法释放，在此期间SCSI控制器可能无法正确识别到某些磁盘的状态，因此会将这些磁盘置为离线状态。SCSI控制器会尝试通过总线的复位来释放总线。SCSI链路中的任何一个设备的故障都会造成SCSI总线通信故障，它包括下面这些部件：

l SCSI线缆

l 硬盘背板

l 硬盘

l SCSI控制器或RAID卡

l 有缺陷的SCSI设备固件

l SCSI终结器

l EMM卡

2. 为什么诊断工具可以发现硬盘故障，而硬盘本身却没有报警?

硬盘在工作一段时间后，可能因各种原因会产生一些介质错误，但硬盘厂商对这些介质错误都有设定一个报警阀值，当硬盘的介质错误超过预设的报警阀值，硬盘 firmware将触发报警，并反映到硬盘报警灯，但有时硬盘虽然产生了介质错误，但这些错误并没达到报警预设阀值，所以硬盘报警灯可能会没有提示。

3. 为什么硬盘可以rebuild成功，但却经常掉线？

Rebuilding的操作是一个RAID数据冗余性重新同步的过程，rebuilding成功仅反应出磁盘介质在同步过程中无读写错误。硬盘离线通常跟SCSI总线的稳定性有关（参见问题1）。

4. 什么原因导致Rebuilding失败?

l Double fault：由于多快磁盘故障，导致数据的冗余性丢失。

l 错误的操作：在更换硬盘时，如果该硬盘本身并没有离线，应该使用prepare remove功能通知RAID卡，以便系统更新磁盘状态。否则，系统可能不会接纳更换的硬盘，从而导致不能rebuild，另外，建议热更换故障硬盘。

l 新换磁盘上存在不正确的RAID配置信息（仅针对Apaptec公司的RAID卡）

l 更换的硬盘物理容量比故障硬盘的小或存在介质故障。

l RAID卡故障。

l SCSI总线不稳定。

5. RAID卡Firmware有什么作用？

RAID卡的功能都是由firmware决定的，不同版本的firmware会有不同实现方式，高版本的firmware总是提供更多的功能以及修复早期版本的缺陷。

6. 如何维护RAID数据？

定期执行check consistency和启用RAID卡的patrol功能是一个良好的维护习惯。通常磁盘的介质会随着时间的推移出现读写故障。当一个写操作遇到坏块（RAID卡会将其标记，并存放在RAID卡及磁盘的NVRAM中，如果该表中的值到达预设阀值时，硬盘firmware将触发故障告警），该写操作不能完成，但RAID卡会尝试将该数据写到其它健康的块上。当一个正常的读操作遇到坏块，那么数据是可以通过校验信息重新得到，RAID卡将得到的信息放到一个健康的块上，并将先前的坏块标记出来。有时我们可能会遭遇double fault（即数据存放于多个有坏块的的硬盘上），为了防止这些错误的出现，我们必须进行维护。

7. 什么是consistency check ？

一致性校验是磁盘阵列控制器的一种高级维护功能。它可以预先检查阵列上的数据，以保证它们的一致性，即数据是正确的、没有被破坏。对于有奇偶校验值的阵列（RAID-5），一致性校验通过数据的奇偶校验，并且和存校验值的盘上的校验值进行比较，确定并纠正数据的一致性。对于镜像盘，一致性校验比较 RAID-1上2块硬盘的数据是否完全一致。不一致的需要进行同步处理。对于剩余空间的磁盘介质consistency check一样会进行读校验。

8. 为什么要进行一致性校验？

系统崩溃、意外断电或者硬盘出现坏道，都可能导致阵列上的数据被破坏或不一致。根据硬盘的原厂家的数据，平均每进行 1,000,000,000,000,000次的比特位（bit）数据传输，就会产生一个不可恢复的数据错误。以36GB硬盘为例，平均每进行3000次的全盘读操作，就会产生1个错误字节（byte）。如果在阵列不一致的状态时，发生硬盘故障，RAID控制器就无法通过奇偶校验计算出正确的数据，阵列将无法rebuild成功。

9. 什么是RAID卡的Patrol功能

Patrol功能是基于磁盘介质的，RAID卡firmware会在后台按照设定的计划定期对磁盘介质进行读校验，类似于SCSI卡的verify，当发现坏块时会对坏块进行标记及搬移。Patrol功能不对RAID数据进行校验。

10. 什么是Media error

Media Error一般是指RAID卡发现的磁盘读写错误。通过这个指标我们可以简单的判断磁盘介质的情况，有media error并不意味者磁盘一定需要更换，因为磁盘的firmware会对坏块进行屏蔽及迁移。但应建议对磁盘进行诊断，依据诊断结果来判断是否需要更换该磁盘。

11. 什么是other error

Other error一般是指RAID发现的SCSI总线通信错误。一般表明SCSI总线中存在硬件设备故障，一般是SCSI线缆，硬盘背板，SCSI终结器等。

本文转自 149banzhang 51CTO博客，原文链接：http://blog.51cto.com/149banzhang/723253，如需转载请自行联系原作者

DELL POWEREDGE 830 RAID恢复与常见问题解决

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

DELL POWEREDGE 830 RAID恢复与常见问题解决

热门文章

最新文章

相关电子书