DELL POWEREDGE 830 RAID恢复与常见问题解决

简介:

clip_image002

clip_image004

1. 备份您重要的数据,以免导致数据的丢失。

2. 重新启动您的服务器,按下ctr+m(这是raid 卡的bios),进入raid bios

3. 选择object(目标对象),回车进入

4. 选择physical driver(物理硬盘),在物理硬盘这个菜单中,你可以看到各种硬盘的状态:

主要有(online(在线)/fail(失败)/rebuild(重建)/ready(预备)。通常情况下ready表示您的机器硬盘处于预备状态,硬盘没有任何数据。

Fail表示您的机器这个硬盘脱离了您的阵列,这个时候有可能硬盘坏了,也可能仅仅脱离阵列,您需要

在每个硬盘上按一下F2键,检查一下是否有media error (媒质错误),other error(其他错误)

如果错误超过10个就需要更换硬盘。

如果错误全部是0,仅仅需要rebuild(重建)就可以。

在经过5小时后硬盘会从rebuild(重建)状态改变为online(在线),就是raid 回复正常。

 

有关RAID的常见问题

1. 为什么硬盘会掉线?

SCSI 的通讯采用的是并行总线技术,当SCSI链路中出现冲突,设备故障或通讯干扰,就会造成总线无法释放,在此期间SCSI控制器可能无法正确识别到某些磁盘 的状态,因此会将这些磁盘置为离线状态。SCSI控制器会尝试通过总线的复位来释放总线。SCSI链路中的任何一个设备的故障都会造成SCSI总线通信故 障,它包括下面这些部件:

l SCSI线缆

l 硬盘背板

l 硬盘

l SCSI控制器或RAID卡

l 有缺陷的SCSI设备固件

l SCSI终结器

l EMM卡

2. 为什么诊断工具可以发现硬盘故障,而硬盘本身却没有报警?

硬 盘在工作一段时间后,可能因各种原因会产生一些介质错误,但硬盘厂商对这些介质错误都有设定一个报警阀值,当硬盘的介质错误超过预设的报警阀值,硬盘 firmware将触发报警,并反映到硬盘报警灯,但有时硬盘虽然产生了介质错误,但这些错误并没达到报警预设阀值,所以硬盘报警灯可能会没有提示。

3. 为什么硬盘可以rebuild成功,但却经常掉线?

Rebuilding的操作是一个RAID数据冗余性重新同步的过程,rebuilding成功仅反应出磁盘介质在同步过程中无读写错误。硬盘离线通常跟SCSI总线的稳定性有关(参见问题1)。

4. 什么原因导致Rebuilding失败?

l Double fault:由于多快磁盘故障,导致数据的冗余性丢失。

l 错误的操作:在更换硬盘时,如果该硬盘本身并没有离线,应该使用prepare remove功能通知RAID卡,以便系统更新磁盘状态。否则,系统可能不会接纳更换的硬盘,从而导致不能rebuild,另外,建议热更换故障硬盘。

l 新换磁盘上存在不正确的RAID配置信息(仅针对Apaptec公司的RAID卡)

l 更换的硬盘物理容量比故障硬盘的小或存在介质故障。

l RAID卡故障。

l SCSI总线不稳定。

5. RAIDFirmware有什么作用?

RAID卡的功能都是由firmware决定的,不同版本的firmware会有不同实现方式,高版本的firmware总是提供更多的功能以及修复早期版本的缺陷。

6. 如何维护RAID数据?

定期执行check consistency和启用RAID卡的patrol功能是一个良好的维护习惯。通常磁盘的介质会随着时间的推移出现读写故障。当一个写操作遇到坏块 (RAID卡会将其标记,并存放在RAID卡及磁盘的NVRAM中,如果该表中的值到达预设阀值时,硬盘firmware将触发故障告警),该写操作不能完成,但RAID卡会尝试将该数据写到其它健康的块上。当一个正常的读操作遇到坏块,那么数据是可以通过校验信息重新得到,RAID卡将得到的信息放到一个健康的块上,并将先前的坏块标记出来。有时我们可能会遭遇double fault(即数据存放于多个有坏块的的硬盘上),为了防止这些错误的出现,我们必须进行维护。

7. 什么是consistency check 

一 致性校验是磁盘阵列控制器的一种高级维护功能。它可以预先检查阵列上的数据,以保证它们的一致性,即数据是正确的、没有被破坏。对于有奇偶校验值的阵列 (RAID-5),一致性校验通过数据的奇偶校验,并且和存校验值的盘上的校验值进行比较,确定并纠正数据的一致性。对于镜像盘,一致性校验比较 RAID-1上2块硬盘的数据是否完全一致。不一致的需要进行同步处理。对于剩余空间的磁盘介质consistency check一样会进行读校验。

 

8. 为什么要进行一致性校验?

系 统崩溃、意外断电或者硬盘出现坏道,都可能导致阵列上的数据被破坏或不一致。根据硬盘的原厂家的数据,平均每进行 1,000,000,000,000,000次的比特位(bit)数据传输,就会产生一个不可恢复的数据错误。以36GB硬盘为例,平均每进行3000次 的全盘读操作,就会产生1个错误字节(byte)。如果在阵列不一致的状态时,发生硬盘故障,RAID控制器就无法通过奇偶校验计算出正确的数据,阵列将 无法rebuild成功。

9. 什么是RAID卡的Patrol功能

Patrol功能是基于磁盘介质的,RAID卡firmware会在后台按照设定的计划定期对磁盘介质进行读校验,类似于SCSI卡的verify, 当发现坏块时会对坏块进行标记及搬移。Patrol功能不对RAID数据进行校验。

10. 什么是Media error

Media Error一般是指RAID卡发现的磁盘读写错误。通过这个指标我们可以简单的判断磁盘介质的情况,有media error并不意味者磁盘一定需要更换,因为磁盘的firmware会对坏块进行屏蔽及迁移。但应建议对磁盘进行诊断,依据诊断结果来判断是否需要更换该磁盘。

11. 什么是other error

Other error一般是指RAID发现的SCSI总线通信错误。一般表明SCSI总线中存在硬件设备故障,一般是SCSI线缆,硬盘背板,SCSI终结器等。





本文转自 149banzhang 51CTO博客,原文链接:http://blog.51cto.com/149banzhang/723253,如需转载请自行联系原作者
目录
相关文章
|
前端开发 Java 开发者
LayUI系列(二)之树形菜单的实现
LayUI系列(二)之树形菜单的实现
|
3月前
|
机器学习/深度学习 人工智能 监控
淘宝 API 助力,天猫店铺商品上下架智能管理
在电商竞争激烈的环境下,天猫商家通过淘宝开放平台API实现商品上下架自动化,结合智能算法提升管理效率,优化库存与销售,减少人工错误,提高运营效率与市场竞争力。
167 0
|
9月前
|
人工智能 自然语言处理 安全
2025最新排名|盘点值得推荐的5个在线客服系统
在数字化浪潮下,在线客服系统迅速发展,成为企业提升竞争力的关键。本文推荐五款2025年值得使用的在线客服系统:合力亿捷、淘宝、京东、华为云和中国移动客服系统。它们各自具备全渠道接入、智能问答、数据分析、高稳定性等亮点,助力企业高效服务客户,优化营销策略并提升整体运营效率。
1183 24
|
4月前
|
缓存 人工智能 监控
MCP资源管理深度实践:动态数据源集成方案
作为一名深耕AI技术领域多年的开发者,我见证了从传统API集成到现代化协议标准的演进历程。今天要和大家分享的MCP(Model Context Protocol)资源管理实践,是我在实际项目中积累的宝贵经验。MCP作为Anthropic推出的革命性AI连接标准,其资源管理机制为我们提供了前所未有的灵活性和扩展性。在过去的几个月里,我深度参与了多个企业级MCP项目的架构设计和实施,从最初的概念验证到生产环境的大规模部署,每一个环节都让我对MCP资源管理有了更深刻的理解。本文将从资源生命周期管理的角度出发,详细探讨文件系统、数据库、API等多种数据源的适配策略,深入分析实时数据更新与缓存的最佳实践
181 0
|
8月前
|
Web App开发 编解码 算法
布谷一对一直播源码开发:阿里云视频语音通话社交交友App的必备功能
在当今移动社交领域,一对一视频和语音通话功能已成为用户期待的基础配置。从熟人社交到陌生人交友,从专业咨询到情感陪伴,实时音视频互动能力直接决定了社交App的用户留存和市场竞争力。山东布谷科技将深入探讨一对一直播源码开发高质量一对一视频和语音通话功能的关键要素和技术实现方案。
布谷一对一直播源码开发:阿里云视频语音通话社交交友App的必备功能
|
SQL NoSQL 关系型数据库
Grafana 与数据库连接:最佳实践
【8月更文第29天】Grafana 是一个开源的度量分析和可视化套件,被广泛应用于展示来自各种数据源的时间序列数据。它可以与多种数据库类型连接,从传统的 SQL 数据库到现代的 NoSQL 解决方案。本文将介绍如何通过 Grafana 连接到不同的数据源,并提供一些最佳实践。
1370 3
|
机器学习/深度学习 人工智能 PyTorch
PyTorch快速入门与深度学习模型训练
这篇文章是PyTorch的入门指南,介绍了PyTorch作为深度学习框架的基本概念和使用方法。内容包括PyTorch的背景、基础操作如张量创建、运算、自动微分,以及如何构建和训练简单的全连接神经网络模型进行MNIST手写数字识别。通过这篇文章,读者可以快速了解如何在PyTorch中搭建和训练深度学习模型。
720 4
|
存储 算法 Java
趣味算法:滑动窗口算法的理解与应用
前言 在编程和数据结构中,滑动窗口算法是一种常见的解决问题的方法。它主要用于处理涉及连续或固定长度子数组、子序列或子字符串的问题。本文将深入探讨滑动窗口算法,包括其基本概念、应用场景、基本步骤以及具体的Java代码实践。
921 0
|
缓存 网络协议 Ubuntu
netperf网卡测速ubuntu linux 环境下测硬件网卡速度
netperf网卡测速ubuntu linux 环境下测硬件网卡速度
465 1
|
SQL DataWorks NoSQL
DataWorks常见问题之如何自定义日期参数
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
509 0