关注物理硬盘预警信息

简介:

有一次在做MySQL数据库更新时,发现DML更新效率特别低,总能发现超过1秒的慢日志,一般很少会出现这种情况,初步判定为可能网络故障或者就是DB服务器自身的性能出现问题导致。

经过检查服务器状况,发现确实发生了硬件故障,主要是raid 10中的一块硬盘发生预警,信息如下:

Physical Disk: 1
Enclosure Device ID: 32
Slot Number: 3
Device Id: 3
Sequence Number: 2Media Error Count: 650Other Error Count: 73Predictive Failure Count: 71Last Predictive Failure Event Seq Number: 6716
Raw Size: 140014MB [0x11177328 Sectors]
Non Coerced Size: 139502MB [0x11077328 Sectors]
Coerced Size: 139392MB [0x11040000 Sectors]
Firmware state: Online
SAS Address(0): 0x500000e11079e682
SAS Address(1): 0x0
Connected Port Number: 3(path0) 
Inquiry Data: FUJITSU MBA3147RC       D306BLB5P9500H4M

大家注意下上面的信息,硬盘的状态还是 Online,并没有报错,但是另外2个 Error Count值从凌晨开始一直在较快速度增长。
再观察服务器的sar日志,发现从5点发起例行DB备份时,服务器的IO性能急剧下降,因此认定:
停服时存盘速度慢确实和一块硬盘发生预警有关系

由于发起DB备份,需要瞬间读取大量数据,因此需要扫描全部raid阵列中的硬盘,但其中一块盘的状态并没有标记为Failed或Offline,
因此raid阵列还是会去扫描它,导致IO性能特别差。这时候,如果我们把硬盘状态修改成Offline应该就可以避免这种问题,并且不会对raid 10产生丢数据的风险。

碰到类似现象需要谨慎,尽快安排更换备盘,防止问题扩大化。


本文转自叶金荣51CTO博客,原文链接:http://blog.51cto.com/imysql/1879740,如需转载请自行联系原作者

相关文章
|
7月前
netapp fas2220更换硬盘的记录
netapp fas2220更换硬盘的记录
37 0
|
6月前
|
存储 监控 数据挖掘
服务器数据恢复—raid5阵列两块硬盘离线后强制上线导致崩溃的数据恢复案例
服务器数据恢复环境: 某品牌2850服务器中有一组由6块SCSI硬盘组建的raid5磁盘阵列,linux操作系统+ext3文件系统。 服务器故障: 服务器运行过程中突然瘫痪。服务器管理员检查阵列后发现raid5阵列中有两块硬盘离线,将其中一块硬盘进行强制上线操作,但是服务器操作系统启动异常。这时,管理员意识到问题的严重性,马上将服务器关机,联系到我们数据恢复中心寻求帮助。
|
7月前
|
弹性计算 监控 Shell
批量主机磁盘利用率监控
【4月更文挑战第30天】
41 0
|
7月前
|
存储 弹性计算 运维
磁盘使用分析
【4月更文挑战第30天】
52 0
|
存储 容灾
百度搜索:蓝易云【RAID0、RAID1、RAID5、RAID10特点是什么?所需的硬盘数量分别为多少?容灾级别如何?】
需要注意的是,以上硬盘数量是最低要求,实际应用中可以使用更多硬盘来进一步增加性能和容灾能力。此外,RAID的性能和容灾级别还受到控制器、硬盘类型和配置参数等因素的影响。
463 0
物理服务器多块硬盘故障
物理服务器多块硬盘故障
85 0
|
监控
smartctl定位磁盘故障信息
​ Smartctl(S.M.A.R.T 自监控,分析和报告技术)是用于查看和检测磁盘硬件信息的工具,可以打印SMART自检和错误日志,启用并禁用SMRAT自动检测,以及初始化设备自检。服务器环境中,一般磁盘都是通过RAID卡挂载,如果配置了直通模式,则可以直接使用smartctl查询磁盘信息,如果非直通模式则需要调用raid卡对应接口才可以查询
21183 2
|
监控
常用PC服务器阵列卡、硬盘健康监控
常用PC服务器阵列卡、硬盘健康监控
583 0
|
Web App开发 测试技术 Linux
下一篇
DataWorks