通过ADDM嗅到存储硬盘故障

简介:
今天ADDM巡检发现出现问题:Finding  The throughput of the I/O subsystem was significantly lower than expected
该问题从来未出现过,立即引起笔者的警觉,展开 如下 相关项发现多个裸设备同时出现IO异常的告警,而按笔者所在的业务系统,该时段显然未进入一天的业务最高锋,而这个问题是以往哪怕是节前最高峰也从未出现的。马上要求系统工程师确认存储子系统有无问题,答复是“远程管理口未接上”。当天下班后笔者强烈的直觉感觉到可能存在存储异常状况,决定前往IDC机房巡检查看存储系统。到IDC居然发现由于临时太急,存储的钥匙也未带上,后通过存储柜门的小孔透视发现一块磁盘亮黄灯。于是立即向系统工程师反馈这一故障,当然我们的存储由于RAID+HOTSPARE结构,即使坏两块盘也不丢数据
最后分析应该是该块磁盘故障导致IO临时异常,提醒大家,ADDM中观测到大量的裸设备或文件系统异常时一定要关注磁盘有无异常状况。
后续改进措施:要求存储系统接上远程管理口,便于远程检查,以笔者所在机房为例,打车28元,时间至少半个小时以上,如果有远程管理口,这部分时间和金钱显然可以省下来
 
 
  1. Finding  The throughput of the I/O subsystem was significantly lower than expected.  
  2. Impact (minutes)  32.2  
  3. Impact (%)  27.5  
  4.   
  5.  Recommendations  
  6.   
  7.  
  8.   
  9. Show All Details | Hide All Details   
  10.   
  11. Details Category Benefit (%)  
  12. Hide Host Configuration  27.5  
  13. Action  Consider increasing the throughput of the I/O subsystem. Oracle's recommended solution is to stripe all data file using the SAME methodology. You might also need to increase the number of disks for better performance. Alternatively, consider using Oracle's Automatic Storage Management solution.    
  14.   
  15. Rationale  During the analysis period, the average data files' I/O throughput was 898 K per second for reads and 40 K per second for writes. The average response time for single block reads was 19 milliseconds.  
  16.  
  17.   
  18. Hide Host Configuration  24.2  
  19. Action  The performance of file /dev/rgaza_disk was significantly worse than other files. If striping all files using the SAME methodology is not possible, consider striping this file over multiple disks.    
  20.   
  21. Rationale  The average response time for single block reads for this file was 112 milliseconds.  
  22.  
  23.   
  24. Hide Host Configuration  1  
  25. Action  The performance of file /dev/rsystem_disk was significantly worse than other files. If striping all files using the SAME methodology is not possible, consider striping this file over multiple disks.    
  26.   
  27. Rationale  The average response time for single block reads for this file was 206 milliseconds.  
  28.  
  29.   
  30. Hide Host Configuration  0.8  
  31. Action  The performance of file /dev/rdata35_disk was significantly worse than other files. If striping all files using the SAME methodology is not possible, consider striping this file over multiple disks.    
  32.   
  33. Rationale  The average response time for single block reads for this file was 527 milliseconds.  
  34.  
  35.   
  36. Hide Host Configuration  0.6  
  37. Action  The performance of file /dev/rtemp1_disk was significantly worse than other files. If striping all files using the SAME methodology is not possible, consider striping this file over multiple disks.    
  38.   
  39. Rationale  The average response time for single block reads for this file was 34 milliseconds.  
  40.  
  41.   
  42.   
  43.  Findings Path  
  44.   
 

本文转自zylhsy 51CTO博客,原文链接:http://blog.51cto.com/yunlongzheng/933002,如需转载请自行联系原作者
相关文章
|
3月前
|
存储 关系型数据库 MySQL
【服务器数据恢复】同友存储数raid5崩溃的据恢复案例
服务器数据恢复环境: 一台同友存储,存储上有一组raid5磁盘阵列,存储上层有若干台虚拟机,其中有3台linux操作系统虚拟机上存放重要数据。 服务器故障: 同友存储上的raid5阵列崩溃导致存储无法启动。
【服务器数据恢复】同友存储数raid5崩溃的据恢复案例
|
9天前
|
存储 Oracle 数据挖掘
服务器数据恢复—raid5多块磁盘离线导致阵列崩溃的数据恢复案例
服务器数据恢复环境&故障情况: 某企业光纤存储上有一组由16块硬盘组建的raid5阵列。管理员发现该光纤存储上的卷无法挂载,经过检查发现raid5阵列中有2块硬盘离线,于是联系我们数据恢复中心要求数据恢复工程师到现场恢复服务器存储上的数据。
|
1月前
|
存储 算法 数据库
【服务器数据恢复】raid5多块硬盘离线导致昆腾存储崩溃的数据恢复案例
10个磁盘柜,每个磁盘柜配24块硬盘。9个磁盘柜用于存储数据,1个磁盘柜用于存储元数据。 元数据存储中24块硬盘,组建了9组RAID1阵列+1组RAID10阵列,4个全局热备硬盘。 数据存储中,组建了36组6硬RAID5,36组RAID5阵列划分为2个存储系统。其中1个存储系统中的一组RAID5中有2块硬盘先后出现故障离线,RAID5阵列不可用,存储系统崩溃。
【服务器数据恢复】raid5多块硬盘离线导致昆腾存储崩溃的数据恢复案例
|
5月前
|
存储 Linux 数据库
服务器数据恢复—IBM存储raid5多盘损坏导致阵列崩溃的数据恢复案例
服务器数据恢复环境: IBM某型号存储,6块sas硬盘组建一组raid5,划分一个lun分配给Linux服务器并格式化为OCFS2文件系统,共享给虚拟化使用,存放的数据包括24台liunx和windows虚拟机、压缩包文件和配置文件。 服务器故障: raid5阵列中成员盘坏了多块,阵列失效,数据丢失。
服务器数据恢复—IBM存储raid5多盘损坏导致阵列崩溃的数据恢复案例
|
存储 算法 Windows
存储数据恢复方法_infortrend ESDS RAID6故障导致数据丢失恢复方案书
[用户单位]XXX影音制作公司 [数据恢复故障描述] 一台infortrend ESDS-S12F-G1440存储,内接12块2TB硬盘组成RAID6,整个RAID6的所有空间划分给一个LUN,映射到WINDOWS系统上。
1391 0