通过ADDM嗅到存储硬盘故障

简介:
今天ADDM巡检发现出现问题:Finding  The throughput of the I/O subsystem was significantly lower than expected
该问题从来未出现过,立即引起笔者的警觉,展开 如下 相关项发现多个裸设备同时出现IO异常的告警,而按笔者所在的业务系统,该时段显然未进入一天的业务最高锋,而这个问题是以往哪怕是节前最高峰也从未出现的。马上要求系统工程师确认存储子系统有无问题,答复是“远程管理口未接上”。当天下班后笔者强烈的直觉感觉到可能存在存储异常状况,决定前往IDC机房巡检查看存储系统。到IDC居然发现由于临时太急,存储的钥匙也未带上,后通过存储柜门的小孔透视发现一块磁盘亮黄灯。于是立即向系统工程师反馈这一故障,当然我们的存储由于RAID+HOTSPARE结构,即使坏两块盘也不丢数据
最后分析应该是该块磁盘故障导致IO临时异常,提醒大家,ADDM中观测到大量的裸设备或文件系统异常时一定要关注磁盘有无异常状况。
后续改进措施:要求存储系统接上远程管理口,便于远程检查,以笔者所在机房为例,打车28元,时间至少半个小时以上,如果有远程管理口,这部分时间和金钱显然可以省下来
 
 
  1. Finding  The throughput of the I/O subsystem was significantly lower than expected.  
  2. Impact (minutes)  32.2  
  3. Impact (%)  27.5  
  4.   
  5.  Recommendations  
  6.   
  7.  
  8.   
  9. Show All Details | Hide All Details   
  10.   
  11. Details Category Benefit (%)  
  12. Hide Host Configuration  27.5  
  13. Action  Consider increasing the throughput of the I/O subsystem. Oracle's recommended solution is to stripe all data file using the SAME methodology. You might also need to increase the number of disks for better performance. Alternatively, consider using Oracle's Automatic Storage Management solution.    
  14.   
  15. Rationale  During the analysis period, the average data files' I/O throughput was 898 K per second for reads and 40 K per second for writes. The average response time for single block reads was 19 milliseconds.  
  16.  
  17.   
  18. Hide Host Configuration  24.2  
  19. Action  The performance of file /dev/rgaza_disk was significantly worse than other files. If striping all files using the SAME methodology is not possible, consider striping this file over multiple disks.    
  20.   
  21. Rationale  The average response time for single block reads for this file was 112 milliseconds.  
  22.  
  23.   
  24. Hide Host Configuration  1  
  25. Action  The performance of file /dev/rsystem_disk was significantly worse than other files. If striping all files using the SAME methodology is not possible, consider striping this file over multiple disks.    
  26.   
  27. Rationale  The average response time for single block reads for this file was 206 milliseconds.  
  28.  
  29.   
  30. Hide Host Configuration  0.8  
  31. Action  The performance of file /dev/rdata35_disk was significantly worse than other files. If striping all files using the SAME methodology is not possible, consider striping this file over multiple disks.    
  32.   
  33. Rationale  The average response time for single block reads for this file was 527 milliseconds.  
  34.  
  35.   
  36. Hide Host Configuration  0.6  
  37. Action  The performance of file /dev/rtemp1_disk was significantly worse than other files. If striping all files using the SAME methodology is not possible, consider striping this file over multiple disks.    
  38.   
  39. Rationale  The average response time for single block reads for this file was 34 milliseconds.  
  40.  
  41.   
  42.   
  43.  Findings Path  
  44.   
 

本文转自zylhsy 51CTO博客,原文链接:http://blog.51cto.com/yunlongzheng/933002,如需转载请自行联系原作者
相关文章
|
4天前
|
搜索推荐 编译器 Linux
一个可用于企业开发及通用跨平台的Makefile文件
一款适用于企业级开发的通用跨平台Makefile,支持C/C++混合编译、多目标输出(可执行文件、静态/动态库)、Release/Debug版本管理。配置简洁,仅需修改带`MF_CONFIGURE_`前缀的变量,支持脚本化配置与子Makefile管理,具备完善日志、错误提示和跨平台兼容性,附详细文档与示例,便于学习与集成。
293 116
|
19天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
6天前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。
440 43
Meta SAM3开源:让图像分割,听懂你的话
|
13天前
|
安全 Java Android开发
深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践
崩溃堆栈全是 a.b.c?Native 错误查不到行号?本文详解 Android 崩溃采集全链路原理,教你如何把“天书”变“说明书”。RUM SDK 已支持一键接入。
678 221
|
1天前
|
Windows
dll错误修复 ,可指定下载dll,regsvr32等
dll错误修复 ,可指定下载dll,regsvr32等
132 95
|
11天前
|
人工智能 移动开发 自然语言处理
2025最新HTML静态网页制作工具推荐:10款免费在线生成器小白也能5分钟上手
晓猛团队精选2025年10款真正免费、无需编程的在线HTML建站工具,涵盖AI生成、拖拽编辑、设计稿转代码等多种类型,均支持浏览器直接使用、快速出图与文件导出,特别适合零基础用户快速搭建个人网站、落地页或企业官网。
1673 158
|
存储 人工智能 监控
从代码生成到自主决策:打造一个Coding驱动的“自我编程”Agent
本文介绍了一种基于LLM的“自我编程”Agent系统,通过代码驱动实现复杂逻辑。该Agent以Python为执行引擎,结合Py4j实现Java与Python交互,支持多工具调用、记忆分层与上下文工程,具备感知、认知、表达、自我评估等能力模块,目标是打造可进化的“1.5线”智能助手。
921 61