smartctl定位磁盘故障信息

简介: ​ Smartctl(S.M.A.R.T 自监控,分析和报告技术)是用于查看和检测磁盘硬件信息的工具,可以打印SMART自检和错误日志,启用并禁用SMRAT自动检测,以及初始化设备自检。服务器环境中,一般磁盘都是通过RAID卡挂载,如果配置了直通模式,则可以直接使用smartctl查询磁盘信息,如果非直通模式则需要调用raid卡对应接口才可以查询

smartctl定位磁盘故障信息

Smartctl(S.M.A.R.T 自监控,分析和报告技术)是用于查看和检测磁盘硬件信息的工具,可以打印SMART自检错误日志,启用并禁用SMRAT自动检测,以及初始化设备自检。服务器环境中,一般磁盘都是通过RAID卡挂载,如果配置了直通模式,则可以直接使用smartctl查询磁盘信息,如果非直通模式则需要调用raid卡对应接口才可以查询。

smartctl插叙非直通模式磁盘信息

  • smartctl --scan 列出磁盘的名称,类型以及接口信息.
  • smartctl -H -d megaraid,8 /dev/bus/0 根据--scan查询信息,通过raid卡的型号,获取磁盘信息,不同的raid卡,获取方式不一致.
[root@centos ~]# smartctl --scan
/dev/sda -d scsi # /dev/sda, SCSI device
/dev/sdb -d scsi # /dev/sdb, SCSI device
/dev/sdc -d scsi # /dev/sdc, SCSI device
/dev/sdd -d scsi # /dev/sdd, SCSI device
/dev/sde -d scsi # /dev/sde, SCSI device
/dev/sdf -d scsi # /dev/sdf, SCSI device
/dev/sdg -d scsi # /dev/sdg, SCSI device
/dev/bus/0 -d megaraid,1 # /dev/bus/0 [megaraid_disk_01], SCSI device
/dev/bus/0 -d megaraid,2 # /dev/bus/0 [megaraid_disk_02], SCSI device
/dev/bus/0 -d megaraid,3 # /dev/bus/0 [megaraid_disk_03], SCSI device
/dev/bus/0 -d megaraid,4 # /dev/bus/0 [megaraid_disk_04], SCSI device
/dev/bus/0 -d megaraid,5 # /dev/bus/0 [megaraid_disk_05], SCSI device
/dev/bus/0 -d megaraid,6 # /dev/bus/0 [megaraid_disk_06], SCSI device
/dev/bus/0 -d megaraid,7 # /dev/bus/0 [megaraid_disk_07], SCSI device
/dev/bus/0 -d megaraid,8 # /dev/bus/0 [megaraid_disk_08], SCSI device

# smartctl -H -d megaraid,8 /dev/bus/0
smartctl 7.0 2018-12-30 r4883 [x86_64-linux-3.10.0-1160.36.2.el7.x86_64] (local build)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

smartctl检测磁盘错误信息

  • 磁盘被检测出故障,这时磁盘是可用状态,只不过有部分磁道出现问题,会导致IO降低,波动严重
[root@centos ~]# smartctl -H -d -d megaraid,37 /dev/bus/15
smartctl 7.0 2018-12-30 r4883 [x86_64-linux-3.10.0-1127.el7.x86_64] (local build)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
Failed Attributes:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   001   001   016    Pre-fail  Always   FAILING_NOW 4294967295
  2 Throughput_Performance  0x0005   001   001   054    Pre-fail  Offline  FAILING_NOW 18967

smartctl关闭磁盘cache

  • SATA盘磁盘cache默认是开启,SAS盘磁盘cache默认为关闭状态;当磁盘cache开启时,如果出现掉电和强制开关机,这会出现数据丢失现象,导致系统启动失败
for i in `seq 9 26`;do smartctl -g wcache -d megaraid,${i} /dev/bus/0;done

#关闭raid盘cache
for i in `seq 0 10`; do /opt/MegaRAID/storcli/storcli64 /c0/v${i} set pdcache=Off;done
for i in `seq 0 10`; do /opt/MegaRAID/storcli/storcli64 /c0/v${i} set wrcache=WT;done

#查看raid cache状态,Cache选项为raid卡cache,WT为关闭,WB为开启,AWB为总是开启
/opt/MegaRAID/storcli/storcli64 /c0 show
---------------------------------------------------------------
DG/VD TYPE  State Access Consist Cache Cac sCC       Size Name
---------------------------------------------------------------
1/0   RAID0 Optl  RW     Yes     RWTD  -   ON    1.090 TB
2/1   RAID0 Optl  RW     Yes     RWTD  -   ON    1.090 TB
0/2   RAID1 Optl  RW     Yes     RWTD  -   ON  446.625 GB
3/3   RAID0 Optl  RW     Yes     RWTD  -   ON    1.090 TB
4/4   RAID0 Optl  RW     Yes     RWTD  -   ON    1.090 TB
5/5   RAID0 Optl  RW     Yes     RWTD  -   ON    1.090 TB
6/6   RAID0 Optl  RW     Yes     RWTD  -   ON    1.090 TB
7/7   RAID0 Optl  RW     Yes     RWTD  -   ON    1.090 TB
8/8   RAID0 Optl  RW     Yes     RWTD  -   ON    1.090 TB
9/9   RAID0 Optl  RW     Yes     RWTD  -   ON    1.090 TB
10/10 RAID0 Optl  RW     Yes     RWTD  -   ON    1.090 TB
---------------------------------------------------------------

服务器点灯

  • ipmitool chassis identify 30 打开服务器定位灯,默认为15s,可以设置为需要的的时间30s
ipmitool chassis identify 30

磁盘点灯

#获取raid卡设备/dev/sg0
[root@centos-211 ~]# lsscsi -gt
[0:0:0:0]    enclosu                                 -          /dev/sg0
[0:0:3:0]    disk                                    /dev/sda   /dev/sg1
[0:0:4:0]    disk                                    /dev/sdb   /dev/sg2
[0:0:5:0]    disk                                    /dev/sdc   /dev/sg3
[0:0:6:0]    disk                                    /dev/sdd   /dev/sg4
[0:0:7:0]    disk                                    /dev/sde   /dev/sg5
[0:0:8:0]    disk                                    /dev/sdf   /dev/sg6
[0:0:9:0]    disk                                    /dev/sdg   /dev/sg7
[0:0:10:0]   disk                                    /dev/sdh   /dev/sg8
[0:0:11:0]   disk                                    /dev/sdi   /dev/sg9
[0:0:12:0]   disk                                    /dev/sdj   /dev/sg10
[0:0:13:0]   disk                                    /dev/sdk   /dev/sg11
[0:0:14:0]   disk                                    /dev/sdl   /dev/sg12
[0:2:0:0]    disk                                    /dev/sdm   /dev/sg13

#获取raid卡enclosu
sg_ses --index=1 --get ident /dev/sg24

#点亮磁盘灯
sg_ses --index=1 --set ident /dev/sg24

#查看支持选项
sg_ses -ee
相关文章
|
6月前
|
Linux Perl
Linux 系统快速分析日志定位故障原因的 10 个方法
在 Linux 系统中,日志是一种非常重要的资源。系统管理员可以通过日志记录的内容来检测系统的运行状况,分析问题,做出相应的调整和优化。由于日志文件数量庞大,内容复杂,因此需要使用一些工具和技术帮助管理员进行快速分析和查找。 本文将介绍 Linux 系统中快速分析日志、定位故障的 10 个方法。
1013 1
|
3月前
|
存储 关系型数据库 MySQL
【服务器数据恢复】同友存储数raid5崩溃的据恢复案例
服务器数据恢复环境: 一台同友存储,存储上有一组raid5磁盘阵列,存储上层有若干台虚拟机,其中有3台linux操作系统虚拟机上存放重要数据。 服务器故障: 同友存储上的raid5阵列崩溃导致存储无法启动。
【服务器数据恢复】同友存储数raid5崩溃的据恢复案例
|
1月前
|
存储 数据挖掘 Windows
服务器数据恢复—异常断电导致raid信息丢失的数据恢复案例
由于机房多次断电导致一台服务器中raid阵列信息丢失。该阵列中存放的是文档,上层安装的是Windows server操作系统,没有配置ups。 因为服务器异常断电重启后,raid阵列可以正常使用,所以未引起管理员的注意。后续出现的多次异常断电导致raid报错,服务器无法找到存储设备,进入raid管理模块进行任何操作都会导致操作系统死机。管理员尝试多次重启服务器,故障依旧。
|
3月前
|
数据挖掘 数据库 Windows
【服务器数据恢复】服务器raid5崩溃导致上层分区无法访问的数据恢复案例
服务器数据恢复环境: 北京某教育机构一台服务器中有一组由3块磁盘组建的raid5阵列,服务器安装的windows server操作系统。 服务器故障: 该服务器在运行过程中突然瘫痪,无法正常工作。北亚企安数据恢复工程师去现场对故障服务器进行了检测,发现故障服务器raid5阵列中有一块硬盘由于未知原因离线,服务器中存放重要数据的分区无法识别。
|
4月前
计算机故障的分类、故障分析与排除
计算机故障的分类、故障分析与排除。
25 0
|
运维 Java
线上故障快速定位及恢复(下)
线上故障快速定位及恢复(下)
156 0
线上故障快速定位及恢复(下)
|
Java Linux
线上故障快速定位及恢复(上)
线上故障快速定位及恢复(上)
188 0
线上故障快速定位及恢复(上)
内燃机车列车运行监控记录装置优化
我国内燃机车均已经加装了LKJ-93型列车运行监控记录装置,LKJ-93型列车运行监控记录装置的拥有量占比67%,是我国钢铁企业铁路运输自动化设备的重要组成部分。