NVMe 盘故障排查 5 步速查

简介: 通过系统日志、NVMe健康状态、错误日志及Pangu集群摘要等多维度诊断NVMe盘故障,判断是否持续报错、介质损坏或文件系统异常,结合硬件与集群状态精准定位问题,指导及时换盘或观察处理。

🔍 1. 先看系统日志:确认错误是否持续

dmesg | grep nvme9n1 | tail -50

看是否 持续报错(比如每几秒一次 I/O error)。

如果只有 一两次,可能是偶发,不一定真坏。

如果 每隔几秒就蹦出 I/O error → 盘基本正在恶化,必须马上换。

如果 只有孤零零的一两条 → 可能是链路瞬断或机房抖动,先别急着拆盘,继续往下验证。

🔍 2. 用 NVMe 工具查健康状态

sudo smartctl -a /dev/nvme9n1

字段

正常值

说明

Critical Warning

0x00

非 0 就报警

Media and Data Integrity Errors

0

非 0 → 盘已出现不可修复错误

Error Information Log Entries

不增长

持续增加 → 盘正在恶化

Percentage Used

< 100%

≥ 100% → 盘寿命已尽

🔍 3. 查看 NVMe 错误日志

sudo nvme error-log /dev/nvme9n1

看是否有 大量报错错误条数 >100每次查询都在涨 → 盘片/固件/链路至少有一个在持续出错,建议直接踢盘

错误条数 个位数且长期不变 → 可再观察一轮,结合业务压力决定是否换。

🔍 4.  Pangu 集群整体健康

/apsara/deploy/puadmin summ

/apsara/deploy/puadmin summ(= summary)只能看整体看不出哪块盘坏,但能快速告诉你“有没有必要继续挖”

关键栏

数值

含义

Abnormal Chunks

2

只有 2 个 chunk 副本数不足 风险极低

DISK_OK

252 / 252

所有磁盘状态正常没有盘被标 fault

summary 层面看不到设备级细节无法直接确认 nvme9n1 是否涉及那 2 个异常 chunk

252 块盘全部 DISK_OK,说明 Pangu 还没把 nvme9n1 标记为故障

Abnormal Chunks 只有 2 个且 副本数并未归零 → 全局数据安全,今晚可以睡个好觉

DISK_OK 252/252 → 说明 Pangu 还没把这块盘标成 FAULT,但注意:底层硬件报错可能早于集群感知 6~12 小时,所以不能单看这一条就“高枕无忧”。

🔍 5. 检查文件系统是否只读或掉盘

lsblk | grep nvme9n1
mount | grep nvme9n1

如果盘已掉线lsblk 看不到),或文件系统变只读,说明盘已不可恢复

lsblk 里消失 → 内核已失联,盘大概率掉线,不用再犹豫了,直接走换盘流程

mount 状态出现 ro, (read-only) → 内核主动保护,说明 FS 层已不信任该盘,业务写入会挂,必须立即隔离

目录
相关文章
|
开发框架 前端开发 .NET
C#编程与Web开发
【4月更文挑战第21天】本文探讨了C#在Web开发中的应用,包括使用ASP.NET框架、MVC模式、Web API和Entity Framework。C#作为.NET框架的主要语言,结合这些工具,能创建动态、高效的Web应用。实际案例涉及企业级应用、电子商务和社交媒体平台。尽管面临竞争和挑战,但C#在Web开发领域的前景将持续拓展。
600 3
|
前端开发 开发工具
前端基础 - 网页调试工具NetWork
前端基础 - 网页调试工具NetWork
348 0
前端基础 - 网页调试工具NetWork
|
存储 缓存 Oracle
Oracle JDBC 驱动程序
开始使用 Oracle JDBC 驱动程序 (Doc ID 1602866.1
2741 0
|
6月前
|
安全 网络安全 开发工具
CUPP针对性字典安全防范
CUPP(Common User Passwords Profiler)是一款基于社会工程学与心理学原理的密码分析工具,通过收集目标个人信息(如姓名、生日、宠物名、爱好等),智能生成高命中率的密码字典。相比传统暴力破解工具,CUPP 能实现“精准推测”,大幅提升破解效率,适用于渗透测试,但需遵循道德规范使用。
112 0
|
8月前
|
存储 缓存 资源调度
# Qwen3-8B 与 ChatGPT-4o Mini 的 TTFT 性能对比与底层原理详解
Qwen3-8B 是通义实验室推出的80亿参数模型,支持32K上下文,采用FP8量化和CUDA优化,提升推理效率;ChatGPT-4o Mini 为OpenAI轻量模型,参数约3.8B,支持128K上下文,通过蒸馏技术实现低延迟。两者在TTFT、长文本处理和部署优化上各有优势,适用于不同应用场景。
1424 9
|
机器学习/深度学习 存储 人工智能
什么是 ERP?
企业资源计划(ERP,全称Enterprise Resource Planning)是一种集成化的管理软件系统,旨在通过信息技术手段整合企业的各个业务流程和资源管理,从而提高企业的运营效率和管理水平。ERP系统涵盖了财务、物流、人力资源、生产管理等多个核心模块,帮助企业实现资源的优化配置和业务流程的自动化。 ERP与财务管理的区别
783 5
|
Linux 网络安全 数据安全/隐私保护
配置ssh免密登录
配置ssh免密登录
751 106
|
负载均衡 Cloud Native 容灾
阿里云负载均衡SLB价格_ALB、NLB和CLB区别_负载均衡功能和使用场景说明
阿里云负载均衡SLB分为应用型ALB、网络型NLB及传统型CLB。ALB与NLB仅支持按量付费,而CLB则提供包年包月和按量付费选项。ALB专长于7层HTTP/HTTPS/QUIC协议处理,支持丰富的内容路由功能;NLB聚焦于4层TCP/UDP/TCPSSL协议,擅长处理大规模并发连接。两者均基于NFV技术,支持自动弹性伸缩,并与云原生环境如ACK/SAE/K8S深度集成。此外,SLB提供多协议支持、多级容灾、安全防护等功能,确保服务的高可用性和安全性。具体收费方面,ALB的基础版实例费为0.049元/小时起,NLB实例费限时免费,两者还需支付性能容量单位LCU费及公网网络费(仅公网实例)
|
存储 人工智能 安全
从梦想到现实:十年见证AI自动化漏洞修复的演变
2014年,我怀揣着利用科技创造更安全数字世界的梦想,提出了通过云平台自动化修复第三方网站漏洞的构想。十年后的2024年,随着AI技术的崛起,这一梦想已成为现实。如今,用户只需简单注册并安装插件,AI系统就能自动检测、修复漏洞,整个过程高效、智能。AI不仅提升了系统的可靠性和效率,还具备自我学习能力,使安全防护更加主动。未来,我将继续用AI探索更多可能,推动技术的发展,不断完善这个充满智慧与安全的数字世界。
373 3
从梦想到现实:十年见证AI自动化漏洞修复的演变
|
安全 Linux
在Linux中,suid、sgid和sticky bit这几个术语意思?
在Linux中,suid、sgid和sticky bit这几个术语意思?