Backblaze发布2022 Q3 硬盘故障质量报告

简介: 随着Q3质量报告的发布,我们继续解读质量报告,重点关注Q3质量的表现,以及SSD的故障率是否出现较大的波动,特别是在NAND寿命磨穿以后,会不会有故障飙升。

在9月份,我们更新了Backblaze 2022上半年的中期质量报告解读,基于报告中的分析数据,Backblaze也向外界传递作证了一个信息:固态硬盘SSD的长期可靠性比机械硬盘HDD要高。

随着Q3质量报告的发布,我们继续解读质量报告,重点关注Q3质量的表现,以及SSD的故障率是否出现较大的波动,特别是在NAND寿命磨穿以后,会不会有故障飙升。

截止2022 Q3季度末,Backblaze监控的硬盘(SSD/HDD)数量超过22万片,其中4.2K是系统启动盘,包括2.7Kpcs SSD和1.4Kpcs HDD。总量22万pcs硬盘分为29个型号model。上个季度Q2的型号是27个,Q3新增2个型号:Seagate 8TB型号:ST8000NM000A和Seagate 16TB 型号: ST16000NM002J。涉及的29个型号,来自3个厂商:主要分布:

  • HGST+WDC西数:HGST,7个型号;WDC,3个型号
  • Seagate希捷:13个型号
  • Toshiba东芝:6个型号

东芝和WD西数的型号是从2020年开始逐年增加。目前还是希捷盘的数量最多。

下图是Backblaze从2022/7/1到2022/9/30之间的第三季度Q3故障率数据表现。从Q3季度的29个型号的质量数据中,我们可以发现几点信息:

  • Q3有三个型号的盘故障率为0,分别是HUH728080ALE604、ST8000NM000A、WUH721816ALE6L0。其中只有WUH721816ALE6L0达到了AFR评估的标准“为了故障率AFR数据更加合理,盘的数量尽量会超过100pcs,故障率评估集群中盘运行时间也要超过10000 盘*天”
  • 有另外三个型号上电时间最长,希捷的一款4T和6T,和东芝的一块4T盘,故障率已经逐步攀升,看到了随着运行时间增长发生老化的迹象。其中,东芝8.25%的高AFR也跟数量只有95个有关,即使故障2个,故障率也飙升了。对这3块盘来说,经过七年左右的持续旋转,他们的主轴、驱动器、磁头、碟片介质等出现开始磨损和老化问题。

  • 2022年第三季度整体AFR为1.64%,比2022年的Q2 AFR=1.46%要高,同时比2021年Q3 AFR=1.1%也增长不少。这里面主要可能第二点说的长时间运行导致的老化有关,Blackblaze表示后续会更换新盘,预计后续的AFR故障率也会出现下降。


基于硬盘故障率和硬盘成本,Backblaze还抛出一个问题:“在故障率表现和购买成本之间,哪种情况,终身使用累计成本最高?”

  • 上图中,有3个型号的14TB HDD,分别为Model 1、Model 2、Model 3.
  • 终身累计成本:除了最初购买的盘的成本,后续故障后更换故障盘的成本(这里面盘本身成本可能由于存在质保期内的RMA而是0,还包括维修更换的成本)。
  • 三个型号的购买成本分别是225美元、250美元、275美元,每个型号购买5000pcs。
  • 三个型号的根据故障率表现,每年维修更换的数量75、50、25,对应每年维修人力成本分别是22500美元、15000美元、7500美元。后续服役时间5年。
  • 在三个型号当前故障率表现AFR分别1.5%、1%、0.5%的情况下,终身累计成本分别是123万美元、132万美元、141万美元。Model 3的终身累计成本最高。
  • 根据上面的计算模型,我们也会发现,当Model 1 AFR=2.67% 时,Model 1和Model 2会有相同终身累计成本132万美元。当Model 1 AFR=3.83% 时,Model 1和Model 3会有相同终身累计成本141万美元。故障率的上升会增加硬盘的终身累计成本。硬盘的故障率会一个浴盆曲线,在核算终身累计成本也需要考虑故障率的变化。

下图是Backblaze从2013/4/20到2022/9/30之间的历史累计的生命周期故障率数据表现。生命周期的故障率AFR当前是1.41%,比上个季度的1.39%略高,这也说明Q3的质量表现不太乐观。但是比2021年Q3的生命周期的故障率AFR 1.45%要低。说明2022年整体故障率表现略好。

下图中是生命周期故障率AFR小于1%的型号列表。主要集中在12TB、14TB、16TB盘。其中,西数盘型号为WUH721816ALE6L0的16T盘,质量表现最好,AFR在0.11%。

相关文章
|
安全 Unix Linux
操作系统紧急故障修复常见有效方案
操作系统是计算机系统的核心软件之一,如果操作系统出现了紧急故障,将会引起系统的宕机,严重影响业务系统的可用性。因此,对操作系统的紧急故障进行修复是必不可少的。本文将介绍操作系统紧急故障的常见有效方案。
254 1
|
运维 监控 Shell
磁盘占用高生产故障复盘总结
磁盘占用高生产故障复盘总结
307 0
|
存储 JSON 运维
Facebook 工程经验 --PCIe 故障监控和修复
Facebook 工程经验 --PCIe 故障监控和修复
311 1
Facebook 工程经验 --PCIe 故障监控和修复
|
监控 容灾 安全
系统总出故障怎么办?
系统总出故障怎么办?
105 0
|
数据采集 缓存 固态存储
Backblaze发布2022中期SSD故障数据质量报告
作为一家在2021年在美国纳斯达克上市的云端备份公司,Backblaze一直保持着对外定期发布HDD和SSD的故障率稳定性质量报告,给大家提供了一份真实应用场景下的稳定性分析参考数据。
|
安全 Windows
计算机系统更新出现你的设备中缺少重要的安全和质量修复
计算机系统更新出现你的设备中缺少重要的安全和质量修复
597 1
计算机系统更新出现你的设备中缺少重要的安全和质量修复
|
6月前
|
运维 监控 Java
线上故障突突突?如何紧急诊断、排查与恢复
本文简单介绍了阿里云上关于故障恢复、诊断的一些最佳实践。
线上故障突突突?如何紧急诊断、排查与恢复
|
Java Linux
线上故障快速定位及恢复(上)
线上故障快速定位及恢复(上)
227 0
线上故障快速定位及恢复(上)
|
运维 Java
线上故障快速定位及恢复(下)
线上故障快速定位及恢复(下)
187 0
线上故障快速定位及恢复(下)
|
运维 数据库
故障定位方法-磁盘故障定位手段
常见的磁盘故障是磁盘空间不足、磁盘出现坏块、磁盘未挂载等。 磁盘故障有的会导致文件系统损坏,比如磁盘未挂载,集群管理自动定期做磁盘检测时会识别故障并将实例停止,查看集群状态时对应实例状态异常;有的不会导致文件系统损坏,比如磁盘空间不足,集群管理无法检测到,服务进程访问到故障磁盘会异常退出,比如:数据库无法启动、checksum校验不对、页面读写失败、页面校验错误等。 对于会导致文件系统损坏的故障,查看集群状态会显示对应实例状态持续为Unknown,定位方法如下: 查看cm_agent日志,日志保存在mpp/omm/cm/cm_agent,日志中会有类似“data path disc wri
388 0