Backblaze发布2022 Q3 硬盘故障质量报告

简介: 随着Q3质量报告的发布,我们继续解读质量报告,重点关注Q3质量的表现,以及SSD的故障率是否出现较大的波动,特别是在NAND寿命磨穿以后,会不会有故障飙升。

在9月份,我们更新了Backblaze 2022上半年的中期质量报告解读,基于报告中的分析数据,Backblaze也向外界传递作证了一个信息:固态硬盘SSD的长期可靠性比机械硬盘HDD要高。

随着Q3质量报告的发布,我们继续解读质量报告,重点关注Q3质量的表现,以及SSD的故障率是否出现较大的波动,特别是在NAND寿命磨穿以后,会不会有故障飙升。

截止2022 Q3季度末,Backblaze监控的硬盘(SSD/HDD)数量超过22万片,其中4.2K是系统启动盘,包括2.7Kpcs SSD和1.4Kpcs HDD。总量22万pcs硬盘分为29个型号model。上个季度Q2的型号是27个,Q3新增2个型号:Seagate 8TB型号:ST8000NM000A和Seagate 16TB 型号: ST16000NM002J。涉及的29个型号,来自3个厂商:主要分布:

  • HGST+WDC西数:HGST,7个型号;WDC,3个型号
  • Seagate希捷:13个型号
  • Toshiba东芝:6个型号

东芝和WD西数的型号是从2020年开始逐年增加。目前还是希捷盘的数量最多。

下图是Backblaze从2022/7/1到2022/9/30之间的第三季度Q3故障率数据表现。从Q3季度的29个型号的质量数据中,我们可以发现几点信息:

  • Q3有三个型号的盘故障率为0,分别是HUH728080ALE604、ST8000NM000A、WUH721816ALE6L0。其中只有WUH721816ALE6L0达到了AFR评估的标准“为了故障率AFR数据更加合理,盘的数量尽量会超过100pcs,故障率评估集群中盘运行时间也要超过10000 盘*天”
  • 有另外三个型号上电时间最长,希捷的一款4T和6T,和东芝的一块4T盘,故障率已经逐步攀升,看到了随着运行时间增长发生老化的迹象。其中,东芝8.25%的高AFR也跟数量只有95个有关,即使故障2个,故障率也飙升了。对这3块盘来说,经过七年左右的持续旋转,他们的主轴、驱动器、磁头、碟片介质等出现开始磨损和老化问题。

  • 2022年第三季度整体AFR为1.64%,比2022年的Q2 AFR=1.46%要高,同时比2021年Q3 AFR=1.1%也增长不少。这里面主要可能第二点说的长时间运行导致的老化有关,Blackblaze表示后续会更换新盘,预计后续的AFR故障率也会出现下降。


基于硬盘故障率和硬盘成本,Backblaze还抛出一个问题:“在故障率表现和购买成本之间,哪种情况,终身使用累计成本最高?”

  • 上图中,有3个型号的14TB HDD,分别为Model 1、Model 2、Model 3.
  • 终身累计成本:除了最初购买的盘的成本,后续故障后更换故障盘的成本(这里面盘本身成本可能由于存在质保期内的RMA而是0,还包括维修更换的成本)。
  • 三个型号的购买成本分别是225美元、250美元、275美元,每个型号购买5000pcs。
  • 三个型号的根据故障率表现,每年维修更换的数量75、50、25,对应每年维修人力成本分别是22500美元、15000美元、7500美元。后续服役时间5年。
  • 在三个型号当前故障率表现AFR分别1.5%、1%、0.5%的情况下,终身累计成本分别是123万美元、132万美元、141万美元。Model 3的终身累计成本最高。
  • 根据上面的计算模型,我们也会发现,当Model 1 AFR=2.67% 时,Model 1和Model 2会有相同终身累计成本132万美元。当Model 1 AFR=3.83% 时,Model 1和Model 3会有相同终身累计成本141万美元。故障率的上升会增加硬盘的终身累计成本。硬盘的故障率会一个浴盆曲线,在核算终身累计成本也需要考虑故障率的变化。

下图是Backblaze从2013/4/20到2022/9/30之间的历史累计的生命周期故障率数据表现。生命周期的故障率AFR当前是1.41%,比上个季度的1.39%略高,这也说明Q3的质量表现不太乐观。但是比2021年Q3的生命周期的故障率AFR 1.45%要低。说明2022年整体故障率表现略好。

下图中是生命周期故障率AFR小于1%的型号列表。主要集中在12TB、14TB、16TB盘。其中,西数盘型号为WUH721816ALE6L0的16T盘,质量表现最好,AFR在0.11%。

相关文章
|
7月前
|
安全 Unix Linux
操作系统紧急故障修复常见有效方案
操作系统是计算机系统的核心软件之一,如果操作系统出现了紧急故障,将会引起系统的宕机,严重影响业务系统的可用性。因此,对操作系统的紧急故障进行修复是必不可少的。本文将介绍操作系统紧急故障的常见有效方案。
110 1
|
11月前
|
运维 监控 Shell
磁盘占用高生产故障复盘总结
磁盘占用高生产故障复盘总结
191 0
|
存储 JSON 运维
Facebook 工程经验 --PCIe 故障监控和修复
Facebook 工程经验 --PCIe 故障监控和修复
238 1
Facebook 工程经验 --PCIe 故障监控和修复
|
数据采集 缓存 固态存储
Backblaze发布2022中期SSD故障数据质量报告
作为一家在2021年在美国纳斯达克上市的云端备份公司,Backblaze一直保持着对外定期发布HDD和SSD的故障率稳定性质量报告,给大家提供了一份真实应用场景下的稳定性分析参考数据。
|
安全 Windows
计算机系统更新出现你的设备中缺少重要的安全和质量修复
计算机系统更新出现你的设备中缺少重要的安全和质量修复
555 1
计算机系统更新出现你的设备中缺少重要的安全和质量修复
|
JSON 运维 网络协议
平稳运行半年的系统宕机了,记录一次排错调优的全过程!
最近发生了一件很让人头疼的事情,已经上线半年且平稳运行半年系统在年后早高峰的使用时发生了濒临宕机的情况。访问速度特别慢,后台查到大量time_wait的连接,从代码层面到架构层面到网络层面排查了几天几夜,总算是有了结果。
如何构建一个拖垮整个公司的备份系统
在如今“数据即资产”的时代,有备才能无患。备份就像备胎,虽然大多人都知道备胎很重要,却很少有人检查。不发生点什么,你永远不知道TA对你有多重要。
6016 0
如何构建一个拖垮整个公司的备份系统
|
物联网
如何从5万设备中找出频繁掉线设备,长期不在线的设备?
通过规则引擎监听设备上下线状态变更,了解设备运行情况
2699 0

热门文章

最新文章