Backblaze发布2022中期SSD故障数据质量报告

简介: 作为一家在2021年在美国纳斯达克上市的云端备份公司,Backblaze一直保持着对外定期发布HDD和SSD的故障率稳定性质量报告,给大家提供了一份真实应用场景下的稳定性分析参考数据。


本文我们主要看下Backblaze最新发布的2022中期SSD相关故障稳定性数据报告。


Backblaze的SSD故障数据主要以季度更新,为了故障率AFR数据更加合理,盘的数量尽量会超过100pcs,故障率评估集群中盘运行时间也要超过10000 盘*天,Backblaze公司对AFR的计算定义如下:

AFR = ( drive_failures / ( drive_days / 365 )) * 100

  • AFR:年度故障率,每个型号单独计算
  • drive_failures:评估集群中发生的盘故障的数量
  • drive_days:评估集群中所有盘在选定时间段(即季度、年度、生命周期)内运行的天数

我们先来看看最新中期报告中在2022年Q1/Q2的表现:

  • 这份评估集群中,盘的容量都不是很大,最大2T,其他都在500GB以下。按照Backblaze的介绍来看,这批盘主要是boot系统启动盘。最开始Backblaze公司的集群的启动盘主要都是HDD机械盘,从2018年开始逐步替换了部分HDD启动盘,用SSD成为boot启动盘。
  • 2022Q1故障数据中:西数WDC的一款盘,型号WDS250G2B0A,容量250GB,表现最差。不过,这个盘的型号的数量也比较少,只有42块,并没有达到"100pcs && 10000 driver-days"的评估标准,这种情况下1故障盘引起的单个季度的故障波动也比较大,参考意义有待商榷。在Q2的数据中,这款盘故障率也变成了0。
  • 2022Q1故障数据中:镁光Micron的一个240GB SATA SSD系统盘,型号:MTFDDAV240TCB表现最差,AFR故障率达到了4.52%。
  • 在2022 Q1/Q2两个季度的数据中:希捷的一个型号ZA250CM10002,连续两个季度出现较高的故障,没有收敛,在Q2达到AFR=2.89%。


如上文说到,如果评估集群中盘的数量过少,那么故障率就很容易出现波动,可靠性数据也会失真。Backblaze给出的评估标准是盘的数量尽量会超过100pcs且故障率评估集群中盘运行时间也要超过10000 盘*天。为了减少单个季度故障率的波动,Backblaze还给出了SSD寿命周期内的故障率AFR表现,如下表,根据寿命周期的长短,Backblaze给出了每个型号AFR的置信区间,置信区间越小,说明这个故障率数据可信度越高,误差越小。

备注:生命周期数据是在 2018 Q4-2022 Q2累积产生。

在上面数据中,我们看到上面提到的3个型号:西数/镁光/希捷的三个型号故障率异常的高,且置信区间还非常大。从数据来看希捷/WDC的两款主要是2.5英寸消费级SSD,Micron这款盘是M.2接口企业级SSD,这么看,Micron这款盘表现应该最差。

同时,我们看到另外3个型号:Dell/希捷的三个型号故障率异常的较低,且置信区间还非常小,数据稳定。从数据来看,希捷这两款盘是2.5英寸消费级SSD,Dell这款是M.2接口企业级SSD,表现都相当不错。

在对比SSD故障率的同时,Backblaze也在尝试印证一个观点“固态硬盘SSD和机械硬盘HDD到底谁的可靠性更高?”

  • 机械硬盘HDD:主要是包含了大量的机械零件:磁头、马达、碟片、轴承等等,这些机械零件组合在一起重量也很大,同时也很容易受到震动的影响,震动大的话,磁头就容易被划伤,并产生坏道,用户看到的就是磁盘报错。
  • 固态硬盘SSD:主要是SSD控制器、NAND闪存、DRAM缓存颗粒,都是电子器件,通过电学信号传输数据,不易受到震动影响,可靠性理论上比机械硬盘更稳定。


那么,固态硬盘SSD和机械硬盘HDD相比,到底是不是更稳定呢?我们来看看Backblaze的真实场景数据。据Backblaze介绍,这盘参与评估的盘的都是系统启动盘,除了完成系统启动的功能 也会在OS里记录部分的系统日志等等,也就是说HDD和SSD的使用场景是基本一样的,在同等的压力场景进行评估对比才有意义。

在2021 Q2的时候,Backblaze发布的数据,可以看到HDD/SSD的在前4年的故障率趋势基本相同,所以当时也不确定,SSD是不是真的比HDD稳定。于是,决定再等1年,收集更多的数据再完成评估。

在本次的年中报告中,根据2022Q2的数据来看,在第5年,SSD的整体故障率数据出现下降,从2021年的AFR 1.05%, 下降到2022年的AFR 0.92%。后续SSD的故障率是否出现较大的波动,特别是在NAND寿命磨穿以后,会不会有故障飙升,Backblaze表示会继续收集盘的故障数据,保持长期的观察。

基于报告中的分析数据,Backblaze也向外界传递作证了一个信息:固态硬盘SSD的长期可靠性比机械硬盘HDD要高。

这个结果,给你印象中的一直吗?如果有不同的想法,欢迎评论区留言交流,感谢!


相关文章
|
监控 固态存储
Backblaze发布2022 Q3 硬盘故障质量报告
随着Q3质量报告的发布,我们继续解读质量报告,重点关注Q3质量的表现,以及SSD的故障率是否出现较大的波动,特别是在NAND寿命磨穿以后,会不会有故障飙升。
|
人工智能 分布式计算 安全
为什么当下隐私计算可用性不及预期?
为什么当下隐私计算可用性不及预期?
|
存储 数据库 数据中心
|
存储 安全 数据中心
CIO急于精简IT “云”节省成本低于预期
本文讲的是CIO急于精简IT “云”节省成本低于预期,灵活性压力,节省开支和提升速度无不激发着CIO们对云计算的兴趣,但这些对技术噱头司空见惯的老手是不会轻易地被一些空头承诺征服的。
1472 0
|
安全 前端开发 Java
这种新型EDR工具可实现秒级对全IT资产的检测与修复
本文讲的是这种新型EDR工具可实现秒级对全IT资产的检测与修复,检测时间和修复时间,决定是安全事件还是数据泄露。目前,虽然市面上有很多新产品帮助安全团队检测事件,但是能够帮助IT运营团队快速修复事件影响的工具却极少见。
1493 0