本文我们主要看下Backblaze最新发布的2022中期SSD相关故障稳定性数据报告。
Backblaze的SSD故障数据主要以季度更新,为了故障率AFR数据更加合理,盘的数量尽量会超过100pcs,故障率评估集群中盘运行时间也要超过10000 盘*天,Backblaze公司对AFR的计算定义如下:
AFR = ( drive_failures / ( drive_days / 365 )) * 100
- AFR:年度故障率,每个型号单独计算
- drive_failures:评估集群中发生的盘故障的数量
- drive_days:评估集群中所有盘在选定时间段(即季度、年度、生命周期)内运行的天数
我们先来看看最新中期报告中在2022年Q1/Q2的表现:
- 这份评估集群中,盘的容量都不是很大,最大2T,其他都在500GB以下。按照Backblaze的介绍来看,这批盘主要是boot系统启动盘。最开始Backblaze公司的集群的启动盘主要都是HDD机械盘,从2018年开始逐步替换了部分HDD启动盘,用SSD成为boot启动盘。
- 2022Q1故障数据中:西数WDC的一款盘,型号WDS250G2B0A,容量250GB,表现最差。不过,这个盘的型号的数量也比较少,只有42块,并没有达到"100pcs && 10000 driver-days"的评估标准,这种情况下1故障盘引起的单个季度的故障波动也比较大,参考意义有待商榷。在Q2的数据中,这款盘故障率也变成了0。
- 2022Q1故障数据中:镁光Micron的一个240GB SATA SSD系统盘,型号:MTFDDAV240TCB表现最差,AFR故障率达到了4.52%。
- 在2022 Q1/Q2两个季度的数据中:希捷的一个型号ZA250CM10002,连续两个季度出现较高的故障,没有收敛,在Q2达到AFR=2.89%。
如上文说到,如果评估集群中盘的数量过少,那么故障率就很容易出现波动,可靠性数据也会失真。Backblaze给出的评估标准是盘的数量尽量会超过100pcs且故障率评估集群中盘运行时间也要超过10000 盘*天。为了减少单个季度故障率的波动,Backblaze还给出了SSD寿命周期内的故障率AFR表现,如下表,根据寿命周期的长短,Backblaze给出了每个型号AFR的置信区间,置信区间越小,说明这个故障率数据可信度越高,误差越小。
备注:生命周期数据是在 2018 Q4-2022 Q2累积产生。
在上面数据中,我们看到上面提到的3个型号:西数/镁光/希捷的三个型号故障率异常的高,且置信区间还非常大。从数据来看希捷/WDC的两款主要是2.5英寸消费级SSD,Micron这款盘是M.2接口企业级SSD,这么看,Micron这款盘表现应该最差。
同时,我们看到另外3个型号:Dell/希捷的三个型号故障率异常的较低,且置信区间还非常小,数据稳定。从数据来看,希捷这两款盘是2.5英寸消费级SSD,Dell这款是M.2接口企业级SSD,表现都相当不错。
在对比SSD故障率的同时,Backblaze也在尝试印证一个观点“固态硬盘SSD和机械硬盘HDD到底谁的可靠性更高?”
- 机械硬盘HDD:主要是包含了大量的机械零件:磁头、马达、碟片、轴承等等,这些机械零件组合在一起重量也很大,同时也很容易受到震动的影响,震动大的话,磁头就容易被划伤,并产生坏道,用户看到的就是磁盘报错。
- 固态硬盘SSD:主要是SSD控制器、NAND闪存、DRAM缓存颗粒,都是电子器件,通过电学信号传输数据,不易受到震动影响,可靠性理论上比机械硬盘更稳定。
那么,固态硬盘SSD和机械硬盘HDD相比,到底是不是更稳定呢?我们来看看Backblaze的真实场景数据。据Backblaze介绍,这盘参与评估的盘的都是系统启动盘,除了完成系统启动的功能 也会在OS里记录部分的系统日志等等,也就是说HDD和SSD的使用场景是基本一样的,在同等的压力场景进行评估对比才有意义。
在2021 Q2的时候,Backblaze发布的数据,可以看到HDD/SSD的在前4年的故障率趋势基本相同,所以当时也不确定,SSD是不是真的比HDD稳定。于是,决定再等1年,收集更多的数据再完成评估。
在本次的年中报告中,根据2022Q2的数据来看,在第5年,SSD的整体故障率数据出现下降,从2021年的AFR 1.05%, 下降到2022年的AFR 0.92%。后续SSD的故障率是否出现较大的波动,特别是在NAND寿命磨穿以后,会不会有故障飙升,Backblaze表示会继续收集盘的故障数据,保持长期的观察。
基于报告中的分析数据,Backblaze也向外界传递作证了一个信息:固态硬盘SSD的长期可靠性比机械硬盘HDD要高。
这个结果,给你印象中的一直吗?如果有不同的想法,欢迎评论区留言交流,感谢!