Backblaze发布2022中期SSD故障数据质量报告

简介: 作为一家在2021年在美国纳斯达克上市的云端备份公司,Backblaze一直保持着对外定期发布HDD和SSD的故障率稳定性质量报告,给大家提供了一份真实应用场景下的稳定性分析参考数据。


本文我们主要看下Backblaze最新发布的2022中期SSD相关故障稳定性数据报告。


Backblaze的SSD故障数据主要以季度更新,为了故障率AFR数据更加合理,盘的数量尽量会超过100pcs,故障率评估集群中盘运行时间也要超过10000 盘*天,Backblaze公司对AFR的计算定义如下:

AFR = ( drive_failures / ( drive_days / 365 )) * 100

  • AFR:年度故障率,每个型号单独计算
  • drive_failures:评估集群中发生的盘故障的数量
  • drive_days:评估集群中所有盘在选定时间段(即季度、年度、生命周期)内运行的天数

我们先来看看最新中期报告中在2022年Q1/Q2的表现:

  • 这份评估集群中,盘的容量都不是很大,最大2T,其他都在500GB以下。按照Backblaze的介绍来看,这批盘主要是boot系统启动盘。最开始Backblaze公司的集群的启动盘主要都是HDD机械盘,从2018年开始逐步替换了部分HDD启动盘,用SSD成为boot启动盘。
  • 2022Q1故障数据中:西数WDC的一款盘,型号WDS250G2B0A,容量250GB,表现最差。不过,这个盘的型号的数量也比较少,只有42块,并没有达到"100pcs && 10000 driver-days"的评估标准,这种情况下1故障盘引起的单个季度的故障波动也比较大,参考意义有待商榷。在Q2的数据中,这款盘故障率也变成了0。
  • 2022Q1故障数据中:镁光Micron的一个240GB SATA SSD系统盘,型号:MTFDDAV240TCB表现最差,AFR故障率达到了4.52%。
  • 在2022 Q1/Q2两个季度的数据中:希捷的一个型号ZA250CM10002,连续两个季度出现较高的故障,没有收敛,在Q2达到AFR=2.89%。


如上文说到,如果评估集群中盘的数量过少,那么故障率就很容易出现波动,可靠性数据也会失真。Backblaze给出的评估标准是盘的数量尽量会超过100pcs且故障率评估集群中盘运行时间也要超过10000 盘*天。为了减少单个季度故障率的波动,Backblaze还给出了SSD寿命周期内的故障率AFR表现,如下表,根据寿命周期的长短,Backblaze给出了每个型号AFR的置信区间,置信区间越小,说明这个故障率数据可信度越高,误差越小。

备注:生命周期数据是在 2018 Q4-2022 Q2累积产生。

在上面数据中,我们看到上面提到的3个型号:西数/镁光/希捷的三个型号故障率异常的高,且置信区间还非常大。从数据来看希捷/WDC的两款主要是2.5英寸消费级SSD,Micron这款盘是M.2接口企业级SSD,这么看,Micron这款盘表现应该最差。

同时,我们看到另外3个型号:Dell/希捷的三个型号故障率异常的较低,且置信区间还非常小,数据稳定。从数据来看,希捷这两款盘是2.5英寸消费级SSD,Dell这款是M.2接口企业级SSD,表现都相当不错。

在对比SSD故障率的同时,Backblaze也在尝试印证一个观点“固态硬盘SSD和机械硬盘HDD到底谁的可靠性更高?”

  • 机械硬盘HDD:主要是包含了大量的机械零件:磁头、马达、碟片、轴承等等,这些机械零件组合在一起重量也很大,同时也很容易受到震动的影响,震动大的话,磁头就容易被划伤,并产生坏道,用户看到的就是磁盘报错。
  • 固态硬盘SSD:主要是SSD控制器、NAND闪存、DRAM缓存颗粒,都是电子器件,通过电学信号传输数据,不易受到震动影响,可靠性理论上比机械硬盘更稳定。


那么,固态硬盘SSD和机械硬盘HDD相比,到底是不是更稳定呢?我们来看看Backblaze的真实场景数据。据Backblaze介绍,这盘参与评估的盘的都是系统启动盘,除了完成系统启动的功能 也会在OS里记录部分的系统日志等等,也就是说HDD和SSD的使用场景是基本一样的,在同等的压力场景进行评估对比才有意义。

在2021 Q2的时候,Backblaze发布的数据,可以看到HDD/SSD的在前4年的故障率趋势基本相同,所以当时也不确定,SSD是不是真的比HDD稳定。于是,决定再等1年,收集更多的数据再完成评估。

在本次的年中报告中,根据2022Q2的数据来看,在第5年,SSD的整体故障率数据出现下降,从2021年的AFR 1.05%, 下降到2022年的AFR 0.92%。后续SSD的故障率是否出现较大的波动,特别是在NAND寿命磨穿以后,会不会有故障飙升,Backblaze表示会继续收集盘的故障数据,保持长期的观察。

基于报告中的分析数据,Backblaze也向外界传递作证了一个信息:固态硬盘SSD的长期可靠性比机械硬盘HDD要高。

这个结果,给你印象中的一直吗?如果有不同的想法,欢迎评论区留言交流,感谢!


相关文章
|
1天前
|
存储 Prometheus 监控
评估系统的可用性时间
评估系统可用性时间是指对系统在预定时间内正常运行的能力进行测量和分析,以确保其稳定性和可靠性满足用户需求。这通常涉及对系统故障率、恢复时间和维护周期的综合考量。
|
5月前
|
机器学习/深度学习 缓存 运维
智能化运维:机器学习在故障预测与自动修复中的应用
随着信息技术的飞速发展,企业系统日益复杂,传统运维模式面临巨大挑战。智能化运维作为一种新兴趋势,通过集成机器学习算法,实现对系统故障的预测和自动修复,显著提高运维效率与准确性。本文深入探讨了智能化运维的概念、关键技术及其在故障预测和自动修复方面的应用实例,旨在为读者提供一种科学严谨、数据导向的视角,理解智能化运维的价值与实践路径。
159 0
|
监控 固态存储
Backblaze发布2022 Q3 硬盘故障质量报告
随着Q3质量报告的发布,我们继续解读质量报告,重点关注Q3质量的表现,以及SSD的故障率是否出现较大的波动,特别是在NAND寿命磨穿以后,会不会有故障飙升。
|
UED
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.1 故障等级定义
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.1 故障等级定义
1401 0
|
运维 NoSQL 容器
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.3 故障快恢
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.3 故障快恢
238 0
|
机器学习/深度学习 人工智能 运维
用ML提前预测磁盘故障、智能诊断部署,MSRA在云端将AIOps玩出高度
用ML提前预测磁盘故障、智能诊断部署,MSRA在云端将AIOps玩出高度
247 0
|
机器学习/深度学习 人工智能 运维
用ML提前预测磁盘故障、智能诊断部署,MSRA在云端将AIOps玩出高度
用ML提前预测磁盘故障、智能诊断部署,MSRA在云端将AIOps玩出高度
464 0
用ML提前预测磁盘故障、智能诊断部署,MSRA在云端将AIOps玩出高度
如何构建一个拖垮整个公司的备份系统
在如今“数据即资产”的时代,有备才能无患。备份就像备胎,虽然大多人都知道备胎很重要,却很少有人检查。不发生点什么,你永远不知道TA对你有多重要。
6053 0
如何构建一个拖垮整个公司的备份系统