在9月份,我们更新了Backblaze 2022上半年的中期质量报告解读,基于报告中的分析数据,Backblaze也向外界传递作证了一个信息:固态硬盘SSD的长期可靠性比机械硬盘HDD要高。
随着Q3质量报告的发布,我们继续解读质量报告,重点关注Q3质量的表现,以及SSD的故障率是否出现较大的波动,特别是在NAND寿命磨穿以后,会不会有故障飙升。
截止2022 Q3季度末,Backblaze监控的硬盘(SSD/HDD)数量超过22万片,其中4.2K是系统启动盘,包括2.7Kpcs SSD和1.4Kpcs HDD。总量22万pcs硬盘分为29个型号model。上个季度Q2的型号是27个,Q3新增2个型号:Seagate 8TB型号:ST8000NM000A和Seagate 16TB 型号: ST16000NM002J。涉及的29个型号,来自3个厂商:主要分布:
- HGST+WDC西数:HGST,7个型号;WDC,3个型号
- Seagate希捷:13个型号
- Toshiba东芝:6个型号
东芝和WD西数的型号是从2020年开始逐年增加。目前还是希捷盘的数量最多。
下图是Backblaze从2022/7/1到2022/9/30之间的第三季度Q3故障率数据表现。从Q3季度的29个型号的质量数据中,我们可以发现几点信息:
- Q3有三个型号的盘故障率为0,分别是HUH728080ALE604、ST8000NM000A、WUH721816ALE6L0。其中只有WUH721816ALE6L0达到了AFR评估的标准“为了故障率AFR数据更加合理,盘的数量尽量会超过100pcs,故障率评估集群中盘运行时间也要超过10000 盘*天”
- 有另外三个型号上电时间最长,希捷的一款4T和6T,和东芝的一块4T盘,故障率已经逐步攀升,看到了随着运行时间增长发生老化的迹象。其中,东芝8.25%的高AFR也跟数量只有95个有关,即使故障2个,故障率也飙升了。对这3块盘来说,经过七年左右的持续旋转,他们的主轴、驱动器、磁头、碟片介质等出现开始磨损和老化问题。
- 2022年第三季度整体AFR为1.64%,比2022年的Q2 AFR=1.46%要高,同时比2021年Q3 AFR=1.1%也增长不少。这里面主要可能第二点说的长时间运行导致的老化有关,Blackblaze表示后续会更换新盘,预计后续的AFR故障率也会出现下降。
基于硬盘故障率和硬盘成本,Backblaze还抛出一个问题:“在故障率表现和购买成本之间,哪种情况,终身使用累计成本最高?”
- 上图中,有3个型号的14TB HDD,分别为Model 1、Model 2、Model 3.
- 终身累计成本:除了最初购买的盘的成本,后续故障后更换故障盘的成本(这里面盘本身成本可能由于存在质保期内的RMA而是0,还包括维修更换的成本)。
- 三个型号的购买成本分别是225美元、250美元、275美元,每个型号购买5000pcs。
- 三个型号的根据故障率表现,每年维修更换的数量75、50、25,对应每年维修人力成本分别是22500美元、15000美元、7500美元。后续服役时间5年。
- 在三个型号当前故障率表现AFR分别1.5%、1%、0.5%的情况下,终身累计成本分别是123万美元、132万美元、141万美元。Model 3的终身累计成本最高。
- 根据上面的计算模型,我们也会发现,当Model 1 AFR=2.67% 时,Model 1和Model 2会有相同终身累计成本132万美元。当Model 1 AFR=3.83% 时,Model 1和Model 3会有相同终身累计成本141万美元。故障率的上升会增加硬盘的终身累计成本。硬盘的故障率会一个浴盆曲线,在核算终身累计成本也需要考虑故障率的变化。
下图是Backblaze从2013/4/20到2022/9/30之间的历史累计的生命周期故障率数据表现。生命周期的故障率AFR当前是1.41%,比上个季度的1.39%略高,这也说明Q3的质量表现不太乐观。但是比2021年Q3的生命周期的故障率AFR 1.45%要低。说明2022年整体故障率表现略好。
下图中是生命周期故障率AFR小于1%的型号列表。主要集中在12TB、14TB、16TB盘。其中,西数盘型号为WUH721816ALE6L0的16T盘,质量表现最好,AFR在0.11%。