理想很丰满,现实有时却骨感在谈到MTBF(平均无故障时间)和AFR(年均故障率)两个指标时,也许有的读者会说:“我使用的硬盘比这个故障率要高啊?”这种现象确实存在的不少,比如我国南方空气湿度偏高,电子设备受到氧化、腐蚀的速度会加快。硬盘厂商给出统一的数字,是要在推荐的环境范围内,并且系统设计(特别是机箱结构设计)要达标。
这里我又想起10年前参加过的一次Intel ESDC(服务器系统设计峰会),工程师在上面讲针对一款机箱振动的验证测试,印象中是2U 12个1500转3.5英寸硬盘。结果台下另一位Intel其他部门的同事就提出疑问,表示实际共振情况没有这么理想,随机访问性能会下降20%。据此大家就不难理解我在上文中引用“15K硬盘能够达到21 rad/sec/sec”的用意了吧?
要想把硬盘用好,获得理想的性能和可靠性,还有许多要注意的问题。接下来我们再此列出《上篇》中的表格,并继续之前的讨论。
5视频监控写入负载是否会超标?我们根据硬盘每年的读写负载,计算出550/300/180/55TB对应到平均每天就是1.51/0.83/0.49/0.15TB,平均每秒大约17.5/9.6/5.67/1.74MB。回到本文上篇中那个数据备份的需求,每天写入不到1TB的数据,使用Enterprise Capacity这个档次的Nearline硬盘比较合适。
戴尔、惠普等一线品牌服务器和企业级存储阵列,选配的7200转大容量硬盘一般都是Nearline系列。上图引用了《戴尔SCv2000:入门级阵列硬件设计功力》一文中样机上安装的Constellation ES.3 4TB SAS硬盘,希捷从这一代之后的V4改用Enterprise Capacity系列名称。
这里我还有一点疑问:视频监控应用是比较典型的多流写入,而且7x24小时连续工作,在一个系统中为了应对单盘故障RAID保护又是有必要的。首先,年负载55TB的桌面硬盘很容易超标;其次,如果有高清监控且需要保留时间较短的场合,每块硬盘平均写入速度超过5.67MB/s,是否将年负载180TB的监控盘换成550TB的Nearline硬盘更合适呢?
我也曾咨询过硬盘厂商的工程师,如果超出建议负载较多其故障率会高于标称的AFR(监控盘为0.88%),而且Enterprise Capacity(ES)的AFR设计标准本身就低至0.44(8TB)~0.63%,可以降低后期维护的成本和数据丢失风险。
至于“云盘”,其平均故障率监控盘还要高些,只要不在意也可以用吧?
当然这里面还有成本的因素,Enterprise Capacity的公开报价是7200转盘里面比较高的。由于视频监控在国内的市场巨大,像海康、大华这样的厂商在监控硬盘上估计有较大的议价能力。
6盘位数支持与箱体结构要求在每个机箱支持的盘位数上,最新资料4TB及以上写的都是“8+”,而我们在另一份早些的希捷监控硬盘资料中看到了这样的描述:
在视频监控环境中,非RAID应用顺序(I/O)使用模型下盘数不限。(取决于箱体结构)而监控硬盘在RAID应用中建议≤16盘位。究其原因,如果做了RAID,硬盘磁头容易按照同样的轨迹来运动。这时共振的影响应该会有所加大。
回到我们引用的那个英文表格,Enterprise Capacity系列硬盘支持大于8盘位的部署,在有的机箱中甚至支持84、90这样的盘位。
扩展阅读:《高密度盘柜难点:评戴尔SCv2080结构设计》
戴尔SCv2080、PS6610高密度双控制器阵列、SC280/SC180 JBOD扩展柜,其5U机箱支持84个3.5英寸SAS硬盘驱动器,通过上下2个“抽屉”来安装/更换硬盘,结构设计比较巧妙。
根据我的理解,ENAS系列虽然抗旋转振动能力与Enterprise Capacity相同,但由于其主要定位中小型设备,只建议配置不超过16盘位,对机箱结构要求相应放松。经济型Constellation CS主要针对互联网等大型分布式环境,其中定制系统相对偏多,需要适应各种不同需求,因此抗旋转振动也达到了12.5 rad/sec/sec。
7不可恢复读错误:NL盘表现居中不可恢复读错误可以理解为磁介质上静态数据损坏的比率,由于这个数值比较固定,随着单盘容量增大在一块盘上遇到错误的几率也越来越高。我们注意到,Enterprise Capacity和ENAS的该项指标比10K、15K高转速SAS硬盘高一个数量级,但比桌面和其它“准企业级”硬盘还是要低一个数量级的。
对于监控硬盘,资料显示目前只有8TB型号可以达到1 per 10E15。由于目前桌面硬盘的容量只达到6TB,那么8TB监控盘有可能与Enterprise Capacity出自同一平台。
由于不可恢复读错误可能在RAID Rebuild时才暴露出来,RAID卡、磁盘阵列控制器普遍设计了后台介质扫描的功能,而有些廉价视频监控设备使用的软RAID就不好说了。此外,EMC等存储厂商还使用非标准扇区(从传统512byte增大到520byte)加入校验实现容错。
8NL-SAS并不只是“假SAS”硬盘主机接口方面,7200转硬盘中只有Nearline(Enterprise Capacity)系列具备SAS版本。除了SCSI协议的完整性之外,最重要的是提供双端口支持,在那些双控磁盘阵列中SATA驱动器还得加个转接板就不划算了。而且,也只有SAS接口硬盘才能兼容520/528这些非标准扇区大小。
在质保年限上,桌面硬盘目前执行2年;Enterprise Capacity、NAS与高转速SAS同为5年;表格里对比的其它7200转硬盘基本上是3年。根据经验,质保5年的硬盘设计寿命一般在8-10年,如果超出5年使用故障率会提高;同理,普通7200转硬盘的设计寿命通常也有5年,缩短保修时间也有降低服务成本的考虑。
至此,我们看出ENAS系列应该是由Enterprise Capacity近线硬盘“降级”而来,它们之间的定位可以从开头表格中的组件级差别上看出来。比如:两者都使用了相对较好的高通量密度音圈磁头,而读写头和盘片ENAS为Performance而Enterprise Capacity采用High Performance等级。总之结构决定性质,只是我们在本文中并不都需要深挖。
9性能增强新技术:Flash缓存、掉电保护在硬盘上添加少量闪存的固态混合硬盘(SSHD),希捷最早推出消费级产品,并于后来引入到企业级市场(只限10K高转速SAS盘)。客观地说其市场空间不大,因为在混合阵列上可以做SSD+HDD之间的分层存储,混合硬盘用于服务器也要看应用能否发挥其优势。
不过加入Flash之后带来了另外一个用途——掉电保护。我们知道早期硬盘上DRAM缓存中的数据断电就会丢失,所以对数据一致性要求高的应用通常会选择在RAID卡/阵列控制器上关闭硬盘自身的写缓存。如今则可以利用电容和盘片旋转的势能将DRAM写缓存区的数据写到闪存中。
对于没有Flash缓存的Enterprise Capacity,希捷在最新一代8TB型号上内置了2MB NOR闪存,用于掉电时备份写缓存数据,因此可以打开WCE(Write Cache Enable),大幅提升随机写性能——IOPS 342明显超出读IOPS 164(队列深度16)。
据了解,HGST企业级硬盘采用了另一种技术来达到同样的目的——开辟一小块磁道做为将随机写I/O变成顺序写入的缓冲区。
10硬盘厂商怎么说?
其实希捷官方也做了监控专用硬盘和企业级3.5寸海量盘的对比。首先,监控盘“划算”就是在谈它的性价比;而性能、节电模式/响应时间、写入负载、抗振动、SAS接口支持和质保期限上Enterprise Capacity都更胜一筹,具体的技术我们都已讨论过。
11更多选购要点:系统设计和兼容性以上写了这么多硬盘自身的特性,其实同样的盘用在不同系统上其可靠性表现也可能会有不小的差距。
比如散热设计,我认为正规一些的服务器、存储厂商,测试每个盘位上承载最大功耗硬盘时的满负载工作温度,应该是比较基本的要求。对于一线品牌,安装各种转速硬盘时产生的线性、旋转振动值是否超标,估计也在结构方面的测试项目中。用软件仿真和实测可以做为互补,通过这些评估工作可以看出机箱、硬盘托架等有无改良空间,能够支持的硬盘范围等。
举例来说,像4U 60盘位及更高密度的机箱,我看各家基本都不支持15K高转速硬盘。如果支持2.5寸10K硬盘,在这里也是不应该按经验“拍脑袋”决定的。
再比如前几年,某公司进入企业存储领域时间尚短,其硬盘故障率偏高,也是投入了不少资源来改善。
另一方面,从EMC、戴尔等厂商采购的硬盘,与渠道市场中的相同型号也有些区别。定制的Firmware版本只是一个表象,兼容性测试也是很重要的工作。因此大家最好还是按照系统厂商的建议来选购硬盘,如果一时贪图便宜导致数据丢失就得不偿失了。
我们建议,如果您没有条件计算读写负载,或者不确定服务器/存储机箱本身消减振动的能力,选择一款规格较高、有裕量的硬盘相对比较保险。比如本文对比中的Nearline硬盘Enterprise Capacity(ES)系列或者其他品牌的同级产品。
终于到了这两篇的结尾,我想说一句:“写硬盘很累”,而硬盘读写数据也是有一个“疲劳磨损”的过程,希望能够引起人们对可靠性的关注。尽管这是我熟悉并关注近20年的领域,为撰写本文还是查阅、整理了大量资料。总之希望对大家有所帮助,同时也欢迎各路高人批评指正!