说实话,我不是一个喜欢蹭热点的人,但看了兵哥的文章《红黄蓝仓管大妈丢给存储界的难题:非法断电,你们硬盘扛得住吗?》之后却有点不吐不快:)
兵哥在文中是这样写的:
出于对SSD知识的了解,我想到了这种操作对电容的考验。因为与HDD机械硬盘不同的是,SSD通常需要在DRAM/SRAM缓存中存放一部分映射表等元数据,而这些数据(无论多少)在掉电时会依赖电容备份到NAND闪存上。这个回写的保护过程一旦出现异常,就可能遇到当年某I品牌SSD那种“8MB门”的故障。
当然,在兵哥面前我的SSD水平可能只算是小学生,所以这个问题他不会没想到。后来我看到兵哥也说了:“这样测试算是比较极端的测试方法了,主要目的是测试电容在没有充分充放电的情况下是否会出现故障,根据经验,这样情况非常容易出问题”。
我还想起来小时候有次恶作剧,把楼道里的灯泡开关拨到中间的位置——恰好那灯就处于快速反复的亮灭切换中。故事的结局是第二天灯泡坏了——其实估计没用24小时,按那种开关频率钨丝能撑1、2个小时报废就不错。
同样测试硬盘难以承受,但这重要吗?
我忽然想到一个问题:上面所说的这类测试,到底测的是高频连续掉电,还是通/断电循环(开关机)呢?
可能有朋友想问:“你这前后半句话说的不是一回事吗?”我这句确实说的有点绕,然而却牵涉到另外一个产品技术指标。不知您有没有这样计算过:
每20ms掉电一次,连续掉电1000次是多长时间?——20秒。也就是说测20秒的循环断电,休息一分钟,然后按这个间隔继续。那么24小时内SSD的总通/断电周期是多少次呢?108万次!
正如兵哥所说,如果是按常规方式通断电而不是这么极端,没有机械部件的SSD承受100万次加电周期,对许多产品来说应该问题不大。而如果换成HDD硬盘呢?
我去查了自己之前写的两篇文章,里面竟然没有统计这个参数。倒不是自己不知道,而是当时受篇幅所限没有列进去。
上图截自某品牌HDD技术文档,有个磁头加载/卸载周期的指标,当前主流普通桌面硬盘、NL-SATA/SAS硬盘、监控硬盘大多是60万次左右的水平,在25℃、50%相对湿度的环境条件下。
对于这一点,是在比较理想的情况下——正常开关机,磁头不在读写数据。笔记本硬盘由于节电模式会经常进入磁头停泊状态,会影响寿命吗?不难算出,如果按照5年的设计寿命,假设365天开机,60万次平均到每天328次磁头加载/卸载也够用了吧?
早期一些的磁头斜坡加载设计硬盘,加载/卸载的次数指标为30万。
如果是正好在读写数据的时候,意外断电会使磁头接触盘片的概率增大,特别是当环境(机箱)振动超标的情况下。此时达不到设计寿命等级很正常,这大概就是人们讨论的话题由来了。
100万小时MTBF与98%无故障派单率
接下来,我想分享最近在技术工作中的一点心得,也是和产品可靠性相关的。
上周出差给同事做产品培训,其中提到一个系列的商用台式机通过了100万小时平均无故障运行时间认证。回想十几年前,我当时的同事,受人尊敬的孙老师主持过一次10万小时MTBF的PC测试,那期间生产线同时跑着大量的机器。
平均无故障时间并不是说单品都可以用这么久,而是指设计寿命(质保期)内大量样本的故障发生间隔时间。客观来讲,更多代表设计水平而不见得总是真实反映每批次产品的情况。
另一个指标是98%的第一年无故障派单率,为了参照我对MTBF做了下列换算:
年平均故障率 AFR=1 / (MTBF / 365 / 24)≈0.87 %
2%的年实际故障率,比0.87%的设计水平还有些差距,但我觉得与MTBF测试的数值还是基本相符的。因为PC类产品的故障,许多还有些外在/用户人为的因素,比如说供电质量、灰尘/空气含硫超标、振动等等。
从细节处看笔记本质量改进
此外,我还看到一些关于笔记本的测试数据。
我们知道,像液晶屏的转轴是比较容易老化的部件。对于有些插拔测试为什么要人工而不是机器来做,业内人士的解释是:“人工测试才容易模拟出不同的插拔角度”。
这时,我想起以前有的笔记本上带mini HDMI接口,我曾经没用多久就接触不良,而后了解到许多朋友遇到同样问题。这个如果是机器插拔测试就发现不了。
上图也是很好的一个例子。左边的无线网卡特别加了金属片来防止天线的脱落,中间只是用胶纸来辅助固定,右边甚至没有加固处理。
由于以前也拆过一些笔记本,包括自己的和朋友的,对这些细节会有深刻一些的体验。胶纸很容易撕裂,而使用几年之后胶带也很容易老化脱落。
大约有一半的时候我拆笔记本是为了清理灰尘,也“挽救”过一些出风口堵住无法正常工作的机器。曾经有位同事还给出个不用拆机的方法——用强力吸尘器从笔记本出风口直接把赃物吸出来,他还提醒我要保护键盘上的键帽不要被吸走。这时有多大气压估计大家能想象出来,如果内部有些组件固定不牢的话,也许再开机就会不正常了… 当然我举的例子属于极端一点的情况。
这些加固金属架、防滚架对保持笔记本机身刚性、不变形至关重要。之前我曾用过一款入门级商用本,厚厚的工程塑料,但运行时端起来走动不动就死机了。当时有同事干脆建议我合上盖再移动:)
电源接口也是比较容易老化的部位。有的连接器直接焊在主板上,多次插拔——特别是难以完全避免的用力晃动后,如果出现脱焊的情况,整个主板需要拆下来维修(正常流程是返厂)。而左边机型是有个专门的电源接口转接件,与主板之间有连线,这样就不会因为外力而直接伤害到主板,降低了维护中不必要的时间和开销。
类似的例子还有许多,今天先写到这里。我想说的是,真正质量优秀的产品肯定不是一日之功,精品系列都是在设计、制造、售后中积累了丰富的经验、不断总结改进而来的。尽管PC类产品同质化相对高一些,而正是研发和质量控制体系上看似不明显的差距,最终影响了市场格局和产品线的兴衰。