漫谈固态硬盘SSD全生命周期的质量管理

简介: SSD质量的整体保证,需要从NAND颗粒、FW固件、SSD Qual质量、SSD运行质量完成全生命周期的端对端E2E质量管理。

SSD架构中,包括了SSD控制器、NAND颗粒、DRAM颗粒三大组件,SSD控制器的固件需要兼顾坏块管理、ECC纠错、垃圾回收GC、磨损均衡WL、NAND die介质管理、缓存交互等等。是一项复杂的工程。

在用户使用过程中,SSD常见的故障现象通常有多种情况,其中FW固件异常占比最高,达到60%,硬件异常达到10%,其他问题占比30%。也就是说通常看到的SSD故障,有70%是真实的故障,硬件或者固件的问题。另外其他30%的问题原因会各种各样。

  • 高温异常。SSD在持续大压力读写的场景,加之散热不能完全,导致温度急剧升高,高温影响会导致或者加速硬件出现异常,常见的是性能降速,在系统下看到IO hang或者IO 抖动的异常。
  • 硬件在物理层面的破坏。如果出现外力导致SSD的外壳或者内部器件出现破损,此时会影响到SSD PCB板子上电子器件的可靠性和稳定性,出现意外事件,甚至最恶劣的情况会导致数据丢失的可能。
  • 使用方式错误。SSD通常是基于NAND颗粒,存在NAND介质本身特性的寿命限制,如果持续出现高写放大的情况,也会导致寿命提前损耗,SSD提前退役了。还有一种情况,就是在SSD使用过程中,频繁出现突然掉电的情况,使得SSD经常性处于异常的使用环境,也会加速盘的异常。。
  • SSD FW固件异常:固态硬件的固件Firmware内部包括了SSD的FTL算法,读写逻辑,ECC纠错等算法,非常复杂,出现FWbug的概率也相当高。或者出现盘内部异常,FW出现锁死的情况,导致盘处于只读模式或者无法访问的状态。
  • SSD硬件异常:在企业级SSD中,通常会遇到大电容异常,控制器内部bit flip导致meta data异常,甚至还会遇到NAND介质工艺问题导致NAND出现介质相关的异常。


业内通常的FW Qual的流程如下:会先后经历Design Coding、EVT、DVT等阶段。

  • Design Coding阶段:主要验证代码基本功能的可执行性,并通过软件模拟的方式发现一些代码的初级问题。
  • EVT阶段:这个时候已经有工程样品了,拿到实体的SSD进行功能验证和性能验证,发现早期FW设计漏洞或者硬件设计异常。
  • DVT阶段:会系统性的增加更多的测试,长期可靠性,包括RDT等。发现一些规模上量后才会发现的概率问题。

虽然经过了相对系统的FW Qual流程,FW固件异常的出现依然有多种因素:

  • FW设计隐藏一些bug:比如FW设计中的计数算法、时序算法、内存分配、介质管理参数设定不符合预期导致寿命提前磨损等,这些问题,通常验证过程,并不容易发现。需要一定几率的触发或者特定场景corner case触发。
  • FW管理中的低级错误:FW固件开发不是一个人的工程,是一群人的工程。每个开发工程师都会向master分支提交代码。在代码量相对庞大的时候,会出现一些低级错误,原本fix的问题,在后续代码提交过程给覆盖掉或者漏掉了。最终导致已经解决的问题,在后续更新FW版本中,重新再犯。对于FW稳定性这一环节来讲,是不可宽恕的。
  • FW架构的修改诱发其他问题:FW是一个复杂的系统,牵一发而动全身。任何一个参数、变量的修改,都可能会影响其他的代码。代码修改后,需要完整验证整体的可靠性和影响。一名代码开发人员,一定要对代码保持敬畏之心。


SSD质量的整体保证,需要从NAND颗粒、FW固件、SSD Qual质量、SSD运行质量完成全生命周期的端对端E2E质量管理。

在追求SSD质量的过程,为了让质量管理形成一个可持续性的工程,需要形成“设计前移”的思路。在工程样品、量产后、客户大规模上量等环节遇到的各种问题,可以快速形成优化思路和核心点,反哺产品设计。通过持续的优化反馈,使得SSD的质量管理得到持续的完善。


相关文章
|
存储 缓存 固态存储
SSD的原理和结构简介
SSD如淡雅之兰花,寻求内外统一,内涵与外在俱佳,除了英俊潇洒的外表,内在的魅力同样不可抵挡。
|
机器学习/深度学习 人工智能 Cloud Native
高性能深度学习推理平台 OpenPPL 正式开源!
高性能深度学习推理平台 OpenPPL 正式开源!
2590 0
idea提示Your idea evaluation has expired. Your session will be limited to 30 minutes[亲测解决]
解决方法: 在idea中安装插件idea eval Reset,应用市场如果搜不到就安装离线的
2291 0
idea提示Your idea evaluation has expired. Your session will be limited to 30 minutes[亲测解决]
|
6月前
|
Java 开发者
Java高级技术深度解析:性能优化与架构设计
本文深入解析Java高级技术,涵盖JVM性能调优、并发编程、内存模型与架构设计。从G1/ZGC垃圾回收到CompletableFuture异步处理,剖析底层机制与实战优化策略,助力构建高性能、高可用的Java系统。
360 47
|
机器学习/深度学习 数据可视化 数据处理
构建可靠的时间序列预测模型:数据泄露检测、前瞻性偏差消除与因果关系验证
在时间序列分析中,数据泄露、前瞻性偏差和因果关系违反是三大常见且严重影响模型有效性的技术挑战。数据泄露指预测模型错误使用了未来信息,导致训练时表现优异但实际性能差;前瞻性偏差则是因获取未来数据而产生的系统性误差;因果关系违反则可能导致虚假相关性和误导性结论。通过严格的时序数据分割、特征工程规范化及因果分析方法(如格兰杰因果检验),可以有效防范这些问题,确保模型的可靠性和实用性。示例分析展示了日本天然气价格数据中的具体影响及防范措施。 [深入阅读](https://avoid.overfit.cn/post/122b36fdb8cb402f95cc5b6f2a22f105)
880 24
构建可靠的时间序列预测模型:数据泄露检测、前瞻性偏差消除与因果关系验证
|
10月前
|
人工智能 安全 API
MCP vs 传统集成方案:REST API、GraphQL、gRPC的终极对比
作为一名长期关注AI技术发展的博主摘星,我深刻感受到了当前AI应用集成领域正在经历的巨大变革。随着Anthropic推出的Model Context Protocol(MCP,模型上下文协议)逐渐成熟,我们不得不重新审视传统的系统集成方案。在过去的几年中,REST API凭借其简单易用的特性成为了Web服务的标准选择,GraphQL以其灵活的数据查询能力赢得了前端开发者的青睐,而gRPC则以其高性能的特点在微服务架构中占据了重要地位。然而,当我们将视角转向AI应用场景时,这些传统方案都暴露出了一些局限性:REST API的静态接口设计难以适应AI模型的动态需求,GraphQL的复杂查询机制在处
537 0
MCP vs 传统集成方案:REST API、GraphQL、gRPC的终极对比
|
9月前
|
人工智能 并行计算 API
全网最全的GPT-5测评文章!1.8万字详细实战测评!国内直接使用!
OpenAI 发布了期待已久的 GPT-5,其在数学、编程、视觉理解和健康等领域表现卓越,推理能力媲美 Gemini 2.5 Pro,代码能力媲美 Claude 4。GPT-5 与 GPT-5-thinking 双模型协同工作,带来更高效体验。国内用户可通过指定平台直接访问,提供免费授权码体验。
1981 0
|
运维 供应链 安全
SD-WAN分布式组网:构建高效、灵活的企业网络架构
本文介绍了SD-WAN(软件定义广域网)在企业分布式组网中的应用,强调其智能化流量管理、简化的网络部署、弹性扩展能力和增强的安全性等核心优势,以及在跨国企业、多云环境、零售连锁和制造业中的典型应用场景。通过合理设计网络架构、选择合适的网络连接类型、优化应用流量优先级和定期评估网络性能等最佳实践,SD-WAN助力企业实现高效、稳定的业务连接,加速数字化转型。
SD-WAN分布式组网:构建高效、灵活的企业网络架构
|
机器学习/深度学习 人工智能 搜索推荐
【人工智能】人工智能在医疗健康中的应用以及实际案例和进展概述
人工智能(Artificial Intelligence, AI)在医疗健康领域的应用日益广泛,为医疗服务的提升和健康管理带来了革命性的变化。以下是人工智能在医疗健康中的主要应用
4623 1
|
应用服务中间件 网络安全 nginx
运维专题.Docker+Nginx服务器的SSL证书安装
运维专题.Docker+Nginx服务器的SSL证书安装
1324 3

热门文章

最新文章