0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

SSD的可靠性可靠性量化指标MTBF

SSDFans 来源:Memblaze 作者:Memblaze 2021-10-11 09:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

企业环境复杂多变,快速增长的业务需求使得企业在数据存储规模、存储性能和可靠性等多方面提出了越来越高的要求。SSD固态硬盘凭借极高的读写性能、极低延迟成为越来越多企业的首选解决方案,并在数据库、虚拟化、应用加速、大数据、云计算乃至人工智能等领域发挥重要作用。企业级SSD往往需要在高并发、大压力、24小时全天候运行的严苛环境下运行,其可靠性是企业级用户的重点关注之一。

可靠性指的是一个部件或系统在规定的操作条件下,在特定的时间内继续执行其预定功能的能力。对企业级SSD而言,它是非常重要的一项指标,不仅直接决定产品出货的良率、故障率等核心指标,而且对数据可用性、一致性的保护,也起着关键作用。

01

可靠性量化指标 —— MTBF

SSD的“可靠性”通常以MTBF量化衡量。MTBF全称Mean Time between Failures,平均故障间隔时间,即产品在总的使用阶段累计工作时间与故障次数的比值。它反映了产品的时间质量,产品故障越少,MTBF越高,产品可靠性也就越高。

与消费级SSD产品相比,企业级SSD在可靠性方面面临更高挑战。根据OCP(Open Compute Project)给出的建议,部署于数据中心的企业级SSD MTBF平均故障间隔时间要在2,000,000小时,也是目前企业级SSD奉行的标准。但是,MTBF是需要实际跑测验证的,不能凭空而来。按照传统方法,要完成多次200万小时的验证显然不可能。那么,这长达200万小时的平均故障间隔时间,又是如何得到的呢?

答案是基于一定样本量,在一定时间段内通过加速因子加速(如写入量加速、运行环境温度加速)进行统计推断。过程模拟典型用户场景,通过实测验证理论值,提前验收产品质量。严谨的跑测验证将直接决定MTBF“可靠性指标”是否真的可靠。

02

MTBF 的表征时期

和大部分电子产品一样,SSD同样符合浴盆曲线(失效率曲线)特性,它分为三个关键时期:

早期失效期(Infant Mortality)

产品在刚生产好并加电使用时,因良率等因素会导致其失效率较高。为保证交付到客户手上的SSD符合企业级可靠性标准,企业级SSD厂商会对所有生产线上的产品进行一定时长的老化跑测,以最大程度暴露产品可能的早期失效,保证客户拿到的产品不存在早期失效问题。

偶然失效期(Random Failures or Normal Life)

这一阶段对应正式出货产品,产品失效率较低,且较稳定。产品可靠性指标MTBF所描述的就是这个时期,即产品的稳定使用阶段。

磨损期(Wearout Phase)

该阶段因产品磨损、老化等因素,其失效率会随时间的延长而呈指数级增加。此时SSD宣称寿命已经结束,虽可继续使用,但坏块会随着PE的增加而加速上升,SSD的有效预留空间(OP)逐渐消耗殆尽,设备失效率提高。对企业级SSD而言,进入磨损期的产品已不建议继续使用。

03

MTBF = MTTF

在MTBF之外,你可能还听过另外一个可靠性描述的词——MTTF。对于一个可维护的设备来说,MTBF = MTTF + MTTR,三者关系如下:

MTTF (Mean Time To Failure,平均失效时间):指系统两次失效的平均时间,取所有从系统开始正常运行到发生故障之间的时间段的平均值。MTTF =∑T1/ N;

MTTR (Mean Time To Repair,平均修复时间):指系统从发生故障到维修结束之间时间段的平均值。MTTR =∑(T2+T3)/ N;

MTBF (Mean Time Between Failure,平均无故障时间):指系统两次故障发生之间(包括故障维修)时间段的平均值。MTBF =∑(T2+T3+T1)/ N。

因为MTTR通常远远小于MTTF,所以MTBF近似等于MTTF。

04

MTTF理论计算公式,2,000,000小时如何而来?

最简单的情况下,MTTF计算遵循如下公式:

其中:

Ai 为 SSD i 的加速因子;

ti 为 SSD i 的测试时间;

nf 为出现故障 SSD 的数量;

a 为置信度(confidence limit,60%);

x2 为卡方分布(chi-squared distribution)。

上述等式中的加速因子通常分为3类:

未加速因子:A=1,通常用于固件故障;

TBW(Total Bytes Written)加速因子 :通过增加数据写入强度进行寿命加速;

温度加速因子 :通过升高测试环境温度进行故障出现加速。

TBW (Total Bytes Written) 加速因子

TBW是SSD寿命单位,以寿命为1.5 DWPD,用户容量3.84TB PBlaze6 SSD为例,其5年总的数据写入量(也就是现场部署写入量field)为10.5 PB,对应每天数据写入量为5.76 TB。如果增加每天的数据写入量(加速写入量stress),相当于加快消耗SSD寿命,可以加速故障出现。TBW加速因子计算方法如下:

假设一个用户容量为100G的SSD,其产品规格书定义SSD寿命为175TBW,典型使用场景下可使用5年(43800个小时)。其在1008小时内写入130TB的数据,写放大为1.2,则TBW加速因子为32,如果短时间内写入更多数据,则TBW加速因子也会相应提升。

温度加速因子

NAND因其固有特性,数据保持力会随着温度的升高而降低。阿伦尼乌斯公式(Arrhenius Equation)指出,在室温 40℃ 下SSD放置 1 年(8670个小时),相当于在 85℃ 的老化室中放置 52 个小时。

JESD 22-A108定义了温度随时间对SSD的影响,执行高温运行寿命(HTOL,High Temperature Operating Life)测试,可确定长时间高温条件下SSD运行的可靠性。协议规定,如果没有特殊要求,SSD需在 125 °C 的结温压力下测试。但企业级SSD一般会设计高温保护逻辑,防止温度过高造成NAND数据保持力下降和元器件的损坏,所以SSD的实际工作温度不会达到125℃。

对于温度加速因子,计算方法如下:

其中:

Ea 为失效模型的活化能 ,一般为0.7 eV;

k 为玻尔兹曼常数,8.617 x 10-5 eV/°K;

T₁ 为工作温度 (标准取值为 55°C 或者 328°K);

T₂ 为测试加速温度。

MTTF计算示例

假设样本量为 400,测试时间为 1008 小时,加速因子Ai = A(TBW) * A(T) 为10,失败的数量为0,置信度为60%,则 MTTF = MTBF = 4,400,000小时。

d48aa190-29cf-11ec-82a8-dac502259ad0.png

注意,MTBF是和温度严格相关的。这一点在OCP Datacenter NVMe SSD Specification中也有提到:

MTBF 2,500,000小时(AFR≤0.35%),对应的SSD运行温度为0℃~50℃;

MTBF 2,000,000小时(AFR≤0.44%),对应的SSD运行温度为0℃~55℃。

但理论和现实总是有差距的。现实中产品意义上的MTBF测试,很难达到10倍的加速因子,TBW加速因子仅能用于测试NAND颗粒的寿命,实际测试中还需要考虑电路和物理接口等硬件部分的可靠性。而这部分,只能靠温度来加速。实际操作中,MTBF=200万小时的测试,需要至少用2000片样品在加速因子作用下,跑满1000小时以上。

05

MTBF 和 AFR 又是什么关系?

除了MTBF指标,还有其他可靠性量化表征指标,如故障率λ(Failure Rate)和年化故障率AFR(Annualized Failure Rate),其中AFR和MTBF又可以相互转化。

故障率λ:SSD关键元器件选型时,需要确保每个元器件的故障率 λ 达标。相比故障率指标,MTBF的定义更加直接,也更适用于表现系统级的可靠性;

AFR:年化故障率,可以更好地了解在任何一年中发生硬盘故障的几率。

MTBF 和 AFR转化公式如下:

MTBFhours = 1/λhours

MTBFyears = 1/(λhours*24*365)

AFR = 365*24hours*λhours = 8760hours/MTBFhours

MTBF 和 AFR 的数值对应关系如下:

d4f7e25a-29cf-11ec-82a8-dac502259ad0.png

企业级SSD产品可靠性MTBF ≥ 2,000,000小时(@55℃),换算为年化失效率AFR ≤ 0.44%,对应FFR(Functional Failure Requirement,SSD在整个磨损寿命时间范围内累积的功能失效率,以5年保修期为参考)≤2.2%。

Memblaze全系列企业级SSD均按照2,000,000小时MTBF @55℃ /2,500,000小时MTBF@50℃为标准,满足55℃/50℃环境下7×24小时稳定不间断运行要求、40℃环境下数据至少3个月断电保持能力以及低于1E-17的UBER不可修复错误率。

06

MTBF的验证

Memblaze自研测试平台Whale系统

在数据可靠性技术领域,Memblaze自研了MemSolid 技术集,以保证企业级数据的一致性和可靠性。通过全路径数据保护、LDPC软判决解码纠错技术、元数据跨Channel备份保护、Die间动态RAID5恢复坏块数据机制,以及重读保护和过温保护等技术,实现了PBlaze可持续的数据一致性保护,保障企业关键业务数据资产始终处于安全可靠的存储环境中。

为确保出厂的SSD产品能够满足MTBF的标准,Memblaze运用十余年在固态硬盘领域的经验积累,以及对用户实际应用的理解,自主研发出MTBF测试平台 —— Whale系统。

它参照JEDEC标准打造,适用于PCIe SSD的研发(DVT)、环境应力(EST,Environmental Stress Test)、数据保持力、生产(老化,ORT,Ongoing Reliability Testing)、RDT等测试。Whale系统预置了最接近客户真实使用场景的测试案例,采用合理的加速因子对RDT阶段产品进行长时间跑测,成为产品量产前的质量保障。

根据Memblaze的出货量和实际故障率统计,PBlaze系列SSD的实际累计产品失效率(CFR,Cumulative Failure Rate)远低于标称的年化故障率。

经过十几年在SSD行业的深耕打磨,Memblaze 已经形成从芯片、软件、硬件、生产、出货等各个环节的严密设计和严格的质量管控体系,能够保证PBlaze系列企业级固态硬盘为客户提供卓越的可靠性,也极大降低了客户系统运行开销(OPEX)和总体拥有成本(TCO),而Memblaze也将继续以匠心精神,不断打磨,不负所期!

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储器
    +关注

    关注

    39

    文章

    7714

    浏览量

    170847
  • SSD
    SSD
    +关注

    关注

    21

    文章

    3061

    浏览量

    121774

原文标题:揭秘:SSD的“可靠性”到底可不可靠

文章出处:【微信号:SSDFans,微信公众号:SSDFans】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    可靠性设计的十个重点

    保障。规定定性定量的可靠性要求规定定性定量的可靠性要求。有了可靠性指标,开展可靠性设计才有目标,才能对开发的产品
    的头像 发表于 08-01 22:55 782次阅读
    <b class='flag-5'>可靠性</b>设计的十个重点

    太诱MLCC电容的可靠性如何?

    众所周知,多层陶瓷电容器(MLCC)已成为消费电子、汽车电子、工业控制等领域的核心被动元件。太阳诱电(太诱)通过材料创新、工艺优化与严苛测试体系,构建了MLCC电容的可靠性护城河,其产品失效率长期
    的头像 发表于 07-09 15:35 482次阅读

    影响电源模块可靠性和性能的挑战

    在早前Flex Power Modules的一篇博客文章中,我们探讨了电源模块平均故障间隔时间(MTBF)计算值的可靠性。我们当时的结论是,只有在完全相同、静态的条件下比较产品时,数据表上的数值才有
    的头像 发表于 07-07 15:33 753次阅读
    影响电源模块<b class='flag-5'>可靠性</b>和性能的挑战

    关于LED灯具的9种可靠性测试方案

    LED灯具的可靠性试验,与传统灯具有显著区别。作为新一代光源,LED灯具正在逐渐取代传统节能灯的市场,因此无法简单地沿用传统灯具的测试方法。那么,LED灯具需要进行哪些可靠性试验呢?标准名称:LED
    的头像 发表于 06-18 14:48 673次阅读
    关于LED灯具的9种<b class='flag-5'>可靠性</b>测试方案

    可靠性测试包括哪些测试和设备?

    在当今竞争激烈的市场环境中,产品质量的可靠性成为了企业立足的根本。无论是电子产品、汽车零部件,还是智能家居设备,都需要经过严格的可靠性测试,以确保在各种复杂环境下都能稳定运行,为用户提供可靠的使用体验。那么,
    的头像 发表于 06-03 10:52 1105次阅读
    <b class='flag-5'>可靠性</b>测试包括哪些测试和设备?

    提供半导体工艺可靠性测试-WLR晶圆可靠性测试

    随着半导体工艺复杂度提升,可靠性要求与测试成本及时间之间的矛盾日益凸显。晶圆级可靠性(Wafer Level Reliability, WLR)技术通过直接在未封装晶圆上施加加速应力,实现快速
    发表于 05-07 20:34

    电机微机控制系统可靠性分析

    可靠性是电机微机控制系统的重要指标,延长电机平均故障间隔时间(MTBF),缩短平均修复时间(MTTR)是可靠性研究的目标。电机微机控制系统的故障分为硬件故障和软件故障,分析故障的性质和
    发表于 04-29 16:14

    IGBT的应用可靠性与失效分析

    包括器件固有可靠性和使用可靠性。固有可靠性问题包括安全工作区、闩锁效应、雪崩耐量、短路能力及功耗等,使用可靠性问题包括并联均流、软关断、电磁干扰及散热等。
    的头像 发表于 04-25 09:38 2275次阅读
    IGBT的应用<b class='flag-5'>可靠性</b>与失效分析

    电路可靠性设计与工程计算技能概述

    电路可靠性设计与工程计算通过系统学习电路可靠性设计与工程计算,工程师不仅能提高电路的可靠性和稳定性,还能优化产品设计过程,减少潜在的故障风险,从而提升产品的市场竞争力和消费者信任度。为什么工程师需要
    的头像 发表于 03-26 17:08 611次阅读
    电路<b class='flag-5'>可靠性</b>设计与工程计算技能概述

    产品可靠性的关键指标

    平均故障间隔时间 (MTBF) 是您在产品数据表中看到的常见指标,通常作为可靠性和耐用的标志。但是,尽管 MTBF 被广泛使用,也是工程学
    的头像 发表于 03-13 14:19 1016次阅读
    产品<b class='flag-5'>可靠性</b>的关键<b class='flag-5'>指标</b>

    半导体集成电路的可靠性评价

    半导体集成电路的可靠性评价是一个综合的过程,涉及多个关键技术和层面,本文分述如下:可靠性评价技术概述、可靠性评价的技术特点、可靠性评价的测
    的头像 发表于 03-04 09:17 1254次阅读
    半导体集成电路的<b class='flag-5'>可靠性</b>评价

    深度解析SSD2351核心板:硬核视频处理+工业级可靠性设计

    明远智睿SSD2351核心板基于SigmaStar SSD2351芯片打造,专为高可靠性工业场景设计,其硬件配置与接口能力充分满足复杂环境下的多模态数据处理需求。 芯片技术细节 : 视频处理能力
    发表于 02-21 17:19

    芯片封装可靠性测试详解

    可靠性,作为衡量芯片封装组件在特定使用环境下及一定时间内损坏概率的指标,直接反映了组件的质量状况。
    的头像 发表于 02-21 16:21 3084次阅读
    芯片封装<b class='flag-5'>可靠性</b>测试详解

    一文读懂芯片可靠性试验项目

    可靠性试验的定义与重要可靠性试验是一种系统化的测试流程,通过模拟芯片在实际应用中可能遇到的各种环境条件和工作状态,对芯片的性能、稳定性和寿命进行全面评估。在芯片研发和生产过程中,可靠性
    的头像 发表于 02-21 14:50 1838次阅读
    一文读懂芯片<b class='flag-5'>可靠性</b>试验项目

    霍尔元件的可靠性测试步骤

    霍尔元件是一种利用霍尔效应来测量磁场的传感器,广泛应用于电机控制、位置检测、速度测量以及电流监测、变频控制测试、交直流电源、电源逆变器和电子开关等领域。为了确保霍尔元件的性能和可靠性,进行全面
    的头像 发表于 02-11 15:41 1187次阅读