0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

SSD的可靠性可靠性量化指标MTBF

SSDFans 来源:Memblaze 作者:Memblaze 2021-10-11 09:50 次阅读

企业环境复杂多变,快速增长的业务需求使得企业在数据存储规模、存储性能和可靠性等多方面提出了越来越高的要求。SSD固态硬盘凭借极高的读写性能、极低延迟成为越来越多企业的首选解决方案,并在数据库、虚拟化、应用加速、大数据、云计算乃至人工智能等领域发挥重要作用。企业级SSD往往需要在高并发、大压力、24小时全天候运行的严苛环境下运行,其可靠性是企业级用户的重点关注之一。

可靠性指的是一个部件或系统在规定的操作条件下,在特定的时间内继续执行其预定功能的能力。对企业级SSD而言,它是非常重要的一项指标,不仅直接决定产品出货的良率、故障率等核心指标,而且对数据可用性、一致性的保护,也起着关键作用。

01

可靠性量化指标 —— MTBF

SSD的“可靠性”通常以MTBF量化衡量。MTBF全称Mean Time between Failures,平均故障间隔时间,即产品在总的使用阶段累计工作时间与故障次数的比值。它反映了产品的时间质量,产品故障越少,MTBF越高,产品可靠性也就越高。

与消费级SSD产品相比,企业级SSD在可靠性方面面临更高挑战。根据OCP(Open Compute Project)给出的建议,部署于数据中心的企业级SSD MTBF平均故障间隔时间要在2,000,000小时,也是目前企业级SSD奉行的标准。但是,MTBF是需要实际跑测验证的,不能凭空而来。按照传统方法,要完成多次200万小时的验证显然不可能。那么,这长达200万小时的平均故障间隔时间,又是如何得到的呢?

答案是基于一定样本量,在一定时间段内通过加速因子加速(如写入量加速、运行环境温度加速)进行统计推断。过程模拟典型用户场景,通过实测验证理论值,提前验收产品质量。严谨的跑测验证将直接决定MTBF“可靠性指标”是否真的可靠。

02

MTBF 的表征时期

和大部分电子产品一样,SSD同样符合浴盆曲线(失效率曲线)特性,它分为三个关键时期:

早期失效期(Infant Mortality)

产品在刚生产好并加电使用时,因良率等因素会导致其失效率较高。为保证交付到客户手上的SSD符合企业级可靠性标准,企业级SSD厂商会对所有生产线上的产品进行一定时长的老化跑测,以最大程度暴露产品可能的早期失效,保证客户拿到的产品不存在早期失效问题。

偶然失效期(Random Failures or Normal Life)

这一阶段对应正式出货产品,产品失效率较低,且较稳定。产品可靠性指标MTBF所描述的就是这个时期,即产品的稳定使用阶段。

磨损期(Wearout Phase)

该阶段因产品磨损、老化等因素,其失效率会随时间的延长而呈指数级增加。此时SSD宣称寿命已经结束,虽可继续使用,但坏块会随着PE的增加而加速上升,SSD的有效预留空间(OP)逐渐消耗殆尽,设备失效率提高。对企业级SSD而言,进入磨损期的产品已不建议继续使用。

03

MTBF = MTTF

在MTBF之外,你可能还听过另外一个可靠性描述的词——MTTF。对于一个可维护的设备来说,MTBF = MTTF + MTTR,三者关系如下:

MTTF (Mean Time To Failure,平均失效时间):指系统两次失效的平均时间,取所有从系统开始正常运行到发生故障之间的时间段的平均值。MTTF =∑T1/ N;

MTTR (Mean Time To Repair,平均修复时间):指系统从发生故障到维修结束之间时间段的平均值。MTTR =∑(T2+T3)/ N;

MTBF (Mean Time Between Failure,平均无故障时间):指系统两次故障发生之间(包括故障维修)时间段的平均值。MTBF =∑(T2+T3+T1)/ N。

因为MTTR通常远远小于MTTF,所以MTBF近似等于MTTF。

04

MTTF理论计算公式,2,000,000小时如何而来?

最简单的情况下,MTTF计算遵循如下公式:

其中:

Ai 为 SSD i 的加速因子;

ti 为 SSD i 的测试时间;

nf 为出现故障 SSD 的数量;

a 为置信度(confidence limit,60%);

x2 为卡方分布(chi-squared distribution)。

上述等式中的加速因子通常分为3类:

未加速因子:A=1,通常用于固件故障;

TBW(Total Bytes Written)加速因子 :通过增加数据写入强度进行寿命加速;

温度加速因子 :通过升高测试环境温度进行故障出现加速。

TBW (Total Bytes Written) 加速因子

TBW是SSD寿命单位,以寿命为1.5 DWPD,用户容量3.84TB PBlaze6 SSD为例,其5年总的数据写入量(也就是现场部署写入量field)为10.5 PB,对应每天数据写入量为5.76 TB。如果增加每天的数据写入量(加速写入量stress),相当于加快消耗SSD寿命,可以加速故障出现。TBW加速因子计算方法如下:

假设一个用户容量为100G的SSD,其产品规格书定义SSD寿命为175TBW,典型使用场景下可使用5年(43800个小时)。其在1008小时内写入130TB的数据,写放大为1.2,则TBW加速因子为32,如果短时间内写入更多数据,则TBW加速因子也会相应提升。

温度加速因子

NAND因其固有特性,数据保持力会随着温度的升高而降低。阿伦尼乌斯公式(Arrhenius Equation)指出,在室温 40℃ 下SSD放置 1 年(8670个小时),相当于在 85℃ 的老化室中放置 52 个小时。

JESD 22-A108定义了温度随时间对SSD的影响,执行高温运行寿命(HTOL,High Temperature Operating Life)测试,可确定长时间高温条件下SSD运行的可靠性。协议规定,如果没有特殊要求,SSD需在 125 °C 的结温压力下测试。但企业级SSD一般会设计高温保护逻辑,防止温度过高造成NAND数据保持力下降和元器件的损坏,所以SSD的实际工作温度不会达到125℃。

对于温度加速因子,计算方法如下:

其中:

Ea 为失效模型的活化能 ,一般为0.7 eV;

k 为玻尔兹曼常数,8.617 x 10-5 eV/°K;

T₁ 为工作温度 (标准取值为 55°C 或者 328°K);

T₂ 为测试加速温度。

MTTF计算示例

假设样本量为 400,测试时间为 1008 小时,加速因子Ai = A(TBW) * A(T) 为10,失败的数量为0,置信度为60%,则 MTTF = MTBF = 4,400,000小时。

d48aa190-29cf-11ec-82a8-dac502259ad0.png

注意,MTBF是和温度严格相关的。这一点在OCP Datacenter NVMe SSD Specification中也有提到:

MTBF 2,500,000小时(AFR≤0.35%),对应的SSD运行温度为0℃~50℃;

MTBF 2,000,000小时(AFR≤0.44%),对应的SSD运行温度为0℃~55℃。

但理论和现实总是有差距的。现实中产品意义上的MTBF测试,很难达到10倍的加速因子,TBW加速因子仅能用于测试NAND颗粒的寿命,实际测试中还需要考虑电路和物理接口硬件部分的可靠性。而这部分,只能靠温度来加速。实际操作中,MTBF=200万小时的测试,需要至少用2000片样品在加速因子作用下,跑满1000小时以上。

05

MTBF 和 AFR 又是什么关系?

除了MTBF指标,还有其他可靠性量化表征指标,如故障率λ(Failure Rate)和年化故障率AFR(Annualized Failure Rate),其中AFR和MTBF又可以相互转化。

故障率λ:SSD关键元器件选型时,需要确保每个元器件的故障率 λ 达标。相比故障率指标,MTBF的定义更加直接,也更适用于表现系统级的可靠性;

AFR:年化故障率,可以更好地了解在任何一年中发生硬盘故障的几率。

MTBF 和 AFR转化公式如下:

MTBFhours = 1/λhours

MTBFyears = 1/(λhours*24*365)

AFR = 365*24hours*λhours = 8760hours/MTBFhours

MTBF 和 AFR 的数值对应关系如下:

d4f7e25a-29cf-11ec-82a8-dac502259ad0.png

企业级SSD产品可靠性MTBF ≥ 2,000,000小时(@55℃),换算为年化失效率AFR ≤ 0.44%,对应FFR(Functional Failure Requirement,SSD在整个磨损寿命时间范围内累积的功能失效率,以5年保修期为参考)≤2.2%。

Memblaze全系列企业级SSD均按照2,000,000小时MTBF @55℃ /2,500,000小时MTBF@50℃为标准,满足55℃/50℃环境下7×24小时稳定不间断运行要求、40℃环境下数据至少3个月断电保持能力以及低于1E-17的UBER不可修复错误率。

06

MTBF的验证

Memblaze自研测试平台Whale系统

在数据可靠性技术领域,Memblaze自研了MemSolid 技术集,以保证企业级数据的一致性和可靠性。通过全路径数据保护、LDPC软判决解码纠错技术、元数据跨Channel备份保护、Die间动态RAID5恢复坏块数据机制,以及重读保护和过温保护等技术,实现了PBlaze可持续的数据一致性保护,保障企业关键业务数据资产始终处于安全可靠的存储环境中。

为确保出厂的SSD产品能够满足MTBF的标准,Memblaze运用十余年在固态硬盘领域的经验积累,以及对用户实际应用的理解,自主研发出MTBF测试平台 —— Whale系统。

它参照JEDEC标准打造,适用于PCIe SSD的研发(DVT)、环境应力(EST,Environmental Stress Test)、数据保持力、生产(老化,ORT,Ongoing Reliability Testing)、RDT等测试。Whale系统预置了最接近客户真实使用场景的测试案例,采用合理的加速因子对RDT阶段产品进行长时间跑测,成为产品量产前的质量保障。

根据Memblaze的出货量和实际故障率统计,PBlaze系列SSD的实际累计产品失效率(CFR,Cumulative Failure Rate)远低于标称的年化故障率。

经过十几年在SSD行业的深耕打磨,Memblaze 已经形成从芯片、软件、硬件、生产、出货等各个环节的严密设计和严格的质量管控体系,能够保证PBlaze系列企业级固态硬盘为客户提供卓越的可靠性,也极大降低了客户系统运行开销(OPEX)和总体拥有成本(TCO),而Memblaze也将继续以匠心精神,不断打磨,不负所期!

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储器
    +关注

    关注

    38

    文章

    7120

    浏览量

    161927
  • SSD
    SSD
    +关注

    关注

    20

    文章

    2684

    浏览量

    115418

原文标题:揭秘:SSD的“可靠性”到底可不可靠

文章出处:【微信号:SSDFans,微信公众号:SSDFans】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    提高PCB设备可靠性的技术措施

    提高PCB设备可靠性的技术措施:方案选择、电路设计、电路板设计、结构设计、元器件选用、制作工艺等多方面着手,具体措施如下: (1)简化方案设计。 方案设计时,在确保设备满足技术、性能指标的前提下
    发表于 11-22 06:29

    如何提升基于DC-DC模块的电源系统的可靠性

    建议。 1. 设计阶段 在设计阶段,我们需要充分考虑系统的可靠性要求,并采取相应的措施来实现。以下是一些值得注意的方面: a. 可靠性要求分析:通过评估系统关键部件的可靠性指标,如故障
    的头像 发表于 11-17 14:35 356次阅读

    可靠性试验(HALT)及可靠性评估技术

    国家电网:在就地化保护入网检测中,首次引入可靠性试验,验证产品可靠性设计水平和寿命指标。在关于新型一、二次设备(例如:电子式互感器)的科研项目中,增加了可靠性验证和寿命评估等相关研究课
    的头像 发表于 11-13 16:32 508次阅读
    <b class='flag-5'>可靠性</b>试验(HALT)及<b class='flag-5'>可靠性</b>评估技术

    请问机械温控开关的可靠性有多少?

    机械温控开关的可靠性有多少?我看温控开关的体积很小,价格便宜,可以用于一些温度控制方面,不过可靠性有多少呢?
    发表于 10-31 06:37

    通过PLC组态软件提高系统可靠性的措施

    通过PLC组态软件提高系统可靠性的几项措施
    发表于 09-25 06:26

    硬件IIC与软件IIC在使用上的区别,对产品可靠性与效率的影响?

    硬件IIC与软件IIC在使用上的区别,对产品可靠性与效率的影响
    发表于 09-20 07:53

    常见PCB可靠性问题和典型案例

    自20世纪50年代初,印制电路板(PCB)一直是电子封装的基本构造模块,作为各种电子元器件的载体和电路信号传输的枢纽,其质量和可靠性决定了整个电子封装的质量和可靠性。而随着电子产品的小型化、轻量化
    的头像 发表于 08-31 15:46 563次阅读

    详细的理解可靠性分配

    总之,可靠性分配是一种有助于理解复杂系统可靠性的方法。通过将系统分解为更小的组件,并为每个组件分配可靠性指标,可以进行更详细和全面的可靠性
    的头像 发表于 07-11 10:48 913次阅读

    单片GaN器件集成驱动功率转换的效率/密度和可靠性分析

    单片GaN器件集成驱动功率转换的效率、密度和可靠性
    发表于 06-21 09:59

    通过集成和应用相关压力测试的GaN可靠性分析

    通过集成和应用相关压力测试的GaN可靠性
    发表于 06-21 06:02

    GaNPower集成电路的可靠性测试及鉴定

    GaNPower集成电路的可靠性测试与鉴定
    发表于 06-19 11:17

    GaN功率集成电路的可靠性系统方法

    GaN功率集成电路可靠性的系统方法
    发表于 06-19 06:52

    汽车零部件环境可靠性实验室及电磁兼容EMC测试机构

    试验,电压暂降测试,骚扰功率试验,电磁抗扰试验室,射频测试,电磁场辐射试验,抗绕度试验,电瞬态干扰试验,插入损耗试验等。 可靠性试验/可靠性测试: 可靠性强化试验,加速寿命试验(halt),环境应力筛选试验(ess),
    发表于 05-23 15:55

    求分享MPC5200CVR400B和PCF8582C-2T/03可靠性数据

    我想知道产品MPC5200CVR400B和PCF8582C-2T/03的MTBF或FIT值来做可靠性预测工作
    发表于 05-17 08:49

    通过柔性和刚硬的PCB简化装配并提高可靠性

      昂贵且复杂的离散互连电缆会降低设计的可靠性,增加设计成本和总体设计尺寸。幸运的是,还有其他形式的柔性和柔性刚硬的PCB.柔性PCB可以为您提供满足您的设计互连要求的经济高效且方便的解决方案,并
    发表于 04-21 15:52