0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

详谈SSD故障预测技术

架构师技术联盟 来源:SCS存储专委 2023-01-03 14:27 次阅读

在上篇文章“企业级存储盘中的操作特性”中,基于一家主要存储供应商的近200万个SSD的大量企业存储系统,对生产使用中SSD的关键操作特性进行了大规模的现场研究。今天接着分享SSD故障预测技术。

固态驱动器(SSD)故障很可能导致系统级故障,从而导致停机,从而使SSD故障预测对大规模SSD部署至关重要。现有的SSD故障预测研究大多基于定制的SSD,具有专有的监控指标,难以重现。为了支持不同驱动器模型和供应商的一般SSD故障预测,本文提出了一种向外更新集成特征排序(WEFR),以自动化、鲁棒的方式选择智能属性作为学习特征。WEFR结合了不同的特征排序结果,根据复杂度度量和磨损程度的变化点检测,自动生成最终的特征选择。

01 背景及动机

一、数据收集

本文从阿里巴巴的五个基于ssd的数据中心收集数据。该数据集涵盖了从2018年1月到2019年12月的为期两年的、来自三个供应商的6个驱动器模型的近500Kssd。本文将这三个供应商称为MA、MB和MC,每个供应商都包括两个驱动器模型(用供应商后面的数字表示)。本文的数据集包括两种数据类型:SMART日志和故障票据。

SMART日志。SMART是一种广泛采用的监视磁盘驱动器状态(称为属性)的工具。SMART属性是特定于供应商的。它们每个都有原始的和标准化的数值(在SMART属性名称之后分别用“R”和“N”表示)。本文每天收集每个SSD的智能属性。表一显示了为每个驱动器模型收集的SMART属性的概述。该数据集总共跨越了22个SMART属性。

故障记录。本文的维护系统在每个服务器上部署监视守护进程,定期执行基于规则的检测,以检查异常行为和故障。一旦检测到异常行为和故障,维护系统就会生成故障报告(称为故障记录单)。每个故障记录单记录驱动器ID和故障发生的时间戳。该数据集总共涵盖了7K个SSD故障的故障记录单。

二、故障预测

本文将SSD故障预测作为一个离线分类问题,以预测SSD是否会在未来一段时间内(例如,在未来30天内)失败。本文将每个SMART属性的原始值和标准化值视为两个学习特征,并将一个学习特征的向量称为输入变量。本文将驱动器状态视为一个指标变量(称为目标变量)(0表示健康状态,1表示失败)。本文将每天SSD的学习特性和驱动状态作为样本。本文将出现失败ssd和健康ssd对应的样本分别称为阳性样本和阴性样本。离线故障预测的工作流程包括数据预处理、特征选择、特征生成、预测模型训练、预测模型验证和预测。

三、特征选择方法

本文考虑了五种最先进的SSD故障预测的特征选择方法。

皮尔逊相关度量学习特征与目标变量之间的线性关系。

斯皮尔曼相关性测量了学习特征和目标变量之间的单调关系(不仅仅是线性关系)。它被之前的工作用于SSD故障预测。

J-index使用分类任务来衡量一个学习特征对目标变量的类别进行正确分类的能力。它被之前的工作用于预测HDD故障。

随机森林提供特征重要性评估,它衡量在学习特征中添加噪声后分类精度的降低程度。特征重要性得分较高的特征对HDD故障预测精度的影响较大。之前的工作也将随机森林用于预测SSD故障。

XGBoost还提供了特征重要性评估,它测量了训练具有学习特征的所有增强树的分割数,以及在树中使用该特征的平均增益。

02 特征重要性研究

一、特性对SSD故障预测的重要性

c40215ba-8941-11ed-bfe3-dac502259ad0.png

表三显示了预测每个驱动器模型的SSD故障的顶部和最后三个重要的学习特征。除了重要的学习特征外,本文还观察到存在一些琐碎的特征(例如,PSCN和MA2的特征重要性得分和PMSCR的特征重要性得分仅为0.001)。这种琐碎的学习特征可能会降低作为噪声的SSD预测精度。因此,特征选择对于预测SSD故障是必要的。

二、使用不同选择方法的特征重要性

表4显示,MC1的前5个重要学习特征的排名因特征选择方法的不同而不同。这一发现也适用于其他驱动器模型(表中未显示)。这种不同的排名带来了以下问题:(i)哪种特征选择方法对SSD故障预测更有效?(ii)本文应该选择多少个重要的功能?

c437999c-8941-11ed-bfe3-dac502259ad0.png

三、在不同的磨损程度下的特征重要性

c45f34a2-8941-11ed-bfe3-dac502259ad0.png

表五显示出在不同的磨损程度下,相同的使用随机森林在同一数据集中进行特征选择却出现了不同的结果。这提示本文不同磨损阶段是否有着不同的表现。

c47d0da6-8941-11ed-bfe3-dac502259ad0.png

图1显示了六种驱动模型的存活率与MWIN之间的关系。本文观察到,MA1、MA2、MC1和MC2的存活率随MWIN的变化而变化,而MB1和MB2的存活率由于变化范围较小而没有明显的变化趋势。具体来说,对于MA1、MA2和MC1的存活率随着MWIN的降低而降低,而对于MC2,随着MWIN的降低,MWIN的存活率首先增加到70左右,然后由于固件逐渐固定的一些问题而降低。这表明,SSD的特性可能会随着磨损程度的变化而变化。因此,特征的重要性也可能随着MWIN值的不同而改变。

03 磨损更新的集成特征选择

本文提出了磨损更新集成特征排序(WEFR),这是一种实用的特征排序方法,在自动和稳健的属性中选择学习特征,从而推广不同模型和供应商的SSD故障预测。WEFR解决了在SSD故障预测的特征选择方面面临的以下挑战:

健壮的功能选择。不同的特征选择方法可以选择不同的学习特征。此外,特征选择方法并不总是最优的各种驱动模型。因此,WEFR应该结合特征选择方法,以一种稳健的方式来选择特征。

正在更新功能选择。选择的特性不同具有不同磨损程度的SSD。此外,ssd的磨损程度也随时间的增加而增加。因此,WEFR应该为MWIN值的ssd选择学习特征,并随着时间的推移更新所选特征。

算法概述:

算法1显示了WEFR的工作流程。具体来说,它将来自相同驱动器模型的SMART属性的学习特征作为输入。它采用常用的特征选择方法进行初步的特征选择,并根据特征的重要性对学习特征进行排序。为了防止某些方法的偏差(即无效的特征选择),它删除了与其他方法偏差较大的排名,并通过排名的平均值(排名行1-7)获得最终排名。它根据最终的排名自动确定特征计数,并选择最终的学习特征(第8行)。如果它检测到MWIN的存活率的变化点,它将更新具有不同MWIN组的SSD组的所选特征(第9-15行)。最后,它输出在同一驱动器模型中的所有ssd或每一组MWIN的学习的学习特性。

c4a75fc0-8941-11ed-bfe3-dac502259ad0.png

偏差的计算如下图所示:

c4c3705c-8941-11ed-bfe3-dac502259ad0.png

04 实验结果

一、鲁棒特征选择的有效性

c4d2cfa2-8941-11ed-bfe3-dac502259ad0.png

本文比较了没有特征选择(即使用所有学习特征)和五种最先进的特征选择方法(第II-C节)的WEFR的预测精度。对于五种最先进的特征选择方法,本文将所选特征的百分比从10%线性调整到100%,以找到最高的预测精度。表VI显示,与没有特征选择相比,WEFR对MA1、MA2、MB1、MB2、MC1和MC2的固定召回率分别提高了13%(8%)、18%、18%(12%)、17%(10%)、25%(13%)、12%(6%)和13%(6%)。总的来说,与所有驱动模型没有特征选择相比,WEFR将精度(f0.5分数)提高了22%(10%),证实了特征选择对SSD故障预测的重要性。

二、自动特征选择的有效性

本文评估了WEFR中自动特征选择的有效性,并将其与使用固定百分比的被选择特征(从10%线性增加到100%)进行比较。图2显示,当确定6个驱动器模型的所选特性的百分比时,WEFR的F0.5-score始终高于或等于最高的F0.5-score。具体来说,WEFR自动确定的MA1、MA2、MB1、MB2、MC1、MC2所选择的特征的百分比分别为31%、34%、28%、26%、63%和28%,在确定所选特征的百分比时,与最高F0.5-score对应的所选特征的百分比接近。请注意,使用自动特性选择也比调优生产中选定特性的适当百分比更灵活。

c500010c-8941-11ed-bfe3-dac502259ad0.png

三、更新特征选择的有效性

从表7中可以看出,与不更新特征选择相比,WEFR通过更新MA1、MA2、MC1和MC2的选定特征,提高了精度和F0.5-score。具体来说,与WEFR(无更新)相比,WEFR将MA1、MA2、MC1和MC2的精度(F0.5-score)分别提高了6%(4%)、4%(2%)、5%(2%)和6%(2%)。

c51c41aa-8941-11ed-bfe3-dac502259ad0.png

对于低MWIN的ssd,与WEFR(无更新)相比,WEFR对MA1、MA2、MC1和MC2的精度(f0.5分数)分别提高了13%(9%)、12%(8%)、13%(6%)和13%(6%)。这证实了特征的重要性随着MWIN的变化而变化,有必要用MWIN更新所选的特征。高MWIN的WEFR和WEFR之间的F0.5-score(无更新)差异不显著,且在1%以内(未见表七)。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储
    +关注

    关注

    12

    文章

    3859

    浏览量

    84668
  • SSD
    SSD
    +关注

    关注

    20

    文章

    2690

    浏览量

    115500
  • 故障预测
    +关注

    关注

    0

    文章

    5

    浏览量

    6654
  • 固态驱动器
    +关注

    关注

    0

    文章

    11

    浏览量

    10296

原文标题:收藏:详谈SSD故障预测技术

文章出处:【微信号:架构师技术联盟,微信公众号:架构师技术联盟】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    EMC难不难做?带你读懂EMC 详谈EMC

    读懂EMC:详谈EMC
    的头像 发表于 07-31 11:23 1706次阅读
    EMC难不难做?带你读懂EMC <b class='flag-5'>详谈</b>EMC

    SSD是什么意思,什么是SSD

    100MB/S,高于市面上60 MB/S的速度。每一个新生事物的出现总会遇到价格偏高的问题,SSD也因其研发成本、技术含量等问题,价格相对于其他存储设备来说要高,但其优势也还是非常明显的。有专家预测,到2010年
    发表于 03-25 16:20

    采用nvSRAM确保企业级SSD故障时电源可靠性

      SSD技术概览  固态驱动器(SSD)是采用固态半导体存储器(如NAND闪存)而非传统硬盘驱动器(HDD)中磁性元件来永久存储信息的一种数据存储设备。由于数据可随机存取,不像HDD那样受磁盘转动
    发表于 09-26 09:44

    关于电机的深度学习故障预测简析

    故障预测数据数据获取数据预处理模型CNNLSTMGAN具体情况特殊处理数据量较大数据量不足特征杂糅
    发表于 09-13 07:23

    一种复合故障预测动态建模方法

    本文提出一种复合故障预测动态建模方法,将原有故障数据样本经过参数相关性分析,按特征输入支持向量回归机建立相应的故障预测模型,可以很有效
    发表于 12-14 11:58 16次下载

    详谈服务器电源

    详谈服务器电源 在服务器各个部件中,电
    发表于 12-26 17:23 2276次阅读

    多尺度混沌时间序列在载流故障预测中的应用_孟垚

    多尺度混沌时间序列在载流故障预测中的应用_孟垚
    发表于 01-08 11:51 0次下载

    Linux内核编译详谈

    Linux内核编译详谈
    发表于 10-30 09:51 7次下载
    Linux内核编译<b class='flag-5'>详谈</b>

    支持向量机的故障预测模型

    针对现有的故障预测技术无法从整体上反映系统性能下降趋势等问题,提出一种基于健康度分析的故障预测方法。首先,在支持向量机回归算法基础上构造多输
    发表于 12-29 11:24 0次下载

    三星FIP故障定位技术,让SSD的寿命提升

    三星最近开发了一种可以检测NAND芯片故障技术,该技术可以提升SSD的寿命和可靠性,并且宣布将在即将发布的PCIe 4.0 SSD产品中使
    的头像 发表于 11-18 15:53 3093次阅读

    SSD硬盘的故障分析以及解决办法

    SSD硬盘故障是否曾让你感觉到困扰呢?今天快快小编就来给大家详细介绍SSD硬盘故障的4大原因,并附上解决措施,希望对小伙伴们有帮助。
    的头像 发表于 04-02 14:54 7331次阅读

    详谈数组和指针的区别与联系

    详谈数组和指针的区别与联系
    的头像 发表于 06-29 15:18 2.2w次阅读
    <b class='flag-5'>详谈</b>数组和指针的区别与联系

    详谈黑盒测试与白盒测试的异同及用例

    详谈黑盒测试与白盒测试的异同及用例
    的头像 发表于 08-19 17:07 5961次阅读
    <b class='flag-5'>详谈</b>黑盒测试与白盒测试的异同及用例

    SSD故障的四个主要原因及解决办法

    与硬盘驱动器相比,SSD更加可靠;然而,并没有完美的存储技术。即使是最新的NVMeSSD,也可能会突然或逐渐出现故障
    发表于 12-08 11:01 1w次阅读

    EMC怎么做?读懂EMC:详谈EMC(二)

    读懂EMC:详谈EMC!
    的头像 发表于 08-01 10:47 1241次阅读
    EMC怎么做?读懂EMC:<b class='flag-5'>详谈</b>EMC(二)