0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何减少数据中心中最严重硬件故障?

lhl545545 来源:千家网 作者:千家网 2021-02-25 16:40 次阅读

硬件故障在大型数据中心和云服务基础设施中非常普遍,这些故障可能导致违反服务水平协议(SLA)并造成巨大经济损失。

内存故障是当今数据中心中最严重的硬件故障之一,众所周知,它严重影响了系统的可靠性、可用性和可维护性(RAS)。这些故障可能是由超出正常使用范围的多种因素引起的,包括制造缺陷以及极端的环境或操作条件。

虽然普遍接受的技术,例如,纠错码(ECC)和可纠正错误,基于阈值的预测性故障分析(PFA))可克服双列直插式内存模块(DIMM)的一些可纠正错误,但它们具有成本、可靠性、覆盖范围和性能方面的影响。

可纠正错误数量的激增可能导致服务器性能下降,甚至导致拒绝服务。此外,ECC和基于阈值的可纠正错误的PFA不能帮助克服无法纠正的错误,如灾难性故障通常导致崩溃。

对于严重依赖服务器可靠性、可用性和可维护性的组织,英特尔内存故障预测(Intel MFP)是理想的解决方案。对于当今的数据中心而言,提前预测未来的内存故障已变得至关重要。通过分析历史数据以预测潜在的灾难性事件,英特尔®MFP可以在内存故障事件发生之前对其进行预测。

该解决方案具有多项创新和原始功能。它基于历史数据来预测行、列和单元格中的微型故障,并使用低开销的在线学习方法来提高其预测精度并避免干扰关键的计算任务。

这也使Intel MFP能够为主动内存故障管理生成估计的内存运行状况评分,从而使用户能够采取相应的措施。英特尔MFP与供应商无关,并且可以与其他数据中心管理解决方案(包括英特尔数据中心管理器(Intel DCM))一起使用。

将与内存故障相关的服务器崩溃减少40%

在腾讯的一个案例研究中,英特尔MFP算法的初步协作测试显示出快速的结果,并将内存故障和系统停机时间减少了五倍。合作伙伴还通过在操作系统级别明智地避免出现内存故障,直到更换了该内存模块为止,从而扩展了此支持。

在与美团的类似案例研究中,该公司发现由于内存错误导致的服务器崩溃减少了40%。该公司通过将Intel MFP集成到其现有数据中心管理解决方案中,监控了服务器内存模块的运行状况。通过分析以前由其数据中心管理软件收集的数据,他们能够为每个DRAM模块生成预测分数,然后采取适当的措施来维护其SLA并最大化服务正常运行时间。

借助新功能,英特尔与全球领先的AMI合作,通过其BIOS、BMC和安全解决方案为全球互联数字基础架构提供电源、管理和保护,并决心将这种支持扩展到整个行业。

因为捕获和分析内存错误需要UEFI和BMC固件之间紧密的联系,所以AMI致力于使Intel MFP易于被现有和将来的服务器平台采用。

捕获错误后,它们将由BIOS记录,然后某些元数据信息将传递到BMC固件。然后,BMC固件将获取此元数据,并通过Intel MFP引擎运行,以计算内存模块的运行状况得分。当检测到新的错误时,AMI解决方案将跟踪每个内存模块的运行状况评分,并公开结果供系统管理员进行分析。

AMI的默认实现在BUI的Web UI中提供当前的内存模块运行状况得分信息,并通过遵循DMTF Redfish标准的RESTful API公开相同的内存运行状况得分信息。

RESTful API可轻松与现有数据中心管理软件集成。但是,对于那些不太愿意与自己的软件集成的数据中心,AMI提供了一个称为AMI Composer的数据管理工具,该工具开发为完全符合Intel Rack Scale Design和DMTF Redfish标准,它将汇总所有信息并通过一个基于Web的仪表板。

为数据中心和云服务提供商带来的直接好处

当然,在创建机器学习算法时,它实际上永远不会完成。当前的Intel MFP模型支持在具有Intel Xeon可扩展处理器的平台上运行的DDR4内存模块,并且Intel继续收集有关内存错误和内存模块故障的更多信息,以改进模型。

此外,当新的内存模块类型引入行业或对现有技术进行改进时,英特尔®MFP将为它们提供支持。

最重要的是,将对所有更新进行适当的分析以包含在MFP模型中,以便在英特尔更新MFP模型时,AMI将为提供给行业合作伙伴的现有技术提供易于实现的更新。

对于数据中心和云服务提供商而言,在Aptio V UEFI固件和MegaRAC BMC固件中添加Intel MFP支持的好处显而易见。改进了数据中心SLA。通过主动的内存运行状况评估和增强的内存页面脱机策略,可以降低DIMM故障率。

而且,最重要的是,更高的DIMM性能和可靠性可优化工作负载和虚拟机(VM)迁移决策,从而提高效率和灵活性,同时降低总拥有成本。

对于希望在配备AMI Aptio V UEFI BIOS和MegaRAC BMC固件的系统上利用英特尔MFP的公司,建议他们要求其系统制造商将AMI连同用于MegaRAC BMC固件的带有Intel MFP选件包的AMI和具有英特尔内存故障预测功能的AMI一起包括在内。适用于Aptio UEFI固件的eModule。
责任编辑:pj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    60

    文章

    9398

    浏览量

    168654
  • 服务器
    +关注

    关注

    12

    文章

    8088

    浏览量

    82433
  • 数据中心
    +关注

    关注

    15

    文章

    4170

    浏览量

    69832
  • 腾讯
    +关注

    关注

    7

    文章

    1619

    浏览量

    49152
收藏 人收藏

    评论

    相关推荐

    #mpo极性 #数据中心mpo

    数据中心MPO
    jf_51241005
    发布于 :2024年04月07日 10:05:13

    #mpo光纤跳线 #数据中心光纤跳线

    光纤数据中心
    jf_51241005
    发布于 :2024年03月22日 10:18:31

    数据中心市场的关键以太网解决方案

    了解数据中心市场动态的关键在于以太网解决方案。Synopsys负责产品管理和高性能计算IP的副总裁Michael Posner说:“以太网在数据中心中根深蒂固……虽然它并不广为人知,但60%的数据中心硬件都是通过以太网通信的。
    发表于 03-12 09:53 132次阅读
    <b class='flag-5'>数据中心</b>市场的关键以太网解决方案

    #光纤弯曲 #光纤衰减 #数据中心光纤

    光纤数据中心
    jf_51241005
    发布于 :2024年03月08日 09:59:50

    #MPO预端接 #数据中心机房 #机房布线

    数据中心MPO
    jf_51241005
    发布于 :2024年03月01日 11:12:47

    #永久链路 #信道测试 #数据中心

    数据中心
    jf_51241005
    发布于 :2024年02月23日 10:17:58

    #紧套光缆 #松套光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2024年01月26日 09:44:11

    #光缆水峰 #综合布线光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2024年01月15日 09:43:26

    数据中心 3D 机房数字孪生 #数据中心

    3D数据中心
    阿梨是苹果
    发布于 :2023年12月28日 10:02:33

    #预端接光缆 #24芯光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2023年12月08日 11:01:21

    大模型时代,数据中心将转向何方?

    数据中心大模型
    脑极体
    发布于 :2023年11月22日 09:01:41

    千兆光模块和万兆光模块在数据中心中的应用

    千兆光模块和万兆光模块在数据中心中的应用是网络优化的关键因素之一。本文将详细介绍千兆光模块和万兆光模块的特性、优劣势以及在数据中心中的应用场合,以期为您提供更全面的光模块选购指南。
    的头像 发表于 11-06 14:55 240次阅读

    光纤跳线在数据中心中的重要性

    在高密度数据中心中,光纤跳线非常重要。由于高密度数据中心对带宽需求极高,而光纤跳线采用光信号传输,具有极高的传输速度和带宽,能够以更快的速度传输大量数据,满足高密度数据中心对大带宽需求
    的头像 发表于 11-01 11:16 236次阅读

    数据中心遇到中断如何解决?

    数据中心中断的严重程度似乎正在下降,而中断成本继续攀升。电源故障是“导致站点严重中断的最大原因”。网络故障和IT系统
    的头像 发表于 05-18 10:55 312次阅读

    数据中心中存在的问题

    2020年,数据中心建设被正式列入新基建战略。近几年越来越受到国家重视,数据中心是新基建有序运行的基础保障,被视为“新基建的基础设施”。 今年2月,工信部、国家能源局等部门已批复同意在内蒙古、贵州
    发表于 05-17 14:42 0次下载