侵权投诉

如何减少数据中心中最严重硬件故障?

2021-02-25 16:40 次阅读

硬件故障在大型数据中心和云服务基础设施中非常普遍,这些故障可能导致违反服务水平协议(SLA)并造成巨大经济损失。

内存故障是当今数据中心中最严重的硬件故障之一,众所周知,它严重影响了系统的可靠性、可用性和可维护性(RAS)。这些故障可能是由超出正常使用范围的多种因素引起的,包括制造缺陷以及极端的环境或操作条件。

虽然普遍接受的技术,例如,纠错码(ECC)和可纠正错误,基于阈值的预测性故障分析(PFA))可克服双列直插式内存模块(DIMM)的一些可纠正错误,但它们具有成本、可靠性、覆盖范围和性能方面的影响。

可纠正错误数量的激增可能导致服务器性能下降,甚至导致拒绝服务。此外,ECC和基于阈值的可纠正错误的PFA不能帮助克服无法纠正的错误,如灾难性故障通常导致崩溃。

如何减少数据中心中最严重硬件故障?

对于严重依赖服务器可靠性、可用性和可维护性的组织,英特尔内存故障预测(Intel MFP)是理想的解决方案。对于当今的数据中心而言,提前预测未来的内存故障已变得至关重要。通过分析历史数据以预测潜在的灾难性事件,英特尔®MFP可以在内存故障事件发生之前对其进行预测。

该解决方案具有多项创新和原始功能。它基于历史数据来预测行、列和单元格中的微型故障,并使用低开销的在线学习方法来提高其预测精度并避免干扰关键的计算任务。

这也使Intel MFP能够为主动内存故障管理生成估计的内存运行状况评分,从而使用户能够采取相应的措施。英特尔MFP与供应商无关,并且可以与其他数据中心管理解决方案(包括英特尔数据中心管理器(Intel DCM))一起使用。

将与内存故障相关的服务器崩溃减少40%

在腾讯的一个案例研究中,英特尔MFP算法的初步协作测试显示出快速的结果,并将内存故障和系统停机时间减少了五倍。合作伙伴还通过在操作系统级别明智地避免出现内存故障,直到更换了该内存模块为止,从而扩展了此支持。

在与美团的类似案例研究中,该公司发现由于内存错误导致的服务器崩溃减少了40%。该公司通过将Intel MFP集成到其现有数据中心管理解决方案中,监控了服务器内存模块的运行状况。通过分析以前由其数据中心管理软件收集的数据,他们能够为每个DRAM模块生成预测分数,然后采取适当的措施来维护其SLA并最大化服务正常运行时间。

借助新功能,英特尔与全球领先的AMI合作,通过其BIOS、BMC和安全解决方案为全球互联数字基础架构提供电源、管理和保护,并决心将这种支持扩展到整个行业。

因为捕获和分析内存错误需要UEFI和BMC固件之间紧密的联系,所以AMI致力于使Intel MFP易于被现有和将来的服务器平台采用。

捕获错误后,它们将由BIOS记录,然后某些元数据信息将传递到BMC固件。然后,BMC固件将获取此元数据,并通过Intel MFP引擎运行,以计算内存模块的运行状况得分。当检测到新的错误时,AMI解决方案将跟踪每个内存模块的运行状况评分,并公开结果供系统管理员进行分析。

AMI的默认实现在BUI的Web UI中提供当前的内存模块运行状况得分信息,并通过遵循DMTF Redfish标准的RESTful API公开相同的内存运行状况得分信息。

RESTful API可轻松与现有数据中心管理软件集成。但是,对于那些不太愿意与自己的软件集成的数据中心,AMI提供了一个称为AMI Composer的数据管理工具,该工具开发为完全符合Intel Rack Scale Design和DMTF Redfish标准,它将汇总所有信息并通过一个基于Web的仪表板。

为数据中心和云服务提供商带来的直接好处

当然,在创建机器学习算法时,它实际上永远不会完成。当前的Intel MFP模型支持在具有Intel Xeon可扩展处理器的平台上运行的DDR4内存模块,并且Intel继续收集有关内存错误和内存模块故障的更多信息,以改进模型。

此外,当新的内存模块类型引入行业或对现有技术进行改进时,英特尔®MFP将为它们提供支持。

最重要的是,将对所有更新进行适当的分析以包含在MFP模型中,以便在英特尔更新MFP模型时,AMI将为提供给行业合作伙伴的现有技术提供易于实现的更新。

对于数据中心和云服务提供商而言,在Aptio V UEFI固件和MegaRAC BMC固件中添加Intel MFP支持的好处显而易见。改进了数据中心SLA。通过主动的内存运行状况评估和增强的内存页面脱机策略,可以降低DIMM故障率。

而且,最重要的是,更高的DIMM性能和可靠性可优化工作负载和虚拟机(VM)迁移决策,从而提高效率和灵活性,同时降低总拥有成本。

对于希望在配备AMI Aptio V UEFI BIOS和MegaRAC BMC固件的系统上利用英特尔MFP的公司,建议他们要求其系统制造商将AMI连同用于MegaRAC BMC固件的带有Intel MFP选件包的AMI和具有英特尔内存故障预测功能的AMI一起包括在内。适用于Aptio UEFI固件的eModule。
责任编辑:pj

收藏 人收藏
分享:

评论

相关推荐

英特尔踏足代工业务是唐突冒险还是精心突破?

在英特尔新任CEO Pat Gelsinger的首次公开讲话上,他提到了英特尔也将开启代工业务,将半....
的头像 E4Life 发表于 04-18 15:21 473次 阅读
英特尔踏足代工业务是唐突冒险还是精心突破?

你怎么看待科大讯飞前员工被判赔1200万?

科大讯飞诉称,收购之前,陆昀持股58%,直接掌握着枫享公司最核心的经营信息和商业秘密。离职后就去到和....
的头像 新机器视觉 发表于 04-18 10:37 60次 阅读
你怎么看待科大讯飞前员工被判赔1200万?

英伟达公开叫板英特尔,底气何在?

四年前,“AI 教父” 黄仁勋发布全球首款可编程 AI 推理加速器,拉开 GPU 时代的帷幕。四年后....
的头像 DeepTech深科技 发表于 04-18 10:30 74次 阅读
英伟达公开叫板英特尔,底气何在?

英特尔正在开始洽谈为汽车制造商生产芯片事宜

英特尔是半导体行业中最后几家自己设计和制造芯片的公司之一。该公司上个月表示,将向外部客户开放工厂,并....
的头像 中国半导体论坛 发表于 04-18 09:53 133次 阅读
英特尔正在开始洽谈为汽车制造商生产芯片事宜

挖掘科技在减排中的价值,打造“碳中和”绿色战略路径

现如今,绿色发展已成为各界关注的焦点之一。在今年两会上,多位代表委员就绿色金融 “新标准”,以及具体....
的头像 DeepTech深科技 发表于 04-18 09:47 162次 阅读
挖掘科技在减排中的价值,打造“碳中和”绿色战略路径

芯片持续短缺,车企如何自救

当下,全球芯片短缺问题对众多行业都造成了严重的冲击,其中,对汽车行业的影响最为重大。因芯片短缺导致汽....
发表于 04-17 09:23 513次 阅读
芯片持续短缺,车企如何自救

高危漏洞NAME:WRECK曝光,影响近亿台IoT设备

4月16日消息 通过和JSOF Research合作,网络安全公司Forescout Researc....
发表于 04-16 11:00 921次 阅读
高危漏洞NAME:WRECK曝光,影响近亿台IoT设备

社区远程监护网络系统的应用设计与实现

随着社会的进步和科技的发展,以及人们的生活质量的不断改善,社区医疗保健(Community Heal....
的头像 电子设计 发表于 04-15 13:58 344次 阅读
社区远程监护网络系统的应用设计与实现

请问怎么设计一种远程控制实验系统?

怎么设计一种远程控制实验系统? 远程控制实验系统是如何构成的? DataSocket编程、Web Server和TCP编程有什么不同? ...
发表于 04-15 06:06 0次 阅读
请问怎么设计一种远程控制实验系统?

拜登:中国欲主导半导体供应链,美国不能坐视

4月14日消息 根据白宫消息,美国总统拜登于当地时间4月13日和俄罗斯总统普京通话。拜登提议未来几个....
发表于 04-14 12:52 1159次 阅读
拜登:中国欲主导半导体供应链,美国不能坐视

5G时代有哪些关键的“省钱”技术?

而NFV(网络功能虚拟化)将网络功能从传统专用硬件设备解耦,并将虚拟化网络功能(软件)运行于通用的服....
的头像 倩倩 发表于 04-14 10:48 276次 阅读
5G时代有哪些关键的“省钱”技术?

华为发布新一代智能服务器 欧洲首个5G SA网络正式商用

华为发布新一代智能服务器 近日,华为发布了最新一代 FusionServer Pro V6 智能服务....
的头像 璟琰乀 发表于 04-14 10:38 736次 阅读
华为发布新一代智能服务器 欧洲首个5G SA网络正式商用

请问如何设计存储器接口才能获得高性能?

如何满足各种读取数据捕捉需求以实现高速接口? 如何让接收到的时钟与数据中心对准? 为了缩短设计周期应遵循哪些规则? 如何...
发表于 04-14 06:30 0次 阅读
请问如何设计存储器接口才能获得高性能?

NVIDIA BlueField-3,引领数据中心基础设施新潮

BlueField-3是首款为AI和加速计算而设计的DPU,助力各企业在任何规模的应用上都能实现业内....
发表于 04-13 16:53 708次 阅读
NVIDIA BlueField-3,引领数据中心基础设施新潮

最新PCIe Gen 5 switch芯片已内置SerialTek PCIe抓包分析功能

2021年4月6日 Broadcom最新的PCIe Gen 5 switch芯片内置了SerialT....
的头像 ssdfans 发表于 04-13 15:30 159次 阅读
最新PCIe Gen 5 switch芯片已内置SerialTek PCIe抓包分析功能

阿里等巨头制造的市场集中是提高经济效率还是损害社会福利?

近期,市场监管总局发布了《关于平台经济领域的反垄断指南(征求意见稿)》。媒体圈结合蚂蚁暂停上市事件,....
的头像 半导体界 发表于 04-13 11:34 314次 阅读
阿里等巨头制造的市场集中是提高经济效率还是损害社会福利?

英特尔技术支持的AI背包可以帮助视障人士导航和感知路途

人工智能(AI)开发者Jagadish K. Mahendran和他的团队设计了一款由人工智能驱动的....
的头像 电子发烧友网工程师 发表于 04-13 11:04 296次 阅读
英特尔技术支持的AI背包可以帮助视障人士导航和感知路途

后端服务器如何实现把数据返回给前端?

在移动互联网,分布式、微服务盛行的今天,现在项目绝大部分都采用的微服务框架,前后端分离方式,(题外话....
的头像 算法与数据结构 发表于 04-12 10:39 173次 阅读
后端服务器如何实现把数据返回给前端?

为开源新时代赋能 2021开源科技节完美落幕

“开源科技节”由开源科技OSTech、Linux Foundation、华为、腾讯开源联盟、腾讯云、....
的头像 章鹰 发表于 04-12 10:18 2652次 阅读
为开源新时代赋能 2021开源科技节完美落幕

晶心科技RISC-V向量处理器NX27V升级至RVV 1.0

晶心科技宣布全球业界首款RISC-V向量处理器核心AndesCore™ NX27V升级支持最新RIS....
发表于 04-12 10:01 799次 阅读
晶心科技RISC-V向量处理器NX27V升级至RVV 1.0

【芯闻精选】台湾大旱:为保芯片生产,1/5 农田灌溉系统被切断;传全球第三大芯片代工厂格芯计划在美上市

产业新闻   吉利正式加入 IATF,作为亚洲唯一汽车集团参与世界标准制定   4 月 9 日消息 ....
发表于 04-10 09:00 2625次 阅读
【芯闻精选】台湾大旱:为保芯片生产,1/5 农田灌溉系统被切断;传全球第三大芯片代工厂格芯计划在美上市

不被打扰! 确保可靠的不间断电源的设计技巧

设计人员通常使用四种拓扑的一种来进行优化,以实现最小功耗,最小功率损耗时间间隔,最大程度地过滤电源线....
发表于 04-09 15:30 849次 阅读
不被打扰! 确保可靠的不间断电源的设计技巧

联电产能供不应求,今年资本支出大增五成至15亿美元

为了满足客户强劲需求,联电今年资本支出将达15亿美元,较去年的10亿美元增加50%,其中,85%的资....
的头像 中国半导体论坛 发表于 04-09 14:24 381次 阅读
联电产能供不应求,今年资本支出大增五成至15亿美元

节能降耗方案之搭建绿色IDC能耗与管控系统

IDC(Internet Data Center,指互联网数据中心)行业有这样一句操作效率的名言:"....
的头像 物联网袋鼠 发表于 04-09 14:24 91次 阅读
节能降耗方案之搭建绿色IDC能耗与管控系统

就目前来说适合人工智领域有哪些?

根据调研机构IDC公司最近发布的一份《全球人工智能支出指南》,预计全球人工智能预算将在未来四年翻一番....
的头像 电子发烧友网工程师 发表于 04-08 18:02 578次 阅读
就目前来说适合人工智领域有哪些?

全球首个汽车SOA平台开发者将在四月召开!

软件定义汽车的本质是价值链重构,重新定义汽车价值来源 关于未来汽车产业演进的方向,市场众说纷纭。但毋....
的头像 佐思汽车研究 发表于 04-08 16:38 623次 阅读
全球首个汽车SOA平台开发者将在四月召开!

可重构超大规模数据中心网络研究综述

超大规模数据中心成为数字社会的关键基础设施。用户端应用的激増使得数据中心网络( Data Cente....
发表于 04-08 15:15 20次 阅读
可重构超大规模数据中心网络研究综述

酷鲨科技魔幻时钟1588 PTP+NTP服务器已正式发布

春回大地,草长莺飞,万物呈现一片生机盎然的景象。在时间同步领域,同样充满着勃勃生机。继北京酷鲨科技有....
的头像 科技观察者 发表于 04-07 17:10 181次 阅读
酷鲨科技魔幻时钟1588 PTP+NTP服务器已正式发布

解密英特尔® Agilex™ FPGA家族的八大特性

数字经济的快速发展催生了海量数据需求,现代企业需要出色的解决方案帮助整合和处理不断激增的数据流量。而....
的头像 FPGA之家 发表于 04-07 16:51 231次 阅读
解密英特尔® Agilex™ FPGA家族的八大特性

服务器群集服务MSCS v5.1版本资源下载

mscs是Microsoft Cluster Service英文缩写,即微软群集服务。服务器群集是一....
发表于 04-07 16:30 16次 阅读
服务器群集服务MSCS v5.1版本资源下载

浪潮服务器全面布局AI,将推进智慧计算的发展

当前,智慧计算已经成为推进数字经济发展和社会变革的核心生产力。作为全球领先的算力基础设施供应商,浪潮....
的头像 火花 发表于 04-07 14:40 203次 阅读
浪潮服务器全面布局AI,将推进智慧计算的发展

e络盟新增美光科技世界级内存和存储解决方案,进一步扩充半导体产品阵营

美光系列产品广泛适用于各类市场,如消费电子产品、移动通信、汽车、工业设计和数据中心,以及个人计算、网....
发表于 04-07 11:33 1413次 阅读
e络盟新增美光科技世界级内存和存储解决方案,进一步扩充半导体产品阵营

吊打AMD芯片!英特尔推10纳米Ice Lake至强CPU 誓言夺回服务器市场份额

4月6日,英特尔周二 针对数据中心正式推出 10 纳米制程 Ice Lake 处理器芯片,能够为 A....
的头像 章鹰 发表于 04-07 10:17 2965次 阅读
吊打AMD芯片!英特尔推10纳米Ice Lake至强CPU 誓言夺回服务器市场份额

美国将举行芯片供应链会议,应对芯片危机,英特尔、三星确定参加

4月6日,据相关人士透露,英特尔首席执行官Pat Gelsinger将出席美国政府在4月12日于白宫....
的头像 Simon观察 发表于 04-07 10:01 5222次 阅读
美国将举行芯片供应链会议,应对芯片危机,英特尔、三星确定参加

hi3861设备侧向华为云MQTT服务器上报数据的问题

求助一下,困扰我好久了,望前辈们能指点一下。以上是设备消息跟踪截图。连接上了,又被断开,从ONLINE->OFFLINE,...
发表于 04-05 22:27 39次 阅读
hi3861设备侧向华为云MQTT服务器上报数据的问题

基于云计算的医疗保健系统综述

云计算提供了增强的数据安全性,简化了数据处理,提供了高质量的医疗护理,并提供了经济高效的解决方案。云....
发表于 04-05 17:14 843次 阅读
基于云计算的医疗保健系统综述

数字时代之盾在于数据的安全保护 华为带给政务数据保护新可能

在这个时代,一旦发生影响国际民生的“数据灾难”,损失往往超乎想象。 2001年,美国爆发911恐怖袭....
的头像 脑极体 发表于 04-02 20:30 323次 阅读
数字时代之盾在于数据的安全保护 华为带给政务数据保护新可能

开启技术新时代,英特尔Stratix 10收发器亮点介绍

收发器     英特尔 Stratix 10 FPGA 和 SoC 引入了创新的异构 3D 系统级封....
的头像 FPGA之家 发表于 04-02 17:54 670次 阅读
开启技术新时代,英特尔Stratix 10收发器亮点介绍

一种基于机器学习的流簇大小推理模型

近年来研究流簇( Coflow)为单位的调度策略成为改进数据中心网络的新热点。然而现有的信息未知流簇....
发表于 04-02 11:38 24次 阅读
一种基于机器学习的流簇大小推理模型

基于机器视觉的外观缺陷检测系统有什么作用

智能化时代来临,各行各业逐步开始智能化转型升级,在这一浪潮下,企业纷纷引入智能化设备为自身降本增效,....
发表于 04-02 11:04 101次 阅读
基于机器视觉的外观缺陷检测系统有什么作用

台媒难掩惊讶:美国扶持半导体来真的?

台湾经济研究院研究员刘佩真分析称,美国政府两大政策主轴是“联盟对抗大陆”以及巩固美国在芯片制造方面的....
的头像 科工力量 发表于 04-02 09:46 385次 阅读
台媒难掩惊讶:美国扶持半导体来真的?

Tableau数据存储库简介

例如,房地产、零售和快消公司会在寻找新的选址和推出新产品时利用人口数据。财政部门希望通过宏观经济数据....
的头像 Tableau社区 发表于 04-02 09:33 176次 阅读
Tableau数据存储库简介

4412开发板的TFTP服务器如何搭建?

如何搭建TFTP服务器,并且什么情况情况说明配置成功?...
发表于 04-02 07:16 0次 阅读
4412开发板的TFTP服务器如何搭建?

英特尔正在回归芯片代工业务

英特尔通过在自己的尖端工厂制造最好的设计,主导了这个价值4000亿美元的行业数十年。近年来,由于该公....
的头像 5G 发表于 04-01 16:39 610次 阅读
英特尔正在回归芯片代工业务

英特尔要拿什么来追赶台积电?

英特尔公司新任CEO帕特·基辛格(Pat Gelsinger)在当地时间上周二阐述了公司未来的前进方....
的头像 旺材芯片 发表于 04-01 16:15 411次 阅读
英特尔要拿什么来追赶台积电?

英特尔FPGA中国创新中心再次增投数百万的硬件设备

英特尔FPGA中国创新中心总经理张瑞介绍,英特尔FPGA中国创新中心致力于打造最有影响力的FPGA产....
的头像 重庆市物联网产业协会 发表于 04-01 16:01 342次 阅读
英特尔FPGA中国创新中心再次增投数百万的硬件设备

测试行业三家企业联手,举办2021高速数字接口测试巡回研讨会

应用服务器、存储的PCIe的接口在PCIe3.0停滞了一段时间后快速的向PCIe4.0切换,PCIe....
发表于 04-01 15:49 108次 阅读
测试行业三家企业联手,举办2021高速数字接口测试巡回研讨会

服务器行业将需要证明异构计算的有效性

服务器中的CPU数量正在增长,制造这些处理器的供应商数量也在增加。 除了IBM的Power和Z系列是....
的头像 存储社区 发表于 04-01 15:40 212次 阅读
服务器行业将需要证明异构计算的有效性

浪潮推出新一代M6服务器,以应对当代算力需求

近年来,数字化进程日益加快,对算力的需求呈几何式增长,数据中心开始面临严峻的挑战。在此背景下,浪潮推....
的头像 火花 发表于 04-01 13:46 303次 阅读
浪潮推出新一代M6服务器,以应对当代算力需求

浅谈关于如何有效保护VoIP安全的方法

VoIP指的是在使用了互联网协议的网络上进行语音传输,其中的IP是代表互联网协议,它是互联网的中枢,....
发表于 04-01 11:02 665次 阅读
浅谈关于如何有效保护VoIP安全的方法

英特尔智能机器人张江峰会暨战略合作签约仪式举办

3月19日 ,ROBOT IN!英特尔智能机器人张江峰会暨战略合作签约仪式在张江国际创新港成功举办。....
的头像 机器人创新生态 发表于 03-31 18:22 660次 阅读
英特尔智能机器人张江峰会暨战略合作签约仪式举办

过去20年改变世界的25项技术,还将继续影响人类生活

过去10年改变世界的25项技术,3G宽带居首,而且还将在未来10年继续影响人类生活。
的头像 电子发烧友网工程师 发表于 03-31 18:04 739次 阅读
过去20年改变世界的25项技术,还将继续影响人类生活

对芯片代工业红火的思考

英特尔新上任的CEO提出IDM2.0,其中除了强调与全球代工业之间加强合作之外,英特尓要重操代工业,....
的头像 求是缘半导体 发表于 03-31 17:52 493次 阅读
对芯片代工业红火的思考

c语言连接华为MQTT服务器,始终没连接上,已贴出代码图

[table] [tr][td] 1、用的鸿蒙系统,3861芯片,连接华为MQTT服务器 2、已经确保了wifi网络已经连接,而且确保了用...
发表于 03-31 12:00 65次 阅读
c语言连接华为MQTT服务器,始终没连接上,已贴出代码图

c语言连接华为MQTT服务器

1、用的鸿蒙系统,3861芯片,连接华为MQTT服务器 2、已经确保了wifi网络已经连接,而且确保了用工具可连接 MQTT服务...
发表于 03-31 11:55 144次 阅读
c语言连接华为MQTT服务器

华为的5G棋盘到底有多大?

提到5G,人们讨论的内容里一定少不了华为。凭借着在5G领域的突出技术优势,华为在国际通信市场中的地位已经达到了历史高位。从...
发表于 03-12 07:49 101次 阅读
华为的5G棋盘到底有多大?

未来DDR4、NAND Flash存储器芯片该如何发展

未来DDR4、NAND Flash存储器芯片该如何发展
发表于 03-12 06:04 0次 阅读
未来DDR4、NAND Flash存储器芯片该如何发展

集中供电有什么作用及优缺点

集中供电有什么作用? 集中供电的优缺点有哪些? ...
发表于 03-11 07:57 0次 阅读
集中供电有什么作用及优缺点

香橙派R1 Plus 运行OpenWRT系统使用Samba网络共享

香橙派R1 Plus电脑开发板采用瑞芯微RK3328 四核64位处理器,拥有1GB DDR4内存、双千兆网口、TF卡插槽、散热风扇接口...
发表于 02-02 20:20 1919次 阅读
香橙派R1 Plus 运行OpenWRT系统使用Samba网络共享