0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

​如何提高HPC SoC的可靠性、可用性和可维护性级别

半导体产业纵横 来源:半导体产业纵横 2023-02-15 11:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

通过芯片生命周期管理可以确保数据中心系统正常运行时间。

在大型数据中心和超级计算机的领域,高性能计算 (HPC) 已经变得相当普遍,并且在某些情况下,在我们的日常生活中必不可少。正因为如此,可靠性、可用性和可维护性(reliability, availability, and serviceability,或称RAS),是更多 HPC SoC 设计人员应该熟悉的概念。

RAS 听起来像是一个不言自明的术语,但在涉及 HPC SoC 时它真正涉及什么?数据中心运营商长期与客户保持服务水平协议,以保证系统正常运行时间。RAS 补充了这些协议,现在可以得到新技术的支持,最终产生可操作的见解。在这篇最初发表于“从芯片到软件”博客上的文章中,您将了解为什么芯片生命周期管理 (SLM)、嵌入式监控 IP 以及正确的设计和验证工具可以在您的HPC 设计中实现高水平 RAS。

3个关键的高性能计算组件

家庭安全门铃或建筑物监控系统捕获的视频片段、财务和业务运营建模、科学和医学研究、增强现实和虚拟现实等应用都需要依赖 HPC。随着我们的设备和系统收集的数据激增、AI 驱动的分析、大量计算资源的可用性以及云的融合,使快速获得有用、可操作的见解成为可能,使 HPC 成为许多领域不可或缺的一部分。它与 1940 年代第一台超级计算机出现时相比,应用范围更广。

当今典型的 HPC 基础设施由三个关键要素组成:计算、网络和存储。每个都需要一定水平的性能、延迟、电源效率、可扩展性、生产力和安全性。让我们仔细看看每个元素:

计算由 CPUGPU、加速器、片上网络 (NoC) 和计算服务器组成。这是进行高性能数据处理的地方。复杂的多核甚至多芯片系统架构、具有快速访问的大内存、高带宽 I/O 接口、电源/冷却管理和安全性是其关键特性。片内监控和分析还可以支持 RAS 目标。

网络由交换机和路由器、适配器、网桥、中继器、网络接口卡(如 SmartNIC)以及光学电气互连组成。该元素提供高性能连接,理想情况下具有高吞吐量、低延迟、能源效率、可配置性和可扩展性、实时监控和报告以及安全性。调试功能、前向纠错 (FEC) 和 IP 可以支持 RAS 要求。

存储包括固态驱动器 (SSD) 或硬盘驱动器 (HDD)、存储区域网络 (SAN) 和网络附加存储 (NAS)。理想情况下,存储元件应提供高带宽存储、减少数据传输能量和延迟、灵活性、可扩展性、可靠性和安全性。内置自测试 (BIST)、纠错码 (ECC) 和冗余等功能可以促进高水平的 RAS。

有两种主要类型的 HPC 系统:同类机器和混合机器。同类机器只有 CPU。相比之下,混合动力车同时拥有 GPU 和 CPU,其中 GPU 运行任务而 CPU 监督计算。

HPC 集群可以由大量服务器组成,其中计算集群的总物理尺寸、能源使用或热输出可能成为一个严重的问题。此外,还需要在服务器之间进行专用通信,这对于集群来说有些独特。

由于微小的设计差异乘以集群中的服务器数量会带来巨大的收益,因此我们看到了针对 HPC 优化的服务器设计的出现。有时,这些是针对大型公共 Web 运营商(例如搜索引擎公司)的设计,它们在 HPC 集群中提供类似的优势。但是,它们也可以提供仅适合 HPC 用户的功能。例如,如果系统设计为以不同方式提供集群互连,则可能会显著减少布线。

通过片内监控和分析获得可操作的见解

HPC 的实用性在于它能够处理海量数据(PB 甚至 zettabytes)并实时(或接近实时)运行复杂模型。不用说,只要 HPC 系统出现故障,就会导致资金损失和业务中断。任务关键型应用程序的影响变得更加陡峭。在高级节点,使用大型单片芯片或复杂架构(如多芯片),可以满足 RAS 要求并变得更具挑战性。

根据手头应用程序的重要性,系统可以构建备份,以在发生故障时提供冗余。除了冗余之外,您还可以在系统和芯片级别做更多的事情来满足 RAS 目标。这就是 SLM 发挥重要作用的地方,它提供智能、自动化的片内监控 IP 和方法,以在系统生命周期的每个阶段生成可操作的见解。

几十年来,设计人员一直在将监视器和传感器嵌入到他们的芯片中。但是,该技术已经发展到现在可以提供更准确的数据。这样可以更好地了解设备的实时环境、结构和功能状况。示例包括工艺变化和电压供应的监控,以及时序裕度的准确测量等。

由于嵌入式和基于云的分析,以及统一 SLM 解决方案的可用性,设计团队将能够建立一个连续的、实时的设备硅健康状况图,而不仅仅是在设计期间,在生产阶段以及现场操作期间。他们可以更好地了解根本原因并立即进行调试和修复,从而降低成本和潜在危害。SLM 可以解决的问题包括晶体管老化和延迟故障。要了解这带来的好处,请考虑一颗有缺陷的卫星。通常情况下,从实验室取回修复后的电路板安装到卫星上可能需要数周的时间,将其长时间停用以进行故障排除和维修。通过SLM技术在现场进行故障检测和故障修复。

看看数据中心,我们可以看到另一个突出 SLM 如何促进满足 RAS 要求的示例。

在芯片层面,现场远程调试的能力对于超大规模数据中心的团队来说至关重要。SLM 提供远程遥测和监控使这成为可能。

在系统级别,精确的时钟节流(SLM 的另一项功能)对于最大化数据吞吐量和 CPU、GPU 和 AI 引擎利用率至关重要。

在数据中心级别,使用 SLM 工具监控服务器性能、网络拥塞和磁盘利用率是检测和预测数据中断的关键,这可以增加正常运行时间。

在超大规模级别,团队可以利用 SLM 来最大限度地减少片上热和电源压力,从而提高可靠性。

对于 die-to-die 高速接口,SLM 提供信号完整性监控,连同接口完整性冗余,有助于确保小芯片设计的稳健性。

概括

一个端到端的解决方案将设计校准分析、片内监控和系统性能优化等一切结合在一起,而不是一组互不关联的单点工具,可以使解决 RAS 目标的过程更加无缝。

鉴于现在依赖 HPC 的应用程序范围越来越广,保持这些系统的高水平可靠性、可用性和可服务性是一个全面的关键考虑因素。实现最佳 RAS 水平以支持从流媒体视频到气候变化建模的一切是保持数字化、智能化万物世界高速运行的另一个重要因素。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • soc
    soc
    +关注

    关注

    38

    文章

    4514

    浏览量

    227561
  • SSD
    SSD
    +关注

    关注

    21

    文章

    3061

    浏览量

    121756
  • HPC
    HPC
    +关注

    关注

    0

    文章

    342

    浏览量

    24822

原文标题:​如何提高 HPC SoC 的可靠性、可用性和可维护性级别?

文章出处:【微信号:ICViews,微信公众号:半导体产业纵横】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    霍尔开关如何保证自身的可靠性和实用

    霍尔开关的可靠性(稳定工作、不易失效)和实用(适配场景、易集成、低使用成本),核心依赖 “环境适配设计、电气防护、低功耗优化、标准化集成”四大方向,
    的头像 发表于 12-02 16:53 1008次阅读
    霍尔开关如何保证自身的<b class='flag-5'>可靠性</b>和实用<b class='flag-5'>性</b>

    单片机应用系统的可靠性设计介绍

    是紧密相关的。要使整个系统具有较高的可靠性,除了在尽可能提高硬件可靠性的前提下,软件的可靠性设计也是必不可少的,必须从设计、测试及长期使用等方面来解决软件
    发表于 11-25 06:21

    化繁为简:直线电机如何通过结构简化提升可靠性

    在工业领域,设备的 可靠性 和 平均无故障时间 是衡量其价值的重要指标。复杂的机械结构往往意味着更多的故障点和更高的维护成本。直线电机以其极具革命的 简洁结构 ,从设计源头大幅提升了系统的
    的头像 发表于 08-29 09:49 293次阅读

    可靠性设计的十个重点

    专注于光电半导体芯片与器件可靠性领域的科研检测机构,能够对LED、激光器、功率器件等关键部件进行严格的检测,致力于为客户提供高质量的测试服务,为光电产品在各种高可靠性场景中的稳定应用提供坚实的质量
    的头像 发表于 08-01 22:55 775次阅读
    <b class='flag-5'>可靠性</b>设计的十个重点

    太诱MLCC电容的可靠性如何?

    稳定在0.1ppm级别,成为高端市场的首选。 一、材料技术:纳米级控制奠定可靠性基础 太诱MLCC的可靠性源于对材料体系的深度掌控。其自主研发的陶瓷介质材料通过纳米级粉末微细化、粒子形状均匀化及沙漏结构控制,实现了介质层厚度仅0
    的头像 发表于 07-09 15:35 477次阅读

    如何提高电路板组件环境可靠性

    电路板组件PCBA(Printed Circuit Board Assembly)的可靠性特别是多水汽、多粉尘、有化学污染物的室外工作环境的可靠性,直接决定了电子产品的品质或应用范围。
    的头像 发表于 06-18 15:22 783次阅读

    可靠性测试包括哪些测试和设备?

    在当今竞争激烈的市场环境中,产品质量的可靠性成为了企业立足的根本。无论是电子产品、汽车零部件,还是智能家居设备,都需要经过严格的可靠性测试,以确保在各种复杂环境下都能稳定运行,为用户提供可靠的使用体验。那么,
    的头像 发表于 06-03 10:52 1096次阅读
    <b class='flag-5'>可靠性</b>测试包括哪些测试和设备?

    提供半导体工艺可靠性测试-WLR晶圆可靠性测试

    随着半导体工艺复杂度提升,可靠性要求与测试成本及时间之间的矛盾日益凸显。晶圆级可靠性(Wafer Level Reliability, WLR)技术通过直接在未封装晶圆上施加加速应力,实现快速
    发表于 05-07 20:34

    电机微机控制系统可靠性分析

    针对性地研究提高电机微机控制系统可靠性的途径及技术措施:硬件上,方法包括合理选择筛选元器件、选择合适的电源、采用保护电路以及制作可靠的印制电路板等;软件上,则采用了固化程序和保护 RAM 区重要数据等
    发表于 04-29 16:14

    IGBT的应用可靠性与失效分析

    包括器件固有可靠性和使用可靠性。固有可靠性问题包括安全工作区、闩锁效应、雪崩耐量、短路能力及功耗等,使用可靠性问题包括并联均流、软关断、电磁干扰及散热等。
    的头像 发表于 04-25 09:38 2242次阅读
    IGBT的应用<b class='flag-5'>可靠性</b>与失效分析

    电路可靠性设计与工程计算技能概述

    电路可靠性设计与工程计算通过系统学习电路可靠性设计与工程计算,工程师不仅能提高电路的可靠性和稳定性,还能优化产品设计过程,减少潜在的故障风险,从而提升产品的市场竞争力和消费者信任度。为
    的头像 发表于 03-26 17:08 603次阅读
    电路<b class='flag-5'>可靠性</b>设计与工程计算技能概述

    半导体集成电路的可靠性评价

    半导体集成电路的可靠性评价是一个综合的过程,涉及多个关键技术和层面,本文分述如下:可靠性评价技术概述、可靠性评价的技术特点、可靠性评价的测
    的头像 发表于 03-04 09:17 1246次阅读
    半导体集成电路的<b class='flag-5'>可靠性</b>评价

    一文读懂芯片可靠性试验项目

    验证产品性能的重要手段,更是提高产品可靠性和市场竞争力的关键环节。通过对芯片进行严格的可靠性测试,可以提前发现潜在的故障模式和失效机制,从而为设计优化和工艺改进提供
    的头像 发表于 02-21 14:50 1829次阅读
    一文读懂芯片<b class='flag-5'>可靠性</b>试验项目

    霍尔元件的可靠性测试步骤

    霍尔元件是一种利用霍尔效应来测量磁场的传感器,广泛应用于电机控制、位置检测、速度测量以及电流监测、变频控制测试、交直流电源、电源逆变器和电子开关等领域。为了确保霍尔元件的性能和可靠性,进行全面
    的头像 发表于 02-11 15:41 1181次阅读

    电源滤波器的可维护性如何

    电源滤波器可维护性包括模块化设计、易拆卸结构、耐腐蚀及散热材料、定期清洁检查、元件更换,维护成本低,智能化设计减少人工需求,定期性能测试监控性能变化。
    的头像 发表于 01-09 09:48 659次阅读
    电源滤波器的<b class='flag-5'>可维护性</b>如何