0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

HPC黄金三角:可靠、可用、可服务

新思科技 来源:未知 2023-02-17 23:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

98cab732-aed8-11ed-bfe3-dac502259ad0.gif

高性能计算(HPC)曾一度是大型数据中心和超级计算机的专属,但如今依赖HPC的应用不胜枚举,在与我们生活息息相关的各种应用领域都必不可少,如科学、医疗、安全、短视频…...

为实现更好的HPC芯片设计,开发者们应该了解如何提升RAS,即可靠性 (Reliability)、可用性 (Availability)和可服务性 (Serviceability)。

RAS的含义并不难懂,但涉及到HPC的SoC时,它表示什么呢?数据中心运营商长期以来一直与客户保持服务水平协议,以确保系统的正常运行时间。RAS是对此类协议的补充,现已能通过新技术获得支持,最终生成切实可行的见解。本文将进一步介绍为什么芯片生命周期管理(SLM)、嵌入式监控IP以及正确的设计和验证工具能够帮助HPC设计实现高水平的RAS。

高性能计算三大关键组成

家用安全门铃或楼宇监控系统所拍摄的视频片段、金融和商业运作建模、科学和医学研究、增强现实和虚拟现实……随着设备和系统收集的数据激增,再结合人工智能(AI)以及大量可用的计算资源,开发者们可以快速获得切实可行的见解,这使得HPC比1940年代第一台超级计算机的应用更为广泛。

如今,常规的HPC基础设施包括计算、网络和存储三大部分,且均有性能、延迟、功耗、可扩展性、效率和安全性方面的要求。下面我们分别进行说明:
  • 计算部分包括CPUGPU、加速器、片上网络(NoC)和计算服务器,用于处理高性能数据。该部分的关键在于复杂的多核甚至Multi-Die系统架构、快速访问的大内存、高带宽I/O接口电源/冷却管理和安全性。片内监控和分析可支持RAS目标。
  • 网络部分包括交换机和路由器、适配器、网桥、中继器、网络接口卡(如智能网卡)以及光电互连,可提供高性能连接,最好具有高吞吐量、低延迟、高能效、可配置性和可扩展性、实时监控和报告以及安全性。调试能力、前向纠错(FEC)和IP可以支持RAS要求。
  • 存储部分包括固态驱动器(SSD)或硬盘驱动器(HDD)、存储区域网络(SAN)和网络附接存储(NAS)。理想情况下,该部分应可提供高带宽存储,减少数据传输能耗和延迟,具有灵活性、可扩展性、可靠性和安全性。内置自测(BIST)、纠错码(ECC)和冗余等功能可以实现高水平的RAS。
HPC系统主要分为单一计算系统和混合计算系统两类。单一计算系统只有CPU,而混合计算系统同时拥有GPU和CPU,GPU运行任务,CPU监督计算。

HPC集群可包含大量的服务器,而计算集群的总物理尺寸、能耗或热量输出可能会成为一大问题。此外,集群对服务器之间的专用通信也有要求。

在集群中服务器数量相当多时,微小的设计改进也可以创造巨大的价值,因此,为HPC优化的服务器设计正在崭露头角。有时,此类设计针对搜索引擎公司等大型公共网络运营商,也有益于HPC集群。但它们也可以提供只适合HPC用户的功能。例如,如果系统被设计成以不同的方式提供集群互连,有望大幅减少布线。

通过片内监控和分析

提供可行见解

HPC能够处理PB级甚至ZB级的数据,并且能够实时(或接近实时)运行复杂的模型。而如果HPC系统出现故障,必然会导致资金损失和业务中断。对于关键任务应用来说,后果会更加严重。在先进工艺节点上,有大型单片晶粒或Multi-die等复杂架构,满足RAS的要求则更具有挑战性。

根据当前应用的重要性,系统可以建立备份,在发生故障时提供冗余备份。此外,还可以在系统和芯片层面以其它方式实现RAS目标。SLM也发挥着巨大的作用,它可以提供智能、自动化片内监控IP和方法,在系统生命周期的每个阶段生成可行见解。

将监视器和传感器嵌入到芯片中是开发者们几十年来一直在做的事。然而,该技术已经可以提供准确度更高、颗粒度更细的数据。这提高了设备的实时环境、结构和功能状况的可见性,可以实现监控温度热点、工艺变化和电源电压,准确测量时序裕量等功能。

得益于嵌入式、基于云的分析以及统一的SLM解决方案,设计团队能够在设计、研发和生产阶段甚至现场操作时持续、实时掌握其设备的芯片健康状况,从而更好地了解根本原因,并立即进行调试和维修,降低成本和潜在的危害。SLM可以解决晶体管老化、延迟故障等问题,能够带来诸多益处。

举例而言,如果卫星出现故障,常见的办法是在实验室维修电路板,再将其安装在卫星上,这会花费数周时间,其间卫星需要停用,以进行故障诊断和维修。借助SLM技术在现场进行故障检修和修复,团队可以在更少的中断次数和更短的中断时间内,保持系统的正常运行。

数据中心也可以体现SLM是如何加快实现RAS要求的。

  • 在芯片层面,在现场进行远程调试的能力是团队成功打造超大规模数据中心的关键,SLM提供的远程遥测和监控功能使之成为可能。

  • 在系统层面,SLM精确的时钟降频对最大化数据吞吐量和CPU、GPU和AI引擎的利用率至关重要。

  • 在数据中心层面,SLM工具可以有效监控服务器性能、网络拥塞和磁盘利用率,从而检测和预测数据中断,增加正常运行时间。

  • 在超大规模层面,团队可以利用SLM最大限度地减少片上热量和供电压力,以延长可靠性。

  • 对于Die-to-Die高速接口,SLM可监控信号完整性,结合接口完整性的冗余,有助于确保小芯片设计的稳健性。

总结

端到端的解决方案并非是各自独立的点工具的集合,而能够提供设计校准分析、片内监控、系统性能优化等多项功能,无缝实现RAS目标。新思科技可提供出色的端到端流程,我们的芯片生命周期管理系列还配有广泛的低延迟、经验证的IP组合以及面向HPC应用的设计和验证技术。

该解决方案配备物理感知芯片监控器、云分析以及嵌入式分析和优化技术,还包括SoC传感器IP和制程监控器,用于设计、研发、生产阶段和现场的优化。在制造阶段和现场,监控器可以收集有关芯片的实时数据,辅以全面的测试和调试解决方案,可确保高水平的RAS。

随着HPC应用日益增多,SoC开发必须确保系统的高可靠性、可用性和可服务性。实现最佳水平的RAS,支持流媒体视频、气候变化建模等多项应用,万物数智化的世界才能保持高速运行。

9c0806ca-aed8-11ed-bfe3-dac502259ad0.gif   


原文标题:HPC黄金三角:可靠、可用、可服务

文章出处:【微信公众号:新思科技】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 新思科技
    +关注

    关注

    5

    文章

    923

    浏览量

    52634

原文标题:HPC黄金三角:可靠、可用、可服务

文章出处:【微信号:Synopsys_CN,微信公众号:新思科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    三角函数的查表法

    在单片机运算中,以整数形式或说定点数形式进行运算会比以浮点数形式运算快。电机控制中,经常需要用到三角函数,正弦,余弦,或者正切,求解这一类函数对于性能没那么优秀的单片机来说十分吃力,实际表现为计算
    发表于 11-19 08:06

    三角启动电路图资料

    三角启动电路图,解决电机启动电流大问题
    发表于 10-10 14:29 2次下载

    上海贝岭入选“中国ESG上市公司长三角先锋100(2025)”

    近日,《长三角ESG行动报告(2025)》发布,上海贝岭入选“中国ESG上市公司长三角先锋100(2025)”。 《长三角ESG行动报告(2025)》以实际运营地区位于长三角地区307
    的头像 发表于 10-09 09:43 617次阅读

    普源信号发生器生成三角波的幅度控制要点

    在电子测试与实验中,三角波作为基础波形之一,广泛应用于信号仿真、系统调试等场景。普源信号发生器通过精密的电路设计,灵活生成不同参数的三角波信号。本文结合其工作原理,探讨幅度控制的
    的头像 发表于 09-09 11:47 581次阅读
    普源信号发生器生成<b class='flag-5'>三角</b>波的幅度控制要点

    方波转三角波输出为一条直线

    XSC2没有产生三角波为什么
    发表于 07-11 15:55

    西井科技亮相第七届长三角商业创新大会

    近日,以"质变与智变:价值新范式,创领新生态"为主题的第七届长三角商业创新大会在上海召开。大会由上海长三角商业创新研究院(以下简称“商创院”)主办,复旦大学管理学院学术支持,汇聚
    的头像 发表于 07-07 17:57 824次阅读

    三角波进入LTC6362IMS8差分运放后,波形变小怎么解决?

    问题描述:断开差分输入端,输入端的三角波幅值4V,接上差分运放,幅值变成700mV. 三角波的特点:三角波频率是100HZ,调制载波频率97KHZ。
    发表于 06-12 06:47

    海积信息亮相第四届长三角国际应急减灾和救援博览会

    此前,2025年5月13日至15日,第四届长三角国际应急减灾和救援博览会在国家会展中心(上海)圆满举行。本届博览会以“高水平安全服务高质量发展”为主题,全面展示长三角应急管理协同成果与应急产业新质生产力,推动城市安全治理与技术应
    的头像 发表于 05-20 16:46 673次阅读

    维智科技入选长三角时空地理数据可信联盟首批理事单位

    为推进长三角一体化发展,加速时空地理数据要素市场化进程,由上海市测绘院、上海数据交易所联合发起的“长三角时空地理数据可信联盟”于2025年5月8日在上海青浦成立。
    的头像 发表于 05-12 11:09 812次阅读

    一篇文章教你使用运放实现三角波、方波(详细电路分析)+multisim仿真

    前言信号发生器是电子工程师最常用的几个仪器之一吧,三角波和方波是最常用的波形,在之前的文章中,我们已经介绍过RC延迟电路,今天我就教大家通过RC延迟和运放来实现三角波和方波。 仿真软件版本本次介绍
    发表于 04-23 14:32

    电机控制系统星三角启动转换器的开发与应用

    三角软启动方法。此时电网提供的启动电流只有全电压启动电流的1/3,但启动力矩也只有全电压启动力矩的1/3。星三角启动,解决了电机启动瞬间对电网的冲击和对其他用电设备的影响,实现了电机控制的软启动方式
    发表于 04-17 22:33

    马达控制上必要的知识 三角函数

    为了理解马达控制技术,必须理解如下基础学问。 (1) 数学:三角函数,指数函数,复数函数,微分,积分,矩阵,坐标(直交,极) (2) 电气电路:交流理论(3 相交流, 歪交流),过渡现象 (3
    发表于 03-18 12:23

    17座站,启源芯动力打造闽南金三角电动重卡充换电网络

    福建厦漳泉地区,土地面积仅占福建全省的五分之一,却贡献了全省46%GDP产值。在这片"闽南金三角"地区,启源芯动力以17座新能源电动重卡充换电站串联起地港口物流、砂石料运输
    的头像 发表于 02-24 15:34 752次阅读
    17座站,启源芯动力打造闽南<b class='flag-5'>金三角</b>电动重卡充换电网络

    用DAC8562输出一个三角波测试,用示波器发现输出的三角波有毛刺,怎么解决?

    我用DAC8562输出一个三角波测试,用示波器发现输出的三角波有些毛刺,负载是XTR111,电路图按照datasheet提供的电路设计,采用同步模式,将LDAC接地,CLR上拉,SPI通信和输出
    发表于 01-23 06:21

    三角,如何把数据要素变成新长江?

    三角数据一体化,为“数据要素x”做出示范
    的头像 发表于 12-24 14:07 1060次阅读
    长<b class='flag-5'>三角</b>,如何把数据要素变成新长江?