0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Frontier为何在部署上遇到供应问题

lPCU_elecfans 来源:电子发烧友网 作者:电子发烧友网 2022-07-27 10:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/周凯扬)作为在TOP500、GREEN500(单机柜)和HPL-AI三榜排名第一的超算系统,Frontier被列为第一完全不是浪得虚名。作为首个公开突破E级的超算,Frontier的通用算力已经达到了1.1 exaflops,能效比为52.23 gigaflops/watt,AI算力更是达到了可怕的6.88 exaflops。但就是这样一台冠绝群雄的超算,也在部署上遇到了供应问题。

狂堆硬件的Frontier

实现Frontier强大性能靠的并非只是单个强劲的硬件,还有庞大的系统规模。整个Frontier超算系统用到了74个慧与科技的Cray EX全液冷超算机柜和9408块AMD EYPC Trento CPU,Trento 是AMD Milan CPU的优化版,同样是64核128线程的处理器,但在时钟速度和能效上有所加强。至于为何没用上引入3D垂直缓存技术的Milanx-X芯片,那是因为这块处理器今年3月份才正式出货,如果拿它来打造Frontier的话,这抢发首台E级超算的机会很可能就失之交臂了。

除了CPU以外,Frontier还集成了37632块AMD MI250X GPU,37632块慧与的Cassini NIC,9.2PB的内存(4.6 PB HBM2e+4.6PB DDR4),32PB节点本地存储和716PB的中心存储。整个系统共由9408个节点组成,每台机柜包含128个节点,重量接近400公斤,庞大的系统也将功耗推至恐怖的29MW。除了MW级的液冷引擎外,Frontier还在外部部署了EVAPCO的冷却塔,确保Frontier能够保证峰值性能。

供应链噩梦Frontier的部署计划正式始于2018年,为了给Frontier腾出空间,原本属于Titan超算的数据中心被拆除,改建为Frontier的数据中心,泰坦也于2019年正式退役。同年,慧与的Cray系统成功拿下了美国能源部的订单,成了Frontier的基础构成部分。

但事实上,原本Frontier应该在2021年就部署完毕的,然而由于供应链上各个方面的影响,直到2021年秋季,才只完成了系统的交付,直到今年五月才完成最终的安装、优化和一次成功的E级HPL测试。当然了,Frontier最后能够争下首发E级超算,还是因为英特尔的7nm工艺也就是如今的Intel 4遇到了问题,被反复推迟,这样才让原本打算首发E级的Aurora超算,错失了这个殊荣。

但对于Frontier超级计算机这种大型集成系统来说,全球供应链各个环节上的问题基本也都撞上了。首先遇上问题的就是Frontier的两大直接供应商,慧与和AMD。2020年末,Frontier的零部件短缺到了最严重的地步。整个Frontier系统要用到685个不同料号的零部件,其中167个因为缺货问题而受到影响,总数达到了200万个。

慧与表示,当它们开始下单用于机柜和Slingshot互联系统的部件时,不少供应商都将订单的交期加上了6个月甚至是一年,这时连离打造好第一个机柜都还缺12种零部件。AMD就更加不用说了,2020年到2021年是全球GPU缺货最严重的一段时间,虽然大部分都认为受影响的只有被挖矿潮波及的消费级GPU,但对于AMD来说,他们在GPU加速卡零部件上的供应也遇到了问题,就拿MI250这张卡来说,且不说GPU芯片的产能供应是否充足,当时打造这一张GPU加速卡就有15种零部件需要补全。

波及的不只是CPU和GPU要知道这些短缺问题影响的不只是CPU和GPU芯片,还有不少零部件当时都处于全球缺货最糟糕的状态,比如稳压器、晶振和功率模块。为了确保能在2021年交付,慧与不得不每周甚至每天打给次级供应商,询问交期的问题。慧与和AMD还组了个15人的小团队,他们唯一的工作就是寻找哪有Frontier所需的零部件,或是可以替代的部件,比如去和经销商协调,询问分销商的库存,或是找其他同样由于芯片短缺而无法出货的公司,询问他们是否愿意出手现在已有的零部件。

正是因为在这样的努力下,Frontier终于在去年7月将缺失的167种零部件减少至了1种,而这依然缺失的一种,就是用于打造慧与Slingshot 11互联交换机刀片的晶振,它们已有的晶振只能满足63台机柜的需求,还差8000多个晶振才能完成剩下11台机柜的交付。而这时候恰好又是东南亚地区疫情肆虐,爱普生等厂商的晶振工厂停工的时期,而这类智能NIC又需要超低噪声的高性能晶振。接着他们又花了3周时间才找齐这些晶振,这才在10月完成了最后一个机柜的交付。

8df30a68-0d38-11ed-ba43-dac502259ad0.png

凌晨满功耗运转的Frontier / 美国橡树岭国家实验室

但即便完成了交付,相关的工作并没有结束,超算并不像大家平日里动手组装的电脑一样,一旦安装完毕就能跑出应有的性能。恰恰相反,超算系统所有部件到位后,还要经历密集的测试、优化和维护工作,于是Frontier的研究人员白天就在更新软件优化系统,晚上就让Frontier跑HPL之类的性能测试,最终赶在TOP500 6月榜单结束测试结果收集前,提交了一次成功的E级跑分。

结语其实完成这么紧凑的部署安排对Frontier并不容易,固然慧与和AMD有应对供应链管理方面的经验,但与此同时,和Frontier几乎同样配置只是规模不同的欧洲超算LUMI也面临着缺货的困境,所以这两家公司几乎是承担着双线交付任务。但好在去年下半年供应开始缓解之后,两台超算的任务也都最终完成了。

此外,这两年经历的供应链噩梦想必也影响到了其他的超算部署,就拿国内的两台E级超算来说,目前都只是单机柜的测试系统的消息时有传出,并没有正式公开完整系统的性能参数,或多或少也是被供应问题拖慢了进度,否则这个风头不可能不出来抢的。毕竟在硬件迭代如此迅速的背景下,像天河二号过去那样连续稳坐榜首数年的情况已经很难复现了,但首个E级超算的称号可是无论多少年后都抢不走的。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20327

    浏览量

    254747
  • 硬件
    +关注

    关注

    12

    文章

    3627

    浏览量

    69163
  • AI算力
    +关注

    关注

    1

    文章

    165

    浏览量

    10024

原文标题:被供应链问题拖慢的超算部署

文章出处:【微信号:elecfans,微信公众号:电子发烧友网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    四足机器人“炸机”的BOM经济账:为何75V耐压是供应链的隐形防线?

    (Gate Driver IC) 发生了 EOS(过电应力)击穿。本文将从物理层和供应链成本两个维度,分析为何在 48V 动力架构下,“电压裕度不足” 是导致售后成本失控的隐形杀手,并给出一份基于 75V 耐压标准的选型决策矩阵。
    的头像 发表于 02-10 17:07 863次阅读

    何在2026年Rocky Linux(8、9和10)安装Docker

    Docker 已成为现代应用部署、开发和基础设施自动化的核心技术。如果你在服务器或VPS运行Rocky Linux,学会在Rocky Linux安装Docker是你2026年能掌握的最宝贵技能
    的头像 发表于 01-12 17:21 1819次阅读

    何在NVIDIA Jetson AGX Thor上部署1200亿参数大模型

    一期介绍了如何在 NVIDIA Jetson AGX Thor 使用 Docker 部署 vLLM 推理服务,以及使用 Chatbox 作为前端调用 vLLM 运行的模型(上期文章
    的头像 发表于 12-26 17:06 5231次阅读
    如<b class='flag-5'>何在</b>NVIDIA Jetson AGX Thor上<b class='flag-5'>部署</b>1200亿参数大模型

    何在ZYNQ本地部署DeepSeek模型

    一个将最小号 DeepSeek 模型部署到 AMD Zynq UltraScale+ MPSoC 处理系统的项目。
    的头像 发表于 12-19 15:43 7803次阅读
    如<b class='flag-5'>何在</b>ZYNQ本地<b class='flag-5'>部署</b>DeepSeek模型

    何在DGX Spark运行NVIDIA Omniverse

    首先感谢 Vigor 同学第一时间的分享,以下是具体如何在 DGX Spark 运行 Omniverse 的方法。
    的头像 发表于 12-17 10:13 899次阅读
    如<b class='flag-5'>何在</b>DGX Spark<b class='flag-5'>上</b>运行NVIDIA Omniverse

    热重分析仪:为何在某些严格场景下不能直接用于炭黑含量测试?

    热重分析仪:为何在某些严格场景下不能直接用于炭黑含量测试?热重分析仪(TGA)作为材料热分析的核心设备,理论可通过程序控温和气氛切换区分聚合物、炭黑及灰分。但在工业质量控制和标准符合性等严格场景中
    的头像 发表于 12-10 16:54 502次阅读
    热重分析仪:<b class='flag-5'>为何在</b>某些严格场景下不能直接用于炭黑含量测试?

    matlab的算法部署在simulink中

    有没有哪位大佬能提供一下思路,遇到一个问题matlab得不到神经网络fitcnet模型的权重参数,所以simulink没办法部署,那遇到这种情况该如何处理
    发表于 12-08 15:27

    迅为如何在RK3576上部署YOLOv5;基于RK3576构建智能门禁系统

    迅为如何在RK3576开发板上部署YOLOv5;基于RK3576构建智能门禁系统
    的头像 发表于 11-25 14:06 1960次阅读
    迅为如<b class='flag-5'>何在</b>RK3576上<b class='flag-5'>部署</b>YOLOv5;基于RK3576构建智能门禁系统

    何在NVIDIA Jetson AGX Thor通过Docker高效部署vLLM推理服务

    继系统安装与环境配置后,本期我们将继续带大家深入 NVIDIA Jetson AGX Thor 的开发教程之旅,了解如何在 Jetson AGX Thor ,通过 Docker 高效部署 vLLM 推理服务。
    的头像 发表于 11-13 14:08 4376次阅读
    如<b class='flag-5'>何在</b>NVIDIA Jetson AGX Thor<b class='flag-5'>上</b>通过Docker高效<b class='flag-5'>部署</b>vLLM推理服务

    DeepSeek模型如何在云服务器上部署

    随着大型语言模型(LLM)的应用日益普及,许多开发者和企业希望将像DeepSeek这样的优秀模型部署到自己的云服务器,以实现私有化、定制化服务并保障数据安全。本文将详细阐述部署DeepSeek模型
    的头像 发表于 10-13 16:52 1126次阅读

    何在智多晶FPGA使用MIPI接口

    大家好呀!今天我们来聊聊一个非常实用的话题——如何在智多晶FPGA使用MIPI接口。不管是做摄像头图像采集还是屏幕显示控制,MIPI都是非常常见的接口标准。掌握了它,你的视频项目开发效率将大大提升!
    的头像 发表于 09-11 09:37 1508次阅读

    FX2LP 如何在执行供应商请求时向主机发送 USB ACK 或 NACK?

    FX2LP 如何在执行供应商请求时向主机发送 USB ACK 或 NACK?
    发表于 05-26 06:45

    技术分享 | 如何在2k0300(LoongArch架构)处理器跑通qt开发流程

    技术分享 | 如何在2k0300开发板(LoongArch架构)处理器跑通qt开发流程
    的头像 发表于 05-20 11:05 1014次阅读
    技术分享 | 如<b class='flag-5'>何在</b>2k0300(LoongArch架构)处理器<b class='flag-5'>上</b>跑通qt开发流程

    何在Android设备安装Cyusb3014芯片驱动?

    1.如何在Android设备安装Cyusb3014芯片驱动? 我们在 Windows 上有 FX3 驱动程序 SDK。 2.如何在Android系统上下载固件到芯片中?
    发表于 05-15 07:23

    何在CentOS系统中部署ELK日志分析系统

    功能,使用户能够快速获取关键业务洞察。本文将详细介绍如何在 CentOS 系统中部署 ELK 日志分析系统,
    的头像 发表于 05-08 11:47 1156次阅读
    如<b class='flag-5'>何在</b>CentOS系统中<b class='flag-5'>部署</b>ELK日志分析系统