0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

被供应链问题拖慢的超算部署

E4Life 来源:电子发烧友网 作者:周凯扬 2022-07-27 08:38 次阅读
电子发烧友网报道(文/周凯扬)作为在TOP500、GREEN500(单机柜)和HPL-AI三榜排名第一的超算系统,Frontier被列为第一完全不是浪得虚名。作为首个公开突破E级的超算,Frontier的通用算力已经达到了1.1 exaflops,能效比为52.23 gigaflops/watt,AI算力更是达到了可怕的6.88 exaflops。但就是这样一台冠绝群雄的超算,也在部署上遇到了供应问题。
狂堆硬件的Frontier

实现Frontier强大性能靠的并非只是单个强劲的硬件,还有庞大的系统规模。整个Frontier超算系统用到了74个慧与科技的Cray EX全液冷超算机柜和9408块AMD EYPC Trento CPU,Trento 是AMD Milan CPU的优化版,同样是64核128线程的处理器,但在时钟速度和能效上有所加强。至于为何没用上引入3D垂直缓存技术的Milanx-X芯片,那是因为这块处理器今年3月份才正式出货,如果拿它来打造Frontier的话,这抢发首台E级超算的机会很可能就失之交臂了。

Frontier主体部分的布局 / 美国橡树岭国家实验室

除了CPU以外,Frontier还集成了37632块AMD MI250X GPU,37632块慧与的Cassini NIC,9.2PB的内存(4.6 PB HBM2e+4.6PB DDR4),32PB节点本地存储和716PB的中心存储。整个系统共由9408个节点组成,每台机柜包含128个节点,重量接近400公斤,庞大的系统也将功耗推至恐怖的29MW。除了MW级的液冷引擎外,Frontier还在外部部署了EVAPCO的冷却塔,确保Frontier能够保证峰值性能。

供应链噩梦

Frontier的部署计划正式始于2018年,为了给Frontier腾出空间,原本属于Titan超算的数据中心被拆除,改建为Frontier的数据中心,泰坦也于2019年正式退役。同年,慧与的Cray系统成功拿下了美国能源部的订单,成了Frontier的基础构成部分。

但事实上,原本Frontier应该在2021年就部署完毕的,然而由于供应链上各个方面的影响,直到2021年秋季,才只完成了系统的交付,直到今年五月才完成最终的安装、优化和一次成功的E级HPL测试。当然了,Frontier最后能够争下首发E级超算,还是因为英特尔的7nm工艺也就是如今的Intel 4遇到了问题,被反复推迟,这样才让原本打算首发E级的Aurora超算,错失了这个殊荣。

但对于Frontier超级计算机这种大型集成系统来说,全球供应链各个环节上的问题基本也都撞上了。首先遇上问题的就是Frontier的两大直接供应商,慧与和AMD。2020年末,Frontier的零部件短缺到了最严重的地步。整个Frontier系统要用到685个不同料号的零部件,其中167个因为缺货问题而受到影响,总数达到了200万个。

慧与表示,当它们开始下单用于机柜和Slingshot互联系统的部件时,不少供应商都将订单的交期加上了6个月甚至是一年,这时连离打造好第一个机柜都还缺12种零部件。AMD就更加不用说了,2020年到2021年是全球GPU缺货最严重的一段时间,虽然大部分都认为受影响的只有被挖矿潮波及的消费级GPU,但对于AMD来说,他们在GPU加速卡零部件上的供应也遇到了问题,就拿MI250这张卡来说,且不说GPU芯片的产能供应是否充足,当时打造这一张GPU加速卡就有15种零部件需要补全。

波及的不只是CPU和GPU

要知道这些短缺问题影响的不只是CPU和GPU芯片,还有不少零部件当时都处于全球缺货最糟糕的状态,比如稳压器、晶振和功率模块。为了确保能在2021年交付,慧与不得不每周甚至每天打给次级供应商,询问交期的问题。慧与和AMD还组了个15人的小团队,他们唯一的工作就是寻找哪有Frontier所需的零部件,或是可以替代的部件,比如去和经销商协调,询问分销商的库存,或是找其他同样由于芯片短缺而无法出货的公司,询问他们是否愿意出手现在已有的零部件。

正是因为在这样的努力下,Frontier终于在去年7月将缺失的167种零部件减少至了1种,而这依然缺失的一种,就是用于打造慧与Slingshot 11互联交换机刀片的晶振,它们已有的晶振只能满足63台机柜的需求,还差8000多个晶振才能完成剩下11台机柜的交付。而这时候恰好又是东南亚地区疫情肆虐,爱普生等厂商的晶振工厂停工的时期,而这类智能NIC又需要超低噪声的高性能晶振。接着他们又花了3周时间才找齐这些晶振,这才在10月完成了最后一个机柜的交付。

凌晨满功耗运转的Frontier / 美国橡树岭国家实验室

但即便完成了交付,相关的工作并没有结束,超算并不像大家平日里动手组装的电脑一样,一旦安装完毕就能跑出应有的性能。恰恰相反,超算系统所有部件到位后,还要经历密集的测试、优化和维护工作,于是Frontier的研究人员白天就在更新软件优化系统,晚上就让Frontier跑HPL之类的性能测试,最终赶在TOP500 6月榜单结束测试结果收集前,提交了一次成功的E级跑分。

结语

其实完成这么紧凑的部署安排对Frontier并不容易,固然慧与和AMD有应对供应链管理方面的经验,但与此同时,和Frontier几乎同样配置只是规模不同的欧洲超算LUMI也面临着缺货的困境,所以这两家公司几乎是承担着双线交付任务。但好在去年下半年供应开始缓解之后,两台超算的任务也都最终完成了。

此外,这两年经历的供应链噩梦想必也影响到了其他的超算部署,就拿国内的两台E级超算来说,目前都只是单机柜的测试系统的消息时有传出,并没有正式公开完整系统的性能参数,或多或少也是被供应问题拖慢了进度,否则这个风头不可能不出来抢的。毕竟在硬件迭代如此迅速的背景下,像天河二号过去那样连续稳坐榜首数年的情况已经很难复现了,但首个E级超算的称号可是无论多少年后都抢不走的。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 供应链
    +关注

    关注

    3

    文章

    1549

    浏览量

    38381
  • 超算
    +关注

    关注

    1

    文章

    107

    浏览量

    8965
收藏 人收藏

    评论

    相关推荐

    掌控供应链,决胜市场:SCM供应链管理系统的战略意义

    SCM供应链管理系统是现代企业管理中的重要组成部分,它通过整合和优化供应链中的各个环节,实现企业资源的高效利用和协同运作。
    的头像 发表于 03-06 10:54 129次阅读

    工业交换机与供应链网络的融合,优化智能供应链管理

    随着全球贸易的快速发展,供应链管理在现代企业运营中起着至关重要的作用。而工业交换机与供应链网络的融合,不仅可以提高供应链的可靠性、灵活性和效率,还能为企业带来更大的竞争优势。本文将深入探讨工业交换机与
    的头像 发表于 12-27 09:28 174次阅读

    数字化供应链助力电子产业高质量发展,华秋2023电子设计与制造技术研讨会成功举办!

    的转型升级,一站式数字化电子供应链应愈发重要,数字化智能制造的全链条中电子设计与制造的问题也越来越受到重视。 在此背景下,华秋联合新一代产业园主办的《2023电子设计与制造技术研讨会》于11月23
    发表于 11-24 16:47

    浮思特| 巴以冲突影响电子供应链

    以色列与巴勒斯坦的冲突给其本国的电子产品供应链带来了巨大的挑战和不确定性,影响了跨国公司、生产设施以及熟练劳动力和货物的流动。这种情况凸显了全球供应链在动荡时期进行适应性和应急计划的必要性。
    的头像 发表于 10-15 11:30 339次阅读
    浮思特| 巴以冲突影响电子<b class='flag-5'>供应链</b>

    全球供应链大迁移,四大热区出线

    近年来,美中贸易战和科技竞争的不断升级,推动了全球供应链的巨大变革。在以安全性取代效率、分散取代集中、缩短供应链取代拉长供应链的思维引导下,全球化供应链体系面临严峻挑战,中国作为“世界
    的头像 发表于 10-09 16:57 292次阅读

    顺丰供应链亮相2023中国工博会行业论坛 分享高效供应链背后的数字化支撑

    顺丰供应链大中华区首席数字官孙伟演讲 近日,第23届中国国际工业博览会(以下简称"工博会")在国家会展中心(上海)圆满落幕。顺丰供应链大中华区首席数字官孙伟作为企业代表,出席参加了工博会行业论坛之一
    的头像 发表于 09-27 11:29 451次阅读
    顺丰<b class='flag-5'>供应链</b>亮相2023中国工博会行业论坛 分享高效<b class='flag-5'>供应链</b>背后的数字化支撑

    华秋供应链,让硬科技创业更简单

    的团队。而作为一家拥有10多年电子供应链经验的产业数智化平台,华秋凭借旗下柔性供应链体系,精益生产及全面的质量管理体系,可为创业者提供“方案开发+PCB+元器件+
    的头像 发表于 09-26 10:25 328次阅读
    华秋<b class='flag-5'>供应链</b>,让硬科技创业更简单

    华秋供应链,让硬科技创业更简单

    优秀的团队。 而作为一家拥有10多年电子供应链经验的产业数智化平台,华秋凭借旗下柔性供应链体系,精益生产及全面的质量管理体系,可为创业者提供“方案开发+PCB+元器件+SMT/PCBA”一站式服务
    发表于 09-26 10:24

    柔性电子供应链企业的机会与挑战

    不断推进,形成上下游贯通发展、协同互促的良好局面。 电子供应链 在具体的工作举措上,《方案》 从传统及新型行业市场、绿色智能制造 、电子信息技术创新、 供应链转型升级 、产业政策环境等方面提出了具体
    发表于 09-15 11:37

    迎产业东风,柔性电子供应链企业的机会与挑战

    不断推进,形成上下游贯通发展、协同互促的良好局面。 电子供应链 在具体的工作举措上,《方案》 从传统及新型行业市场、绿色智能制造 、电子信息技术创新、 供应链转型升级 、产业政策环境等方面提出了具体
    发表于 09-15 11:36

    装备软件供应链网络安全风险分析与对策

    针对软件供应链的网络攻击,常常利用系统固有安全漏洞,或者预置的软件后门开展攻击活动,并通过软件供应链形成的网链结构将攻击效果向下游传播给供应链中所有参与者(包括最终用户)。近年来,软件供应链
    的头像 发表于 07-29 16:37 1145次阅读
    装备软件<b class='flag-5'>供应链</b>网络安全风险分析与对策

    “智慧赋能 强”|工程物资供应链管理中的数字化应用

    工程项目中的供应链管理至关重要 工程建设行业是国民经济的重要支柱之一,虽然在总产值上持续保持增长态势,但近年来行业的利润总额增速已连续多年呈现下降趋势。究其原因,可以大体从两个方面来看:一是行业盈利
    发表于 04-25 11:28

    OHDC2023回顾11 | 华秋一站式供应链服务 加速OpenHarmony商业落地

    华秋一站式供应链服务 加速OpenHarmony商业落地演讲PPT资料免费下载,有需要的自行下载~
    发表于 04-21 17:17

    RFID技术在供应链管理中的应用

    RFID是无线射频识别技术的简称,广泛应用于物流、制造、供应链等领域。在供应链管理中,RFID技术可以提供更加精确、实时的信息,帮助企业减少损耗和时间成本,提高效率和可靠性。本文将介绍RFID技术在供应链管理中的应用及其优势。
    的头像 发表于 04-17 10:20 1072次阅读
    RFID技术在<b class='flag-5'>供应链</b>管理中的应用

    北京筑龙:采购供应链平台-构建能源企业数智供应链的必经之路

    4月13至14日,“中国国际管道会议(CIPC)暨技术装备与成果展”高峰论坛在北京举行。来自国内外管道领域的院士、知名专家、学者齐聚一堂,共同探讨新时代背景下管道技术领域的发展方向。作为采购供应链
    的头像 发表于 04-14 14:29 433次阅读