电子发烧友网报道(文/周凯扬)作为在TOP500、GREEN500(单机柜)和HPL-AI三榜排名第一的超算系统,Frontier被列为第一完全不是浪得虚名。作为首个公开突破E级的超算,Frontier的通用算力已经达到了1.1 exaflops,能效比为52.23 gigaflops/watt,AI算力更是达到了可怕的6.88 exaflops。但就是这样一台冠绝群雄的超算,也在部署上遇到了供应问题。
实现Frontier强大性能靠的并非只是单个强劲的硬件,还有庞大的系统规模。整个Frontier超算系统用到了74个慧与科技的Cray EX全液冷超算机柜和9408块AMD EYPC Trento CPU,Trento 是AMD Milan CPU的优化版,同样是64核128线程的处理器,但在时钟速度和能效上有所加强。至于为何没用上引入3D垂直缓存技术的Milanx-X芯片,那是因为这块处理器今年3月份才正式出货,如果拿它来打造Frontier的话,这抢发首台E级超算的机会很可能就失之交臂了。

Frontier主体部分的布局 / 美国橡树岭国家实验室
除了CPU以外,Frontier还集成了37632块AMD MI250X GPU,37632块慧与的Cassini NIC,9.2PB的内存(4.6 PB HBM2e+4.6PB DDR4),32PB节点本地存储和716PB的中心存储。整个系统共由9408个节点组成,每台机柜包含128个节点,重量接近400公斤,庞大的系统也将功耗推至恐怖的29MW。除了MW级的液冷引擎外,Frontier还在外部部署了EVAPCO的冷却塔,确保Frontier能够保证峰值性能。
供应链噩梦
Frontier的部署计划正式始于2018年,为了给Frontier腾出空间,原本属于Titan超算的数据中心被拆除,改建为Frontier的数据中心,泰坦也于2019年正式退役。同年,慧与的Cray系统成功拿下了美国能源部的订单,成了Frontier的基础构成部分。
但事实上,原本Frontier应该在2021年就部署完毕的,然而由于供应链上各个方面的影响,直到2021年秋季,才只完成了系统的交付,直到今年五月才完成最终的安装、优化和一次成功的E级HPL测试。当然了,Frontier最后能够争下首发E级超算,还是因为英特尔的7nm工艺也就是如今的Intel 4遇到了问题,被反复推迟,这样才让原本打算首发E级的Aurora超算,错失了这个殊荣。
但对于Frontier超级计算机这种大型集成系统来说,全球供应链各个环节上的问题基本也都撞上了。首先遇上问题的就是Frontier的两大直接供应商,慧与和AMD。2020年末,Frontier的零部件短缺到了最严重的地步。整个Frontier系统要用到685个不同料号的零部件,其中167个因为缺货问题而受到影响,总数达到了200万个。
慧与表示,当它们开始下单用于机柜和Slingshot互联系统的部件时,不少供应商都将订单的交期加上了6个月甚至是一年,这时连离打造好第一个机柜都还缺12种零部件。AMD就更加不用说了,2020年到2021年是全球GPU缺货最严重的一段时间,虽然大部分都认为受影响的只有被挖矿潮波及的消费级GPU,但对于AMD来说,他们在GPU加速卡零部件上的供应也遇到了问题,就拿MI250这张卡来说,且不说GPU芯片的产能供应是否充足,当时打造这一张GPU加速卡就有15种零部件需要补全。
波及的不只是CPU和GPU
要知道这些短缺问题影响的不只是CPU和GPU芯片,还有不少零部件当时都处于全球缺货最糟糕的状态,比如稳压器、晶振和功率模块。为了确保能在2021年交付,慧与不得不每周甚至每天打给次级供应商,询问交期的问题。慧与和AMD还组了个15人的小团队,他们唯一的工作就是寻找哪有Frontier所需的零部件,或是可以替代的部件,比如去和经销商协调,询问分销商的库存,或是找其他同样由于芯片短缺而无法出货的公司,询问他们是否愿意出手现在已有的零部件。
正是因为在这样的努力下,Frontier终于在去年7月将缺失的167种零部件减少至了1种,而这依然缺失的一种,就是用于打造慧与Slingshot 11互联交换机刀片的晶振,它们已有的晶振只能满足63台机柜的需求,还差8000多个晶振才能完成剩下11台机柜的交付。而这时候恰好又是东南亚地区疫情肆虐,爱普生等厂商的晶振工厂停工的时期,而这类智能NIC又需要超低噪声的高性能晶振。接着他们又花了3周时间才找齐这些晶振,这才在10月完成了最后一个机柜的交付。

凌晨满功耗运转的Frontier / 美国橡树岭国家实验室
但即便完成了交付,相关的工作并没有结束,超算并不像大家平日里动手组装的电脑一样,一旦安装完毕就能跑出应有的性能。恰恰相反,超算系统所有部件到位后,还要经历密集的测试、优化和维护工作,于是Frontier的研究人员白天就在更新软件优化系统,晚上就让Frontier跑HPL之类的性能测试,最终赶在TOP500 6月榜单结束测试结果收集前,提交了一次成功的E级跑分。
结语
其实完成这么紧凑的部署安排对Frontier并不容易,固然慧与和AMD有应对供应链管理方面的经验,但与此同时,和Frontier几乎同样配置只是规模不同的欧洲超算LUMI也面临着缺货的困境,所以这两家公司几乎是承担着双线交付任务。但好在去年下半年供应开始缓解之后,两台超算的任务也都最终完成了。
此外,这两年经历的供应链噩梦想必也影响到了其他的超算部署,就拿国内的两台E级超算来说,目前都只是单机柜的测试系统的消息时有传出,并没有正式公开完整系统的性能参数,或多或少也是被供应问题拖慢了进度,否则这个风头不可能不出来抢的。毕竟在硬件迭代如此迅速的背景下,像天河二号过去那样连续稳坐榜首数年的情况已经很难复现了,但首个E级超算的称号可是无论多少年后都抢不走的。
狂堆硬件的Frontier
实现Frontier强大性能靠的并非只是单个强劲的硬件,还有庞大的系统规模。整个Frontier超算系统用到了74个慧与科技的Cray EX全液冷超算机柜和9408块AMD EYPC Trento CPU,Trento 是AMD Milan CPU的优化版,同样是64核128线程的处理器,但在时钟速度和能效上有所加强。至于为何没用上引入3D垂直缓存技术的Milanx-X芯片,那是因为这块处理器今年3月份才正式出货,如果拿它来打造Frontier的话,这抢发首台E级超算的机会很可能就失之交臂了。

Frontier主体部分的布局 / 美国橡树岭国家实验室
除了CPU以外,Frontier还集成了37632块AMD MI250X GPU,37632块慧与的Cassini NIC,9.2PB的内存(4.6 PB HBM2e+4.6PB DDR4),32PB节点本地存储和716PB的中心存储。整个系统共由9408个节点组成,每台机柜包含128个节点,重量接近400公斤,庞大的系统也将功耗推至恐怖的29MW。除了MW级的液冷引擎外,Frontier还在外部部署了EVAPCO的冷却塔,确保Frontier能够保证峰值性能。
供应链噩梦
Frontier的部署计划正式始于2018年,为了给Frontier腾出空间,原本属于Titan超算的数据中心被拆除,改建为Frontier的数据中心,泰坦也于2019年正式退役。同年,慧与的Cray系统成功拿下了美国能源部的订单,成了Frontier的基础构成部分。
但事实上,原本Frontier应该在2021年就部署完毕的,然而由于供应链上各个方面的影响,直到2021年秋季,才只完成了系统的交付,直到今年五月才完成最终的安装、优化和一次成功的E级HPL测试。当然了,Frontier最后能够争下首发E级超算,还是因为英特尔的7nm工艺也就是如今的Intel 4遇到了问题,被反复推迟,这样才让原本打算首发E级的Aurora超算,错失了这个殊荣。
但对于Frontier超级计算机这种大型集成系统来说,全球供应链各个环节上的问题基本也都撞上了。首先遇上问题的就是Frontier的两大直接供应商,慧与和AMD。2020年末,Frontier的零部件短缺到了最严重的地步。整个Frontier系统要用到685个不同料号的零部件,其中167个因为缺货问题而受到影响,总数达到了200万个。
慧与表示,当它们开始下单用于机柜和Slingshot互联系统的部件时,不少供应商都将订单的交期加上了6个月甚至是一年,这时连离打造好第一个机柜都还缺12种零部件。AMD就更加不用说了,2020年到2021年是全球GPU缺货最严重的一段时间,虽然大部分都认为受影响的只有被挖矿潮波及的消费级GPU,但对于AMD来说,他们在GPU加速卡零部件上的供应也遇到了问题,就拿MI250这张卡来说,且不说GPU芯片的产能供应是否充足,当时打造这一张GPU加速卡就有15种零部件需要补全。
波及的不只是CPU和GPU
要知道这些短缺问题影响的不只是CPU和GPU芯片,还有不少零部件当时都处于全球缺货最糟糕的状态,比如稳压器、晶振和功率模块。为了确保能在2021年交付,慧与不得不每周甚至每天打给次级供应商,询问交期的问题。慧与和AMD还组了个15人的小团队,他们唯一的工作就是寻找哪有Frontier所需的零部件,或是可以替代的部件,比如去和经销商协调,询问分销商的库存,或是找其他同样由于芯片短缺而无法出货的公司,询问他们是否愿意出手现在已有的零部件。
正是因为在这样的努力下,Frontier终于在去年7月将缺失的167种零部件减少至了1种,而这依然缺失的一种,就是用于打造慧与Slingshot 11互联交换机刀片的晶振,它们已有的晶振只能满足63台机柜的需求,还差8000多个晶振才能完成剩下11台机柜的交付。而这时候恰好又是东南亚地区疫情肆虐,爱普生等厂商的晶振工厂停工的时期,而这类智能NIC又需要超低噪声的高性能晶振。接着他们又花了3周时间才找齐这些晶振,这才在10月完成了最后一个机柜的交付。

凌晨满功耗运转的Frontier / 美国橡树岭国家实验室
但即便完成了交付,相关的工作并没有结束,超算并不像大家平日里动手组装的电脑一样,一旦安装完毕就能跑出应有的性能。恰恰相反,超算系统所有部件到位后,还要经历密集的测试、优化和维护工作,于是Frontier的研究人员白天就在更新软件优化系统,晚上就让Frontier跑HPL之类的性能测试,最终赶在TOP500 6月榜单结束测试结果收集前,提交了一次成功的E级跑分。
结语
其实完成这么紧凑的部署安排对Frontier并不容易,固然慧与和AMD有应对供应链管理方面的经验,但与此同时,和Frontier几乎同样配置只是规模不同的欧洲超算LUMI也面临着缺货的困境,所以这两家公司几乎是承担着双线交付任务。但好在去年下半年供应开始缓解之后,两台超算的任务也都最终完成了。
此外,这两年经历的供应链噩梦想必也影响到了其他的超算部署,就拿国内的两台E级超算来说,目前都只是单机柜的测试系统的消息时有传出,并没有正式公开完整系统的性能参数,或多或少也是被供应问题拖慢了进度,否则这个风头不可能不出来抢的。毕竟在硬件迭代如此迅速的背景下,像天河二号过去那样连续稳坐榜首数年的情况已经很难复现了,但首个E级超算的称号可是无论多少年后都抢不走的。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
供应链
+关注
关注
3文章
1794浏览量
41763 -
超算
+关注
关注
1文章
119浏览量
9566
发布评论请先 登录
相关推荐
热点推荐
宏集分享 | 从LogiPharma全球医药供应链大会, 看制药与医疗科技供应链的未来趋势
还能支撑未来越来越复杂的医药供应链?在刚刚结束的全球医药供应链峰会LogiPharma上,这种焦虑被进一步放大。大会现场,来自制药、生物科技、医疗设备、冷链物
海微科技受邀参加汽车供应链数智化协同推进会
5月20日,由中国汽车工程学会主办的汽车供应链数智化协同推进会在上海召开。本次大会集结整车企业供应链与数字化核心高管、零部件企业负责人及行业资深专家学者,探讨整车供应链数智化布局方略与落地范式。海微HIWAY创始人/CEO李林峰
Sapience 供应链平台 | 以供应链协同与测试管控,破解半导体全球化制造难题
在普迪飞用户大会上,MarcJacobs围绕测试与供应链协同(TestandSupplyChainOrchestration)主题发表分享,结合行业痛点、平台能力与真实演示,全面解读如何以一体化系统
中科曙光如何应对全球AI算力供应链变局
当前,全球AI算力供应链正经历变局。外部环境的变化,已从单一技术点的限制,演变为对芯片、存储、网络、模型等全栈环节的体系化壁垒。国内智算产业面临的是一场关乎底层技术自主权的系统性挑战。
《制造业企业智慧供应链:提升韧性和安全》正式发布
近日,由全国信息技术标准化技术委员会智慧供应链标准工作组(TC28/WG32)组长单位牵头,多家龙头企业联合编制的《制造业企业智慧供应链:提升韧性和安全》研究报告(以下简称“报告”)正式发布。作为
AI算力爆发催生元器件短缺,智芯谷一站式供应如何破局?
“GPU紧缺”只是AI算力瓶颈的冰山一角——高端电容供货周期延长至40周、高速内存价格季度涨幅超30%、服务器散热方案重新设计周期压缩至2个月。AI算力爆发正在重塑整个电子元器件供应链
保隆科技荣获东风日产2025年度最佳供应链合作伙伴
近日,东风日产在广州举行2025年供应链合作伙伴大会,保隆科技被授予2025年度“最佳供应链合作伙伴”,张祖秋董事长代表公司接受颁奖,并在大会的分论坛发言。这是东风日产对保隆科技提供优秀产品和优质服务的高度肯定。
普华基础软件入选2025中国汽车供应链创新成果
近日,“2025中国汽车供应链大会”在安徽芜湖盛大举行,大会就汽车供应链创新转型与国际化发展等共同关切的热点,集各方之力,共同谋划新时期下汽车供应链发展的新蓝图。会上揭晓了芯片创新成果和汽车供
德力西电气亮相2025中央企业集采供应链年会
12⽉4-6⽇,2025(第⼋届)中央企业集采供应链年会暨补链延链精准对接会在济南盛大启幕。本次大会以“发挥产业集群优势,促进央地合作升级”为主题,解锁中央企业采购供应链的绿色发展新范
淘宝京东拼多多API:电商供应链优化的关键钥匙
在电商行业高速发展的今天,供应链效率已成为企业核心竞争力。淘宝、京东、拼多多三大平台开放的API接口,正成为打通供应链各环节的关键技术工具。本文将深入探讨如何通过这些API实现供应链优化。 一
汽车供应链大变局!特斯拉、通用推进“去中国化”
最近,全球汽车行业供应链正遭遇美中地缘政治张力的强烈冲击——继通用汽车之后,特斯拉也被曝出正加速推进供应链“去中国化”。
京东零售在智能供应链领域的前沿探索与技术实践
近日,“智汇运河 智算未来”2025人工智能创新创业大会在杭州召开。香港工程科学院院士、香港大学副校长、研究生院院长、讲座教授、京东零售供应链首席科学家申作军教授与供应链算法团队技术总监戚永志博士
德力西电气荣获2025绿色供应链引领奖
近日,2025第四届国际绿色零碳节暨2025 ESG领袖峰会在上海盛大启幕。凭借在绿色供应链领域的卓越表现,德力西电气成功斩获“2025绿色供应链引领奖”。
API在快时尚电商的供应链管理
在当今数字化时代,快时尚电商行业面临着前所未有的挑战:快速变化的时尚趋势、高频次的上新需求、以及消费者对即时交付的期望。这些因素对供应链管理提出了更高要求——敏捷性、效率和实时响应成为核心竞争力
RFID标签在服装供应链管理中的应用
二、RFID标签在服装供应链管理中的优势高效率:RFID可以快速批量读取服装信息,大幅缩短操作时间,提高供应链管理效率。准确性:RFID减少了人工操作的错误率,提高了服装供应链管理的准确性和可靠性
被供应链问题拖慢的超算部署
评论