Frontier为何在部署上遇到供应问题-电子发烧友网

电子发烧友网报道（文/周凯扬）作为在TOP500、GREEN500（单机柜）和HPL-AI三榜排名第一的超算系统，Frontier被列为第一完全不是浪得虚名。作为首个公开突破E级的超算，Frontier的通用算力已经达到了1.1 exaflops，能效比为52.23 gigaflops/watt，AI算力更是达到了可怕的6.88 exaflops。但就是这样一台冠绝群雄的超算，也在部署上遇到了供应问题。

狂堆硬件的Frontier

实现Frontier强大性能靠的并非只是单个强劲的硬件，还有庞大的系统规模。整个Frontier超算系统用到了74个慧与科技的Cray EX全液冷超算机柜和9408块AMD EYPC Trento CPU，Trento 是AMD Milan CPU的优化版，同样是64核128线程的处理器，但在时钟速度和能效上有所加强。至于为何没用上引入3D垂直缓存技术的Milanx-X芯片，那是因为这块处理器今年3月份才正式出货，如果拿它来打造Frontier的话，这抢发首台E级超算的机会很可能就失之交臂了。

除了CPU以外，Frontier还集成了37632块AMD MI250X GPU，37632块慧与的Cassini NIC，9.2PB的内存（4.6 PB HBM2e+4.6PB DDR4），32PB节点本地存储和716PB的中心存储。整个系统共由9408个节点组成，每台机柜包含128个节点，重量接近400公斤，庞大的系统也将功耗推至恐怖的29MW。除了MW级的液冷引擎外，Frontier还在外部部署了EVAPCO的冷却塔，确保Frontier能够保证峰值性能。

供应链噩梦Frontier的部署计划正式始于2018年，为了给Frontier腾出空间，原本属于Titan超算的数据中心被拆除，改建为Frontier的数据中心，泰坦也于2019年正式退役。同年，慧与的Cray系统成功拿下了美国能源部的订单，成了Frontier的基础构成部分。

但事实上，原本Frontier应该在2021年就部署完毕的，然而由于供应链上各个方面的影响，直到2021年秋季，才只完成了系统的交付，直到今年五月才完成最终的安装、优化和一次成功的E级HPL测试。当然了，Frontier最后能够争下首发E级超算，还是因为英特尔的7nm工艺也就是如今的Intel 4遇到了问题，被反复推迟，这样才让原本打算首发E级的Aurora超算，错失了这个殊荣。

但对于Frontier超级计算机这种大型集成系统来说，全球供应链各个环节上的问题基本也都撞上了。首先遇上问题的就是Frontier的两大直接供应商，慧与和AMD。2020年末，Frontier的零部件短缺到了最严重的地步。整个Frontier系统要用到685个不同料号的零部件，其中167个因为缺货问题而受到影响，总数达到了200万个。

慧与表示，当它们开始下单用于机柜和Slingshot互联系统的部件时，不少供应商都将订单的交期加上了6个月甚至是一年，这时连离打造好第一个机柜都还缺12种零部件。AMD就更加不用说了，2020年到2021年是全球GPU缺货最严重的一段时间，虽然大部分都认为受影响的只有被挖矿潮波及的消费级GPU，但对于AMD来说，他们在GPU加速卡零部件上的供应也遇到了问题，就拿MI250这张卡来说，且不说GPU芯片的产能供应是否充足，当时打造这一张GPU加速卡就有15种零部件需要补全。

波及的不只是CPU和GPU要知道这些短缺问题影响的不只是CPU和GPU芯片，还有不少零部件当时都处于全球缺货最糟糕的状态，比如稳压器、晶振和功率模块。为了确保能在2021年交付，慧与不得不每周甚至每天打给次级供应商，询问交期的问题。慧与和AMD还组了个15人的小团队，他们唯一的工作就是寻找哪有Frontier所需的零部件，或是可以替代的部件，比如去和经销商协调，询问分销商的库存，或是找其他同样由于芯片短缺而无法出货的公司，询问他们是否愿意出手现在已有的零部件。

正是因为在这样的努力下，Frontier终于在去年7月将缺失的167种零部件减少至了1种，而这依然缺失的一种，就是用于打造慧与Slingshot 11互联交换机刀片的晶振，它们已有的晶振只能满足63台机柜的需求，还差8000多个晶振才能完成剩下11台机柜的交付。而这时候恰好又是东南亚地区疫情肆虐，爱普生等厂商的晶振工厂停工的时期，而这类智能NIC又需要超低噪声的高性能晶振。接着他们又花了3周时间才找齐这些晶振，这才在10月完成了最后一个机柜的交付。

凌晨满功耗运转的Frontier / 美国橡树岭国家实验室

但即便完成了交付，相关的工作并没有结束，超算并不像大家平日里动手组装的电脑一样，一旦安装完毕就能跑出应有的性能。恰恰相反，超算系统所有部件到位后，还要经历密集的测试、优化和维护工作，于是Frontier的研究人员白天就在更新软件优化系统，晚上就让Frontier跑HPL之类的性能测试，最终赶在TOP500 6月榜单结束测试结果收集前，提交了一次成功的E级跑分。

结语其实完成这么紧凑的部署安排对Frontier并不容易，固然慧与和AMD有应对供应链管理方面的经验，但与此同时，和Frontier几乎同样配置只是规模不同的欧洲超算LUMI也面临着缺货的困境，所以这两家公司几乎是承担着双线交付任务。但好在去年下半年供应开始缓解之后，两台超算的任务也都最终完成了。

此外，这两年经历的供应链噩梦想必也影响到了其他的超算部署，就拿国内的两台E级超算来说，目前都只是单机柜的测试系统的消息时有传出，并没有正式公开完整系统的性能参数，或多或少也是被供应问题拖慢了进度，否则这个风头不可能不出来抢的。毕竟在硬件迭代如此迅速的背景下，像天河二号过去那样连续稳坐榜首数年的情况已经很难复现了，但首个E级超算的称号可是无论多少年后都抢不走的。

审核编辑：彭静

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉