0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

国内为何造不出高能效的超级计算机? 对于每个多家的超算系统来说,能占据TOP500超算榜单的前十是一项极

E4Life 来源:电子发烧友网 作者:周凯扬 2022-07-20 08:09 次阅读
对于每个多家的超算系统来说,能占据TOP500超算榜单的前十是一项极大的荣誉。然而随着美国、日本、欧洲与中国的E级超算计划纷纷提上日程,超算系统功耗墙的问题也开始显现,一台E级超算系统带来的功耗已经再也无法被忽视了。而早在2013年开始发布的榜单GREEN500,则开始按能效比进行排名,为的就是鼓励各国各厂商开始高能效比的超算设计。

国产超算面临的功耗问题

在面临功耗墙的挑战时,国内超算又是如何解决的呢?这个问题尤其困扰着排名前列的几大研究型超算,比如国家并行计算机工程技术研究中心研制的神威太湖之光超级计算机。毕竟如果只拼性能,不看功耗,与超算的设计理念其实是背道而驰的。

我们看前十的超算中,乃至前100的超算中,基本都是采购AMD英特尔英伟达硬件,再交由HPE、联想、浪潮等厂商打造整个超算系统。这对于不涉及生产制造的一些研究中心来说,可以说是一个投入大成本但省去麻烦的选择。对于他们来说,在功耗上也能收获好处,那就是这些硬件厂商往往已经在设计之初考虑到了低功耗,而且也有完备的电源、功耗管理方案。

但这些方案对于我国的研究型超算来说就不太适用了,且不说国内各大超算中心已经进入实体清单,根本买不到这些处理器。再者此类方案也无法套用在自研的神威太湖之光上系统上,因为这台超算所用的不是商业组件,也不是传统的x86多核架构,而是申威26010处理器的众核架构。

神威太湖之光超级计算机 / 国家超级计算无锡中心

申威26010处理器在开发之初就用上了低功耗设计,比如其结构就是通过集成众多核心来提升性能,降低单核最高工作频率的要求,从而避免了蹿升的功率。而且在众核架构下,其核心还支持深度睡眠、浅睡眠和低功耗等运行模式,避免了无工作负载的核心带来额外的功耗。除了逻辑部分以外,其缓存、I/O也都采用了低功耗的设计,使得整个260核处理器的峰值功耗只有不到300W。

但单靠芯片上的低功耗设计是没法将整个超算系统的能效提上去的,从最新一期的GREEN500榜单中,就展现了我国的超算在能效上明显已经开始落后于人了。使用申威26010处理器的神威太湖之光在TOP500的性能排行榜上排名第六,但在GREEN500上却只有61名的成绩。

同样的还有天河2号,这台超算作为曾经的骄傲,如今仍在TOP500上占据了第九的席位,但在GREEN500上就已经落到百余名之后了。难不成国内的顶尖超算真的就无法高性能与低功耗兼得吗?

下一代E级神威和E级天河


这两台超算背后的团队并不是没有发现功耗问题,而他们将解决这些挑战的手段都放在了下一代E级的超算开发上。在7月份的《计算机学报》中,国家并行计算机工程技术研究中心的几名研究院发布了神威E级原型机所用到的功耗管理技术。而这一次,E级的神威系统用上了软硬协同的多层级功耗管理,包括从基础设施、编译和细粒度上开展功耗优化。

神威E级原型机换上了全新的申威26010+众核处理器,同样是4个运算控制核心+256个运算核心的260核配置。在神威的E级原型机上,两个处理器构成一个节点,整个系统由512个节点构成,峰值性能达到了3.13PFlops。

神威E级原型机用上了低功耗编译优化技术,基于硬件低功耗指令,通过指令调度/指令插桩,针对低功耗循环优化和调度优化,来节能降耗,从测试结果来看,降低了10%的功耗。不仅是芯片,神威E级原型机还用上了节点级、作业级乃至系统级的功耗管理。比如在节点层面上,如果计算阵列无任务时,系统会选择断开阵列时钟,实现阵列睡眠,节约节点功耗的63%。

至于基础设施上的节能,还是在供电和冷却上,文章中只提到了供电系统上的节能优化,比如利用系统功耗量化监测来完成高效电能变换等。而冷却系统上的优化我们已经在神威太湖之光上看到了一部分,那就是增加水泵变频器等自动化控制系统,实时调整输出保证高速运转。

至于E级的下一代天河超算“天河3号”,其实也早已通过原型机/验证系统在能效上展现了不错的成绩,但并不是通用计算,而是大数据图计算。在今年六月公布的大数据图计算能效比排名Big Data Green Graph500上,天河E级原型机系统提交的新成绩再度打破纪录,夺下了第一名的位置,甚至是在同样的核心数量下,超过了第一次提交成绩近50%。

仅仅只是高能效还不够?


接着,我们来聊聊另一个超算的能耗问题,此次我会不以在GREEN500并列第一第二的Frontier单机柜/超算系统为例,而是带大家看看排名第三,但硬件架构与Frontier基本一致的欧洲超算LUMI,之所以选择这台超算,也是因为它在功耗管理上有着一些独到之处。

LUMI配备了AMD第三代EPYC 64核CPU和Instinct MI250X GPU,与Frontier相同,但在规模上还是不比后者。这台由欧洲高性能计算联盟(EuroHPC)和LUMI联盟成员国出资打造的机器,将能效比做到了51.6GFlops/W的高度,略逊于52.227GFlops/W的Frontier,但这个第三名已经足以自证实力了。

固然这些超算的能效比和PUE(数据中心能源效率指标)结果都相当惊艳,但如今围绕这一榜单的争论也开始出现,那就是供给超算系统的能源究竟从哪来?究其缘由,我们之所以想要提高超算的能效比,就是为了不断减少其庞大系统带来的碳足迹。但设想一下,如果一台超算拥有极高的能效比,但其能源却是完全来自煤电,这样的话在减少碳足迹上起到的作用可以说微乎其微了,而这也是LUMI这台超算区别于其他超算的地方。

LUMI超级计算机 / LUMI联盟
LUMI超算选择了芬兰的卡亚尼市的一家旧造纸厂废弃后的棕地开建,这是因为对于严寒的北欧国家来说,如果重新选择一块绿地的话,短暂的夏日会使得建设时间缩短,进而拖慢项目进度,况且建设本身也是一个高碳排放的过程。还有一个原因,那就是该地区已经接入了芬兰国家电网的线路,可以为他们实现100%的纯水电供应,最高可达1000多MW,不仅如此,LUMI还有来自风电场的额外馈电线路。

除去可再生能源,LUMI也能将散发的多余热量出售给卡亚尼市,单靠LUMI的废热,就能解决卡亚尼市周边20%的区域供热,还能多赚一笔,降低了运营的净成本。如果只算超算运营的话,LUMI超算甚至可以看成是“负碳足迹”的,这也是欧洲本土能源发展多年来的成果,LUMI在享受其能源福利的同时,也对本地的能源供应做出了贡献。

写在最后

固然通过以上这些信息,让我们对未来国内E级超算的能效比有了信心。不过以上这些还只是基于原型机实现的能效比提升,多个节点组成的超算系统由于引入了额外的功耗,而且性能也不是单纯的线性提升,所以在能耗比上还是会有些许下降的,这点从Frontier和富岳两台超算上也能看出。

单机柜的Frontier TDS在GREEN500上排名第一,能效比达到了62.684GFlops/W,而整个Frontier 超算系统位列第二,能效比降为52.227GFlops/W,能效比有了16.7%的下降。而富岳的A64FX原型机在2020榜单上的能效比为16.285GFlops/W,而整个富岳超算的能效比为14.665GFlops/W,降低了10%左右。虽然下降的幅度不多,但相较整个超算系统整年的功耗来看,还是相当庞大的。

再者就是能源供给上的改造,无论是济南超算中心,还是天津超算中心,都可以先在超算项目上先行开展光伏、风能等可再生绿色能源的供电改造,为下一代神威、天河在基础设施的节能减碳上做好铺垫。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 超级计算机
    +关注

    关注

    2

    文章

    434

    浏览量

    41613
收藏 人收藏

    评论

    相关推荐

    从原子到超级计算机:NVIDIA与合作伙伴扩展量子计算应用

    量子计算领域的最新进展包括分子研究、部署巨型超级计算机,以及通过一项新的学术计划培养量子从业人员。
    的头像 发表于 03-22 10:05 148次阅读

    【量子计算机重构未来 | 阅读体验】+ 初识量子计算机

    欣喜收到《量子计算机——重构未来》书,感谢电子发烧友论坛提供了个让我了解量子计算机的机会! 自己对电子计算机有点了解,但对量子
    发表于 03-05 17:37

    埃尼集团宣布启动HPC6超级计算机项目,预计最高算力达600 PFlop/s 

    据了解,Eni 是全球知名石油巨头之一,同时也是意大利规模最大的三家企业之一,其股权结构中有约三分之一来自意大利政府。其目前已有两台超级计算机荣登 Top500 榜单——过去使用的 H
    的头像 发表于 01-30 13:43 256次阅读

    大模型非GPU专属 AMD EPYC秀出CPU AI实力

    根据世界超级计算机排名第62届top500,全体500超级电脑套装的amd平台为140个,比前年增加了39%。此外,amd根据green
    的头像 发表于 12-07 15:51 351次阅读

    新一代国产超算“天河星逸”亮相,多方面较“天河二号”实现倍增

    但天河星逸的具体性能尚不清楚。《天河二号》2013年研制成功,连续6届top500世界超级电脑6连冠。这是中国超级计算机系统研制进入世界前列的重要标志。
    的头像 发表于 12-07 14:43 646次阅读

    超算连续霸榜,富士通推动计算技术革新

    主要高性能计算机排名中, 连续第八次蝉联全球榜首 。与此同时,在TOP500和HPL-MxP榜单中,超级计算机“富岳”目前分别排名全球第四及
    的头像 发表于 11-29 17:10 266次阅读
    超算连续霸榜,富士通推动<b class='flag-5'>计算</b>技术革新

    走进国家中心(2)#计算机

    计算机软件网络
    未来加油dz
    发布于 :2023年11月15日 21:45:40

    走进国家中心(1)#计算机

    计算机软件网络
    未来加油dz
    发布于 :2023年11月15日 21:45:13

    走进国家中心#计算机

    互联网计算机操作系统
    未来加油dz
    发布于 :2023年11月15日 16:14:27

    TOP500新榜出炉,Frontier依旧牢坐榜首

    新的问题。   TOP500 榜单变化   从前十的超算系统看起,我们会发现美国橡树岭国家实验室的Frontier依旧牢牢占据的第一的位置,作为新时代的Exascale级
    的头像 发表于 11-15 00:14 1320次阅读
    <b class='flag-5'>TOP500</b>新榜出炉,Frontier依旧牢坐榜首

    gh200和超级计算机哪个牛

    gh200和超级计算机哪个牛 随着科技的不断发展,计算机已经成为人类生活不可或缺的一部分。计算机的崛起极大地改变了世界和每个人的生活。过去几
    的头像 发表于 08-17 10:51 323次阅读

    gh200和超级计算机哪个牛

    gh200和超级计算机哪个牛  随着科技的不断发展,计算机已经成为人类生活不可或缺的一部分。计算机的崛起极大地改变了世界和每个人的生活。过去
    的头像 发表于 08-16 17:34 334次阅读

    分析 丨 AI数据中心堪比超算,NVIDIA与AMD同场竞技

    超级计算机对于科学研究、能源、工程设计领域具有重要意义,在商业用途中也发挥重要作用。2022年高性能计算专业大会发布的全球超级
    的头像 发表于 07-17 10:12 235次阅读
    分析 丨 AI数据中心堪比超算,NVIDIA与AMD同场竞技

    走进国家中心#计算机文化

    计算机智慧办公
    未来加油dz
    发布于 :2023年06月07日 17:58:38

    超算、智算及数据中心报告(2023)

    超算算力以每秒浮点运算次数衡量,一般以Petaflops(PFlops)为度量单位。在全球Top500榜单中,中国供应商制造超级计算机数量连续9次市场份额位居全球第一。2018年底-2
    的头像 发表于 05-26 16:49 2533次阅读
    超算、智算及数据中心报告(2023)