0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Cygnus超算成为第一台进入超算top500榜单的GPU、FPGA混合加速超级计算机

DPVg_AI_era 来源:lp 2019-04-21 09:39 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

异构超级计算机时代已经到来。近日,日本筑波大学上线的Cygnus超算成为第一台进入超算top500榜单的GPUFPGA混合加速超级计算机。在如何让CPU、GPU、FPGA多硬件协调、高效、同步提供算力上迈出了重要一步。

如果说“异构超级计算机”的时代已经到来,那么本月早些时候在日本筑波大学上线的 CPU、GPU、FPGA混合硬件超算系统就是这个时代的首批探索者之一。

这台超算名为Cygnus,由NEC制造,目前在日本筑波大计算科学中心(CCS)运行,由Intel Xeon CPU,Nvidia Tesla GPU和Intel Stratix 10 FPGA共同提供硬件支持。

Cygnus系统架构:所有80个Cygnus节点都配备了两个Xeon“Skylake”黄金 CPU和四个Tesla V100 GPU,同时在32个节点中,还和GPU搭载了两个Stratix 10 FPGA。48个CPU-GPU专用节点称为“Deneb节点”(以最亮的Cygnus A星命名),而32个CPU-GPU-FPGA节点称为Albireo节点(以Cygnus A双星命名)。

FPGA型号为Bittware 520N PCIe卡,供应商为Nallatech,这些“重型”FPGA卡可以提供10 teraflops的单精度性能,以及四组DDR4内存。尤其是,该卡配备了四个100G光纤网络端口,共提供400Gbps带宽,可以通过自身结构直接与其他520N FPGA进行通信。在Cygnus中,可将8×8的2D环形网络中的64个FPGA相互连接。Bittware包括一个板级支持包(BSP),可供OpenCL开发人员使用。

每个Cygnus节点的双精度浮点性能为30 teraflops,其中28个节点算力由四个V100 GPU提供。由两个Stratix 10器件在配备FPGA的节点上提供20个单精度teraflops。整机可提供算力为2.4 petaflop(64位浮点)或5.12 petaflop(32位浮点)算力。

目前,Cygnus正在取代该机构之前使用的COMA,COMA是一款由Intel Xeon CPU和Xeon Phi协处理器驱动的Cray CS300计算机集群。它于2014年组建,今年3月底退役,为Cygnus让位。

Mellanox HDR InfiniBand负责Cygnus上的系统互连,与独立的FPGA网络一样,系统设计人员确保了足够的带宽来进行节点间通信。每个节点使用四个100Gbps HDR通道,连接为全二分fat树网络。InfiniBand网络还用于访问托管在DataDirect Networks ES14KX设备上的2.5 PB Lustre文件系统。

尽管“双加速硬件”的设定很新潮,但其实Cygnus并不是试验机。其组建的主要用途是为宇宙学、粒子物理学、生命科学和人工智能等领域科学研究提供生产力。通过CPUGPUFPGA的组合,力求在实际科学研究中最有效地发挥这些硬件各自的计算优势。

具体来说,GPU负责提供粗粒度并行计算,主要擅长SIMD友好型计算,而FPGA提供细粒度并行计算,更适合应用于非SIMD算法。而对于气候模拟,生物信息学、分子动力学、地球物理学和线性代数中使用的一些特定算法,FPGA已经证明能够实现比CPU、GPU更快、更高效的运算。不过,在科学上可以通过代码同时高效利用这两种架构。

Cygnus系统架构图

Cygnus的目标应用之一是模拟早期宇宙,模拟光源的辐射传输。模拟过程是在一个套为ARGOT的代码中实现的,其中名为“ART”(真实辐射传输)的光线追踪算法是该模拟中的重要部分,ART部分更适合FPGA硬件平台上的大规模运行。

不过,ARGOT的其他部分在GPU上运行更合适,因此利用“双硬件加速”成为最佳解决方案。该应用程序在GPU和FPGA之间使用基于PCIe的直接存储器访问来实现协调,避免了使CPU受到影响而出现延迟。

ART实现是使用相对较高级别的OpenCL实现的,这表明其他开发人员也可以这样做。Bittware方面表示,使用OpenCL实现的用户与严格使用硬件描述语言(HDL)实现的用户进行对比发现,在许多情况下,OpenCL实现在性能方面与后者“足够接近”。

过去几年来,FPGA软件开发的进展促使微软、亚马逊和百度等巨头越来越广泛地采用FPGA硬件,尤其是在机器学习和推理等应用上。

但是,在高性能计算平台中,使用FPGA的设备更少。筑波大学的这台Cygnus将是唯一一个进入超算TOP500榜单的采用FPGA加速的超级计算机。德国帕德博恩大学去年安装了一台使用FPGA的超算,Cray CS500超级计算机,配备了32块Bittware 520N卡,不过该机没有配备GPU。

还有一些其他FPGA式的HPC集群遍布世界各地,包括美国佛罗里达州的CHREC(现改称SHREC)的Nova-G#系统,英国Hartree中心的Maxeler HPC-X以及Catapult 1和TACC的HARP v2计算机集群。

未来是否会有更多更强大的异构超级计算机诞生?这不仅取决于使用者的需求,更多还要取决于硬件厂商和开发者是否继续从上到下推动生态系统建设。

从Bittware的角度来看,关键的推动力一定是来自中间层面的,同时有赖于对高级语言和更成熟的开发工具更充分的支持。目前的好消息是,业界最大的两家FPGA制造商——英特尔和赛林思都在为开发人员提供更好的工具,并将这些工具与下一代FPGA产品整合在一起。

从这一点上看,我们似乎可以对异构超算的未来保持一份谨慎的乐观。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1655

    文章

    22287

    浏览量

    630300
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134461
  • 超级计算机
    +关注

    关注

    2

    文章

    479

    浏览量

    43152

原文标题:迎接“异构超算”新时代:日本Cygnus超算GPU和FPGA双硬件加持,TOP500榜单只此一台

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI驱动量子化学计算!4100万核心国产取得世界级突破!

    电子发烧友网报道(文/梁浩斌)中国的高光时刻,是2016年到2017年期间,神威·太湖之光连续四次登顶全球超级计算机TOP
    的头像 发表于 10-26 06:15 9862次阅读

    深圳中国首个光量子计算机制造工厂落成

    据央视新闻报道;在24日;深圳南山区国内首个光量子计算机制造工厂正式进入小规模生产阶段,据悉该工厂是隶属于玻色量子;总面积约5000平方米,集研发、制造、测试于体,用于实现光量子计算机
    的头像 发表于 11-25 17:17 1344次阅读

    能发布节点服务器,128颗BM1690芯片组成

    的BM1690芯片组成的128颗芯片节点,每层有16颗芯片,共8层,统装在个服务器里。   节点是通过高速互联技术,将大量服务器芯
    的头像 发表于 08-03 07:33 7126次阅读
    <b class='flag-5'>算</b>能发布<b class='flag-5'>超</b>节点服务器,128颗BM1690芯片组成

    NVIDIA助力AI超级计算机Isambard-AI投入使用

    英国布里斯托大学的超级计算机 Isambard-AI 采用 NVIDIA Grace Hopper 超级芯片,其 AI 力达到了 21 ExaFLOPS,不仅是英国最快的系统,同时也
    的头像 发表于 07-28 15:07 918次阅读

    NVIDIA驱动的现代超级计算机如何突破速度极限并推动科学发展

    ,研究人员用个人电脑构建了强大的集群,甚至改造游戏显卡,把它们用于科学研究。 当今的高性能计算系统专为高速计算而设计,其中许多都采用了 NVIDIA 加速计算技术。在 ISC 2025
    的头像 发表于 06-26 19:39 980次阅读
    NVIDIA驱动的现代<b class='flag-5'>超级</b><b class='flag-5'>计算机</b>如何突破速度极限并推动科学发展

    Blue Lion超级计算机将在NVIDIA Vera Rubin上运行

    德国莱布尼茨中心(LRZ)将迎来全新超级计算机 Blue Lion,其力比该中心现有的 SuperMUC-NG 高性能
    的头像 发表于 06-12 15:39 831次阅读

    NVIDIA技术赋能欧洲最快超级计算机JUPITER

    NVIDIA 宣布,搭载 NVIDIA Grace Hopper 平台的 JUPITER 超级计算机成为欧洲最快超级计算机,其运行 HPC
    的头像 发表于 06-12 15:33 1039次阅读

    加速卡是什么东西?它真能在AI战场上干掉GPU和TPU!

    随着AI技术火得塌糊涂,大家都在谈"大模型"、"AI加速"、"智能计算",可真到了落地环节,力才是硬通货。你有没有发现,现在越来越多的AI企业不光用
    的头像 发表于 06-05 13:39 1285次阅读
    智<b class='flag-5'>算</b><b class='flag-5'>加速</b>卡是什么东西?它真能在AI战场上干掉<b class='flag-5'>GPU</b>和TPU!

    行业聚焦|深圳计算机协会走进杰和,共探AI力新边界

    2025年深圳市计算机行业的发展趋势与战略方向。作为东道主,杰和科技带领与会嘉宾参观数字化展厅,重点呈现企业历程、AI力产品以及系列自主研发成果。展厅内多项专
    的头像 发表于 03-05 10:04 629次阅读
    行业聚焦|深圳<b class='flag-5'>计算机</b>协会走进杰和,共探AI<b class='flag-5'>算</b>力新边界

    传音控股入选2024新经济企业TOP500

    近日,第五届新经济企业高质量发展大会在上海举行,会上发布了“2024新经济企业TOP500榜单,这是中国企业评价协会连续第五年发布该榜单。传音控股凭借卓越的技术创新实力和国际影响力再度上榜,位列
    的头像 发表于 03-04 17:42 883次阅读

    中心的核心硬件是什么?

    中心,作为人工智能时代的关键基础设施,其核心硬件的构成与性能直接影响着智能计算的效率与质量。以下是对智中心核心硬件的详细阐述:、AI芯片AI芯片是专门为
    的头像 发表于 02-17 14:42 1995次阅读
    智<b class='flag-5'>算</b>中心的核心硬件是什么?

    GPU 加速计算:突破传统力瓶颈的利刃

    在数字化时代,数据呈爆炸式增长,传统的力已难以满足复杂计算任务的需求。无论是人工智能的深度学习、大数据的分析处理,还是科学研究中的模拟计算,都对力提出了极高的要求。而云
    的头像 发表于 02-17 10:36 517次阅读

    国家平台推出AI生态加速计划

    昨日,国家互联网平台正式推出了旨在促进AI生态发展的新举措——“AI生态伙伴加速计划”。该计划旨在通过提供系列激励措施,加速AI技术的
    的头像 发表于 02-14 09:16 686次阅读

    中心的力如何衡量?

    (ComputationalPower)是指智中心通过其内部的计算设备(如CPU、GPU、AI芯片等)对数据进行处理和计算的能力。它体现了智
    的头像 发表于 01-16 14:03 4203次阅读
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b>中心的<b class='flag-5'>算</b>力如何衡量?

    云端超级计算机使用教程

    云端超级计算机种基于云计算的高性能计算服务,它将大量计算资源和存储资源集中在
    的头像 发表于 12-17 10:19 948次阅读