0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

超级计算机和FPGA

e9Zb_gh_8734352 来源:FPGA技术联盟 作者:FPGA技术联盟 2020-11-02 18:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

01

超级计算机和FPGA

1、超算?

大数据、基因科学、金融工程、人工智能、新材料设计、制药和医疗工程、气象灾害预测等领域所涉及的计算处理,家用个人计算机级别的性能是远远不够的。超级计算机(以下简称超算)就是为了解决这种超大规模的问题而开发的。超算并没有一个明确的定义, 通常所说的超算大致是性能在家用计算机的1000倍以上,或者理论性能在50 TFLOPST以上的系统。

FPGA作为可以提高超算能效比的通用器件受到了广泛关注。从性能、灵活性和功耗效率方面,CPU、FPGA和ASIC里面FPGA走的是中间路线。FPGA的功耗效率是高于CPU的,灵活性高于ASIC;从功耗效率、性能保障性和算法适用性来看,FPGA应该是碾压GPU的。GPU适用的算法非常有限,拿到一个算法,能否达到最终的性能是有风险的;早期GPU的实现算法非常容易,但是自从Xilinx在高层次综合HLS方面深度耕耘后,FPGA的编程容易度也降低了很多。其优势是不但可以作为运算加速器,还可以作为连接器件让超算中众多的运算处理器和运算加速器更紧密地结合。此外,IoT技术正在推动硬件基础设施的升级,今后运算和数据的集中化和分散化进程都会加速发展。在这个进程当中,为了运用超算技术,也要求数据中心具备更加崭新和有效的方法和技术口。除了大规模计算以外,从强化升级社会IT基础建设的角度上看,超算技术也越来越必要。因此,PLD/FPGA必将会在超算中得到更广泛的运用。

02

超算中的FPGA应用案例

1、首先是筑波大学20世纪70年代开始研发用于科学计算的并行计算机PACS/PAX,而HA-PACS是该系列的第8代。PACS/PAX系列自开发之初就以实现了CPU和内存间的高速互联架构而闻名。HA-PACS是PACS/PAX系列中首次采用GPU作为运算加速器的超算。用GPU提高超算性能,还必须要实现能够充分发挥GPU高运算性能的并行系统架构。然而,HA-PACS开发时的GPU存在些问题,导致难以实现高效的并行系统架构。例如在多个GPU间共享数据时,传输前后需要在宿主CPU的主存中进行数据复制。还有将数据传输从PCle转为其他通信方式时,很难削减通信延迟。为了改善这些问题,HA-PACS系统基于PEARL ( PCI Express Adaptive and Reliable Link)概念提出了TCA ( Tightly Coupled Accelerato-rs) 技术,并开始开发实现TCA的PEACH2板卡。

那么由CPU+GPU+FPGA组成的异构系统的性能又如何呢? HA-PACS/TCA是一个只有64个节点的小规模系统,理论性能为364.3TFLOPS,实测性能为277.1 TFLOPS, 2013年11月位列TOP500的第134名。另外,由于该系统达到了3.52 GFLOPS/W的高能效比,在2013年11月和2014年6月的Green500榜中位列第3名。HA-PACS/TCA的基础部分采用GPU和CPU组合来实现高性能、低功耗的运算,再加上基于FPGA的PEACH2的使用,进一步提高了跨学科合作应用中的运算性能。

PEACH2提供了可以让多个GPU直接互联通信的框架。具体来说,PEACH2扩展了PCle通信连接,并实现了GPU间的直接通信,从而达到了提高数据传输效率的目的”。技术上,PEACH2实现了一种路由,可以将PCIe协议中Root Complex和多个End Point间的数据包在多个节点间传输。

原本的数据传输路径GPUmem→CPUmem→(InfiniBand/MPI)→CPUmem→GPU mem, 缩短为了GPU mem→(PCIe/PEACH2)→GPU mem,即GPU间的直连传输。此外,通信协议的统一也实现了比InfiniBand更低的延迟。

下面一起看一下PEACH2的通信性能。PEACH2具备4个PCleGen2 x8 (8通路)端口。这里的端口数量上的限制并非源于PEACH2本身,而是因为所采用的FPGA器件的物理限制,这点可以通过FPGA制造技术的提升而改善。PEACH2中GPU对GPU的DMAPing-pong延迟为2.0us ( 100万分之2秒),CPU对CPU的延迟为1.8 us,可以说通信延迟十分小了。PEACH2能达到这种性能要归功于使用了PLD/FPGA,正因如此它才能将传输开销降低到2.0 us的程度。这个性能和MVAPICH2 v2.0-GDR ( 带GDR : 4.5us ;不带GDR : 19 us) 相比已经足够了。FPGA的采用实现了轻量化协议、多RootComplex互联、Block-Stride通信硬件,从而获得了高应用性能。此外,在Ping-pong带宽方面,PEACH2 的CPU对CPU的DMA传输性能约为3.5 GB/s,达到了理论性能的95%;GPU对GPU的DMA性能约为2.8GB/s。然而,当负载大小超过512 KB时MVAPICH2 v2.0-GDR的性能更高,可以在实际应用时根据需求进行选择。综上,无论研究领域或商业系统,今后都会继续探索能够发挥PLD/FPGA优势的高效方法,从而提高系统的整体性能。

2、其次是Cray Research,该公司的超级计算机:XD1就有用上FPGA,XD1用的是Xilinx(赛灵思)公司的VIRTEX系列FPGA。XD1机内有所谓的FPGA应用程序加速模块(FPGA ApplicaTIon AcceleraTIon Module),模块等于是机内的一个小型辅助运算系统,VIRTEX是模块内的主控芯片,等于是一个协同处理器(Co-Processor),只不过这个协同处理器与ASIC型式的协同处理器不同,FPGA具有可程序化的功效,因此VIRTEX是一颗可程序化的协同处理器。运算模块内除了有FPGA的协同处理器外,处理器也必须搭配内存才能行使运算,所以FPGA会再连接4颗QDR II SRAM(极高速性的内存),然后模块一方面用HyperTransport与XD1的主处理器相连,另一方面也连往XD1的特有高速I/O界面:RapidArray。

接着,由于高效运算多是执行大量重复性的运算,例如气象预测、风洞测试等,所以可以将执行的应用程序转化成FPGA内的组态(ConfiguraTIon)程序,以硬件线路方式来执行运算,如此将比过往用纯软件方式执行快上数倍至数十倍的效能,甚至在特定的应用运算上能达一百倍以上的效能。

更仔细而言,其实是将整个应用程序中重复性最高、且最经常用的函数库进行转化,并以FPGA的硬件线路执行,如此就能获得最大的加速效果。

Cray如此,与Cray同为高效运算市场的另一家业者:SGI(视算科技)也实行相同的作法,SGI提出所谓的RASC(Reconfigurable ApplicaTIon Specific Computing,可组态化应用程序性运算,)RASC也是以模块方式让原有的超级计算机能获得加速效果。

SGI的作法与Cray有部分相同也有部分不同,Cray是将模块设置在原有超级计算机的机内,而SGI则是运用既有超级计算机机箱的上部来加搭加速模块,不过就功效机制而言两者异曲同工,此外两者都使用Xilinx的VIRTEX系列FPGA,但是内存与I/O部分两家也实行不同的设计,Cray是使用QDR II SRAM,SGI则是可实行QDR SRAM,或者也可用DDR2 SDRAM,前者容量少(80MB)但速度快,后者容量大(20GB)而速度慢,提供两种选择的原因是可依据不同的应用程序特性来选用。

另外,高效运算业者通常有独门的机内通讯传输技术,RapidArray即是Cray的独家技术,而SGI自身也有独家的传输技术,即NUMAlink 4(已是第四代技术),所以SGI的RASC不是使用RapidArray,而是使用NUMAlink 4。

其实Cray系统内所用的FPGA模块是与DRC Computer公司技术合作而成,因此DRC Computer自身也有提供相近方案,DRC的RPU(Reconfigurable Processor Units)同样也是用FPGA来加速,一样是用Xilinx VIRTEX FPGA,但与主系统间的连接接口改成AMD Opteron处理器的接座接口,如此一般使用AMD Opteron处理器的x86服务器也可以加装RPU来提升高效运算的效能。

原文标题:FPGA应用案例——超级计算机

文章出处:【微信公众号:FPGA技术联盟】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1655

    文章

    22282

    浏览量

    630058
  • 计算机
    +关注

    关注

    19

    文章

    7763

    浏览量

    92666
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261394

原文标题:FPGA应用案例——超级计算机

文章出处:【微信号:gh_873435264fd4,微信公众号:FPGA技术联盟】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    使用NVIDIA技术驱动的超级计算机助力开放科学研究

    五个备受瞩目的 HPC 奖决赛入围项目凭借 Alps、JUPITER 和 Perlmutter 超级计算机的支持在气候建模、流体模拟等领域取得了重大突破。
    的头像 发表于 11-25 11:17 410次阅读

    奥士康召开DGX Spark AI超级计算机项目表彰大会

    2025年9月22日,奥士康科技股份有限公司隆重召开DGXSparkAI超级计算机项目表彰大会,以表彰在客户开发、产品研发、工程设计和批量生产等方面作出突出贡献的核心团队。
    的头像 发表于 09-24 10:51 590次阅读

    NVIDIA助力AI超级计算机Isambard-AI投入使用

    英国布里斯托大学的超级计算机 Isambard-AI 采用 NVIDIA Grace Hopper 超级芯片,其 AI 算力达到了 21 ExaFLOPS,不仅是英国最快的系统,同时也是全球能效最高的系统之一。
    的头像 发表于 07-28 15:07 911次阅读

    自动化计算机经过加固后有什么好处?

    让我们讨论一下部署坚固的自动化计算机的一些好处。1.温度范围宽自动化计算机经过工程设计,配备了支持宽温度范围的组件,使自动化计算解决方案能够在各种不同的极端环境中运行。自动化计算机能够
    的头像 发表于 07-21 16:44 417次阅读
    自动化<b class='flag-5'>计算机</b>经过加固后有什么好处?

    自动化计算机的功能与用途

    工业自动化是指利用自动化计算机来控制工业环境中的流程、机器人和机械,以制造产品或其部件。工业自动化的目的是提高生产率、增加灵活性,并提升制造过程的质量。工业自动化在汽车制造中体现得最为明显,其中许多
    的头像 发表于 07-15 16:32 525次阅读
    自动化<b class='flag-5'>计算机</b>的功能与用途

    工业计算机与商用计算机的区别有哪些

    工业计算机是一种专为工厂和工业环境设计的计算系统,具有高可靠性和稳定性,能够应对恶劣环境下的自动化、制造和机器人操作。其特点包括无风扇散热技术、无电缆连接和防尘防水设计,使其在各种工业自动化场景中
    的头像 发表于 07-10 16:36 509次阅读
    工业<b class='flag-5'>计算机</b>与商用<b class='flag-5'>计算机</b>的区别有哪些

    NVIDIA驱动的现代超级计算机如何突破速度极限并推动科学发展

    现代高性能计算不仅使得更快的计算成为可能,它正驱动着 AI 系统解锁更多领域的科学突破。 高性能计算经历了多次迭代,每一次都源于对技术的创造性再利用。例如,早期的超级
    的头像 发表于 06-26 19:39 964次阅读
    NVIDIA驱动的现代<b class='flag-5'>超级</b><b class='flag-5'>计算机</b>如何突破速度极限并推动科学发展

    Blue Lion超级计算机将在NVIDIA Vera Rubin上运行

    德国莱布尼茨超算中心(LRZ)将迎来全新超级计算机 Blue Lion,其算力比该中心现有的 SuperMUC-NG 高性能计算机提升了约 30 倍。这台新的超级
    的头像 发表于 06-12 15:39 818次阅读

    NVIDIA技术赋能欧洲最快超级计算机JUPITER

    NVIDIA 宣布,搭载 NVIDIA Grace Hopper 平台的 JUPITER 超级计算机成为欧洲最快超级计算机,其运行 HPC 和 AI 工作负载的速度是第二名的两倍以上。
    的头像 发表于 06-12 15:33 1033次阅读

    NVIDIA助力全球最大量子研究超级计算机

    NVIDIA 宣布将开设量子-AI 技术商业应用全球研发中心(G-QuAT),该中心部署了全球最大量子计算研究专用超级计算机 ABCI-Q。
    的头像 发表于 05-22 09:44 668次阅读

    计算机网络入门指南

    计算机网络是指将地理位置不同且具有独立功能的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统、网络管理软件及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
    的头像 发表于 04-22 14:29 1855次阅读
    <b class='flag-5'>计算机</b>网络入门指南

    NVIDIA 宣布推出 DGX Spark 个人 AI 计算机

    台式超级计算机由 NVIDIA Grace Blackwell 驱动,为开发者、研究人员和数据科学家提供加速 AI 功能;系统由头部计算机制造商(包括华硕、Dell Technologies、HP
    发表于 03-19 09:59 502次阅读
       NVIDIA 宣布推出 DGX Spark 个人 AI <b class='flag-5'>计算机</b>

    NVIDIA推出个人AI超级计算机Project DIGITS

    NVIDIA 推出个人 AI 超级计算机 NVIDIA Project DIGITS,全球的 AI 研究员、数据科学家和学生都可获取 NVIDIA Grace Blackwell 平台的强大功能。
    的头像 发表于 01-08 11:03 1159次阅读

    NVIDIA发布高性价比生成式AI超级计算机

    NVIDIA近日推出了一款全新的生成式AI超级计算机——Jetson Orin Nano Super开发者套件,这款超级计算机不仅体积小巧,而且性价比极高,为商业AI开发者、科技爱好者
    的头像 发表于 12-24 10:44 1005次阅读

    云端超级计算机使用教程

    云端超级计算机是一种基于云计算的高性能计算服务,它将大量计算资源和存储资源集中在一起,通过网络向用户提供按需的
    的头像 发表于 12-17 10:19 932次阅读