超级计算机和FPGA-电子发烧友网

超级计算机和FPGA

1、超算?

大数据、基因科学、金融工程、人工智能、新材料设计、制药和医疗工程、气象灾害预测等领域所涉及的计算处理，家用个人计算机级别的性能是远远不够的。超级计算机(以下简称超算)就是为了解决这种超大规模的问题而开发的。超算并没有一个明确的定义，通常所说的超算大致是性能在家用计算机的1000倍以上，或者理论性能在50 TFLOPST以上的系统。

FPGA作为可以提高超算能效比的通用器件受到了广泛关注。从性能、灵活性和功耗效率方面，CPU、FPGA和ASIC里面FPGA走的是中间路线。FPGA的功耗效率是高于CPU的，灵活性高于ASIC；从功耗效率、性能保障性和算法适用性来看，FPGA应该是碾压GPU的。GPU适用的算法非常有限，拿到一个算法，能否达到最终的性能是有风险的；早期GPU的实现算法非常容易，但是自从Xilinx在高层次综合HLS方面深度耕耘后，FPGA的编程容易度也降低了很多。其优势是不但可以作为运算加速器，还可以作为连接器件让超算中众多的运算处理器和运算加速器更紧密地结合。此外，IoT技术正在推动硬件基础设施的升级，今后运算和数据的集中化和分散化进程都会加速发展。在这个进程当中，为了运用超算技术，也要求数据中心具备更加崭新和有效的方法和技术口。除了大规模计算以外，从强化升级社会IT基础建设的角度上看，超算技术也越来越必要。因此，PLD/FPGA必将会在超算中得到更广泛的运用。

超算中的FPGA应用案例

1、首先是筑波大学20世纪70年代开始研发用于科学计算的并行计算机PACS/PAX，而HA-PACS是该系列的第8代。PACS/PAX系列自开发之初就以实现了CPU和内存间的高速互联架构而闻名。HA-PACS是PACS/PAX系列中首次采用GPU作为运算加速器的超算。用GPU提高超算性能，还必须要实现能够充分发挥GPU高运算性能的并行系统架构。然而，HA-PACS开发时的GPU存在些问题，导致难以实现高效的并行系统架构。例如在多个GPU间共享数据时,传输前后需要在宿主CPU的主存中进行数据复制。还有将数据传输从PCle转为其他通信方式时，很难削减通信延迟。为了改善这些问题，HA-PACS系统基于PEARL ( PCI Express Adaptive and Reliable Link)概念提出了TCA ( Tightly Coupled Accelerato-rs) 技术，并开始开发实现TCA的PEACH2板卡。

那么由CPU+GPU+FPGA组成的异构系统的性能又如何呢? HA-PACS/TCA是一个只有64个节点的小规模系统，理论性能为364.3TFLOPS,实测性能为277.1 TFLOPS, 2013年11月位列TOP500的第134名。另外，由于该系统达到了3.52 GFLOPS/W的高能效比，在2013年11月和2014年6月的Green500榜中位列第3名。HA-PACS/TCA的基础部分采用GPU和CPU组合来实现高性能、低功耗的运算，再加上基于FPGA的PEACH2的使用，进一步提高了跨学科合作应用中的运算性能。

PEACH2提供了可以让多个GPU直接互联通信的框架。具体来说，PEACH2扩展了PCle通信连接，并实现了GPU间的直接通信，从而达到了提高数据传输效率的目的”。技术上，PEACH2实现了一种路由，可以将PCIe协议中Root Complex和多个End Point间的数据包在多个节点间传输。

原本的数据传输路径GPUmem→CPUmem→(InfiniBand/MPI)→CPUmem→GPU mem, 缩短为了GPU mem→(PCIe/PEACH2)→GPU mem,即GPU间的直连传输。此外，通信协议的统一也实现了比InfiniBand更低的延迟。

下面一起看一下PEACH2的通信性能。PEACH2具备4个PCleGen2 x8 (8通路)端口。这里的端口数量上的限制并非源于PEACH2本身，而是因为所采用的FPGA器件的物理限制，这点可以通过FPGA制造技术的提升而改善。PEACH2中GPU对GPU的DMA的Ping-pong延迟为2.0us ( 100万分之2秒)，CPU对CPU的延迟为1.8 us,可以说通信延迟十分小了。PEACH2能达到这种性能要归功于使用了PLD/FPGA,正因如此它才能将传输开销降低到2.0 us的程度。这个性能和MVAPICH2 v2.0-GDR ( 带GDR : 4.5us ;不带GDR : 19 us) 相比已经足够了。FPGA的采用实现了轻量化协议、多RootComplex互联、Block-Stride通信硬件，从而获得了高应用性能。此外，在Ping-pong带宽方面，PEACH2 的CPU对CPU的DMA传输性能约为3.5 GB/s,达到了理论性能的95%;GPU对GPU的DMA性能约为2.8GB/s。然而，当负载大小超过512 KB时MVAPICH2 v2.0-GDR的性能更高，可以在实际应用时根据需求进行选择。综上，无论研究领域或商业系统，今后都会继续探索能够发挥PLD/FPGA优势的高效方法，从而提高系统的整体性能。

2、其次是Cray Research，该公司的超级计算机：XD1就有用上FPGA，XD1用的是Xilinx(赛灵思)公司的VIRTEX系列FPGA。XD1机内有所谓的FPGA应用程序加速模块(FPGA ApplicaTIon AcceleraTIon Module)，模块等于是机内的一个小型辅助运算系统，VIRTEX是模块内的主控芯片，等于是一个协同处理器(Co-Processor)，只不过这个协同处理器与ASIC型式的协同处理器不同，FPGA具有可程序化的功效，因此VIRTEX是一颗可程序化的协同处理器。运算模块内除了有FPGA的协同处理器外，处理器也必须搭配内存才能行使运算，所以FPGA会再连接4颗QDR II SRAM(极高速性的内存)，然后模块一方面用HyperTransport与XD1的主处理器相连，另一方面也连往XD1的特有高速I/O界面：RapidArray。

接着，由于高效运算多是执行大量重复性的运算，例如气象预测、风洞测试等，所以可以将执行的应用程序转化成FPGA内的组态(ConfiguraTIon)程序，以硬件线路方式来执行运算，如此将比过往用纯软件方式执行快上数倍至数十倍的效能，甚至在特定的应用运算上能达一百倍以上的效能。

更仔细而言，其实是将整个应用程序中重复性最高、且最经常用的函数库进行转化，并以FPGA的硬件线路执行，如此就能获得最大的加速效果。

Cray如此，与Cray同为高效运算市场的另一家业者：SGI(视算科技)也实行相同的作法，SGI提出所谓的RASC(Reconfigurable ApplicaTIon Specific Computing，可组态化应用程序性运算，）RASC也是以模块方式让原有的超级计算机能获得加速效果。

SGI的作法与Cray有部分相同也有部分不同，Cray是将模块设置在原有超级计算机的机内，而SGI则是运用既有超级计算机机箱的上部来加搭加速模块，不过就功效机制而言两者异曲同工，此外两者都使用Xilinx的VIRTEX系列FPGA，但是内存与I/O部分两家也实行不同的设计，Cray是使用QDR II SRAM，SGI则是可实行QDR SRAM，或者也可用DDR2 SDRAM，前者容量少(80MB)但速度快，后者容量大(20GB)而速度慢，提供两种选择的原因是可依据不同的应用程序特性来选用。

另外，高效运算业者通常有独门的机内通讯传输技术，RapidArray即是Cray的独家技术，而SGI自身也有独家的传输技术，即NUMAlink 4(已是第四代技术)，所以SGI的RASC不是使用RapidArray，而是使用NUMAlink 4。

其实Cray系统内所用的FPGA模块是与DRC Computer公司技术合作而成，因此DRC Computer自身也有提供相近方案，DRC的RPU(Reconfigurable Processor Units)同样也是用FPGA来加速，一样是用Xilinx VIRTEX FPGA，但与主系统间的连接接口改成AMD Opteron处理器的接座接口，如此一般使用AMD Opteron处理器的x86服务器也可以加装RPU来提升高效运算的效能。

原文标题：FPGA应用案例——超级计算机

文章出处：【微信公众号：FPGA技术联盟】欢迎添加关注！文章转载请注明出处。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

FPGA

FPGA

+关注

关注
1602

文章
21320

浏览量
593179
计算机

计算机

+关注

关注
19

文章
6649

浏览量
84520
人工智能

人工智能

+关注

关注
1776

文章
43845

浏览量
230596

原文标题：FPGA应用案例——超级计算机

文章出处：【微信号：gh_873435264fd4，微信公众号：FPGA技术联盟】欢迎添加关注！文章转载请注明出处。

英伟达帮助日本建造混合量子超级计算机

英伟达正在帮助日本建造混合量子超级计算机，这是日本国家量子计算计划的一部分。

发表于 04-23 14:54 •206次阅读

从原子到超级计算机：NVIDIA与合作伙伴扩展量子计算应用

量子计算领域的最新进展包括分子研究、部署巨型超级计算机，以及通过一项新的学术计划培养量子从业人员。

发表于 03-22 10:05 •142次阅读

诺和诺德基金会将联手英伟达打造丹麦AI超级计算机

诺和诺德基金会携手英伟达，共同宣布在丹麦打造一台领先的AI超级计算机。这台超级计算机将致力于推动医疗保健、生命科学以及绿色转型等领域的科研与创新，为丹麦乃至全球的诺和诺德基金会携手英伟

发表于 03-21 13:43 •160次阅读

【量子计算机重构未来 | 阅读体验】+ 初识量子计算机

欣喜收到《量子计算机——重构未来》一书，感谢电子发烧友论坛提供了一个让我了解量子计算机的机会！自己对电子计算机有点了解，但对量子计算机真是一无所知，只是听说过量子纠缠、超快的运算速

发表于 03-05 17:37

使用USB 2.0从ztex板USB-FPGA模块2.13向计算机发送信号报错的原因？

我正在尝试使用 USB 2.0 从 ztex 板 USB-FPGA 模块 2.13 向计算机发送信号。从 fpga 方面，我使用的是 fifo 代码，从计算机方面，我有一个 ZTex

发表于 02-26 06:39

特斯拉将斥资5亿美元建造Dojo超级计算机

据外媒报道，特斯拉将在其位于纽约布法罗的超级工厂投资超过5亿美元，建造一台名为Dojo的超级计算机。这一举措旨在推进特斯拉的自动驾驶汽车计划。

发表于 01-29 11:26 •349次阅读

基于FPGA与PCI总线的实时控制计算机的设计与实现

电子发烧友网站提供《基于FPGA与PCI总线的实时控制计算机的设计与实现.pdf》资料免费下载

发表于 10-25 11:04 •0次下载

基于<b class='flag-5'>FPGA</b>与PCI总线的实时控制<b class='flag-5'>计算机</b>的设计与实现

工业计算机的应用

工业计算机在半导体设备上的应用，具体在哪一方面。比如说图像处理使用什么样的计算机，工业控制使用哪一方面的计算机？

发表于 09-12 14:19

计算机组成与设计

计算机组成与设计 计算机组成与设计是计算机科学中最基础的课程之一，它主要阐述了计算机的组成原理和设计方法。随着计算机技术的快速发展，

发表于 08-17 12:37 •930次阅读

gh200和超级计算机哪个牛

gh200和超级计算机哪个牛随着科技的不断发展，计算机已经成为人类生活不可或缺的一部分。计算机的崛起极大地改变了世界和每个人的生活。过去几十年中，人们对

发表于 08-17 10:51 •321次阅读

gh200和超级计算机哪个牛

发表于 08-16 17:34 •330次阅读

量子计算机仿真器Qulacs的多SATA FPGA实现

量子计算机仿真器Qulacs的多SATA FPGA实现演讲ppt分享

发表于 07-17 16:34 •6次下载

新书推荐《算力经济·从超级计算到云计算》

超级计算机是什么？超级计算机到底有什么用？答案就藏在这本澎峰科技首席科学家、顾问张云泉参与编著的《算力经济》里。这本书深入浅出地叙述了超级

发表于 07-13 18:15 •384次阅读

NVIDIA Grace 掀起新型节能 Arm 超级计算机的新浪潮

英国科研联盟 GW4 打造能效提升 6 倍的超级计算机，用于气候科学、医学研究等领域德国汉堡 - 国际超算大会（ISC）- 2023 年 5 月 21 日 - NVIDIA 今天

发表于 05-23 07:10 •380次阅读

三星计划开发基于内存的超级计算机

"三星电子的目标是在2028年前开发出一台基于内存的超级计算机，"三星电子设备解决方案业务的首席执行官Kyung Kye-hyun周四在大田的KAIST发表演讲时说。

发表于 05-12 11:26 •184次阅读

搜索历史

超级计算机和FPGA

评论

英伟达帮助日本建造混合量子超级计算机

从原子到超级计算机：NVIDIA与合作伙伴扩展量子计算应用

诺和诺德基金会将联手英伟达打造丹麦AI超级计算机

【量子计算机重构未来 | 阅读体验】+ 初识量子计算机

使用USB 2.0从ztex板USB-FPGA模块2.13向计算机发送信号报错的原因？

特斯拉将斥资5亿美元建造Dojo超级计算机

基于FPGA与PCI总线的实时控制计算机的设计与实现

工业计算机的应用

计算机组成与设计

gh200和超级计算机哪个牛

gh200和超级计算机哪个牛

量子计算机仿真器Qulacs的多SATA FPGA实现

新书推荐《算力经济·从超级计算到云计算》

NVIDIA Grace 掀起新型节能 Arm 超级计算机的新浪潮

三星计划开发基于内存的超级计算机