0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DGX-2为什么被称为全球最大GPU

NVIDIA英伟达企业解决方案 来源:未知 作者:胡薇 2018-10-25 15:07 次阅读

今年早些时候,NVIDIA首席执行官黄仁勋发布了NVIDIA® DGX-2™服务器,并称其为“全球最大GPU”。DGX-2在单一系统中包含了16个NVIDIA Tesla™ V100 32 GB GPU和其他顶级组件(两个24核Xeon CPU、1.5 TB DDR4 DRAM内存和30 TB NVMe存储),通过基于NVSwitch的NVLink结构连接,可提供2 petaFLOPS的性能,堪称最强大的超级计算机之一。

NVSwitch使DGX-2成为了最大的GPU,这意味着其总体并非各部分的简单加成。事实证明,让DGX-2服务器能够称得上“全球最大GPU”的,正是其中看似最不起眼的部分。让我们来看看创新NVIDIA NVSwitch™芯片及其他工程特性如何使DGX-2成为了全球最大的GPU。

注:本文中的信息来自于Alex Ishii 和 Denis Foley 在Hot Chip 2018大会上的专题演示“NVSwitch and DGX‑2 – NVIDIA NVLink-Switching Chip and Scale-Up GPU-Compute Server”。

单一GPU

让我们先看看单一多核GPU如何与CPU交互,如图1所示。程序员通过NVIDIA CUDA®技术明确地展现了并行工作。工作流经PCIe I / O端口进入GPU,其中数据由GPU驱动程序分发到可用的图形处理群集(GPC)和流式多处理器(SM)内核。XBAR的采用让GPU / SM内核能够在L2高速缓存和高带宽GPU内存(HBM2)上交换数据。

GPC和GPU内存之间的高带宽可实现大规模计算能力和快速同步,但规模受限,因其要求数据必须适合本地GPU内存,才能有效使用XBAR提供的高带宽。

图1. 连接到CPU的单一GPU

双GPU(PCIe和NVLink)

图2显示了添加另一个GPU是如何增加可用GPU内存量的。在所示配置中,GPU只能以PCIe提供的32 GBps的最大双向带宽,访问其他GPU上的内存。此外,这些交互会与总线上的CPU操作竞争,甚至进一步占用可用带宽。

图2. 通过PCIe总线连接的双GPU

NVIDIA NVLink™技术使GPC无需通过PCIe总线即可访问远程GPU内存,如图3所示。NVLinks实现了XBAR之间的有效桥接。V100 GPU上最多可采用六个NVLink,GPU之间的双向带宽可达300 GBps。但是,在具有两个以上GPU的系统中,六个可用的NVLink必须先分成较小的链接组,每个组专用于访问不同的特定单一GPU。这就限制了可使用直接连接来构建的机器规模,并降低了每对GPU之间的带宽。

图3. 通过NVLink技术连接的双GPU

Super Crossbar将GPU连接在一起

理想的情况是提供某种交叉,让更多GPU能够访问所有GPU内存,所有GPU都可能在单一GPU驱动程序实例的控制下,如图4所示。有了这样的交叉,可在没有其他进程干预的情况对GPU内存进行访问,且可用带宽将足够高,可提供类似于上文所述的双GPU情况下的性能扩展。

图4. 寻找交叉开关设备

最终目标是提供以下所有内容:

更大的问题规模容量。大小受整个GPU集合的GPU内存容量限制,而非单一GPU容量。

强大的可扩展性。与现有解决方案相比,NUMA效应将大大降低。总内存带宽实际上会随GPU数量而增长。

使用便利。针对较少数量的GPU编写的应用程序将更易于移植。此外,丰富的资源可助力快速开展实验。

以上16-GPU配置(假设有32GB V100 GPU)产生的总容量使其能够前所未有地运行“一个超强GPU”的计算。

NVIDIA NVSwitch介绍

NVSwitch(图5)是一款GPU桥接设备,可提供所需的NVLink交叉网络。端口逻辑模块中的数据包转换使得进出多GPU的流量看似是通过单一GPU的。

图5. 带有标注的NVSwitch芯片裸片

NVSwitch芯片并行运行,以支持数量日益增加的GPU之间的互连。可使用三个NVSwitch芯片构建一个8 GPU封闭系统。两条NVLink路径将每个GPU连接至每台交换机,流量在所有NVLink和NVSwitch之间交叉。 GPU使用任意对之间的300 GBps双向带宽成对通信,因为NVSwitch芯片提供了从任何源到任何目的地的唯一路径。

图6. NVSwitch框图

实现了对分带宽

让每个GPU从另一个GPU读取数据,而不会有两个GPU从同一远程GPU读取数据,就实现了无干扰的成对通信能力。使用16个GPU实现的1.98 TBps读取带宽与128B传输在理论上80%的双向NVLink效率相匹配。

图7. 实现的对分带宽结果

使用cuFFT(16K X 16K)

实现更强大的可扩展性

通过在越来越多的GPU上(更高的GFLOPS,相应的总运行时间却更短)、以及搭载V100 GPU的NVIDIA DGX-1服务器上运行“iso-problem instance”计算进行对比,即能证明其强大的可扩展性能,如图8所示。如果没有NVSwitch网络提供的NVLink交叉,由于问题分散在更多GPU上,传输数据所需的时间要长于在本地对相同数据进行简单计算所需的时间。

图8. 使用NVLink与Hybrid Cube Mesh的cuFFT结果

全归约基准测试

图9也体现了NVLink交叉的优势。全归约基准测试是对机器学习应用程序中采用的重要通信原语进行的测量。与两台配备八个GPU的服务器(通过InfiniBand连接)相比,NVLink交叉让16 GPU DGX-2服务器能够提供更高带宽和更低延迟。 针对较小的信息,NVLink网络的效率明显优于InfiniBand。

图9. 全归约基准测试结果显示NVLink与InfiniBand带宽效率的显著差异

HPC和AI训练基准测试的加速

图10所示,与总GPU数相同的两台DGX-1(采用V100)服务器相比,HPC和AI训练基准测试性能得以提升,速度达到了其2到2.7倍。对比所用的DGX-1服务器各采用了8个Tesla V100 32 GB GPU和双槽Xeon E5 2698v4处理器。服务器通过四个EDR IB / GbE端口连接。

图10. HPC和AI训练基准测试的加速

总结

正因有了NVSwitch芯片,DGX-2才可谓全球最大GPU。NVSwitch是一种畅通无阻的设备,具有18个NVLink端口,每端口51.5 GBps,聚合双向带宽达928 GBps。采用了NVSwitch芯片的DGX-2可提供512 GB的总容量,针对特定应用的性能表现超过InfiniBand连接的一对DGX-1服务器的两倍。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4579

    浏览量

    101640
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4403

    浏览量

    126569

原文标题:全球最大GPU 背后的秘密:NVSwitch如何实现NVIDIA DGX-2的超强功力?

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA Blackwell DGX SuperPOD助力万亿级生成式AI计算

    全新 DGX SuperPOD 采用新型高效液冷机架级扩展架构,基于 NVIDIA DGX GB200 系统构建而成,在 FP4 精度下可提供 11.5 exaflops 的 AI 超级计算性能和 240 TB 的快速显存,且可通过增加机架来扩展性能。
    发表于 03-21 09:49 74次阅读

    英伟达推出百亿参数AI模型处理方案——DGX SuperPOD

    据悉,新型DGX SuperPOD采用全新的高效水冷机架式设计,搭载英伟达DGX GB200系统,FP4精度下具备11.5 exaflops的人工智能超级计算力以及240 terabytes的高速内存。用户可以通过加装机架进行持续扩充。
    的头像 发表于 03-19 14:35 314次阅读

    全球最大锂矿宣布减产

    澳大利亚锂矿巨头IGO近日宣布,其与天齐锂业、美国雅保共同拥有的全球最大锂矿山——格林布什矿山,今年的锂精矿产量将略有减少,预计约为10万吨。这一减产决定对全球锂市场产生了一定的影响,表明锂矿市场正面临供求关系的调整。
    的头像 发表于 01-30 10:06 954次阅读

    为什么单颗裸芯会被称为die呢?

    Wafer、die、chip是半导体领域常见的术语,但是为什么单颗裸芯会被称为die呢?
    的头像 发表于 01-24 09:14 860次阅读
    为什么单颗裸芯会<b class='flag-5'>被称为</b>die呢?

    全球市值最大的十家芯片公司

    根据Companies Market Cap的最新统计,全球市值最大十家芯片公司如下所示。
    的头像 发表于 01-05 16:02 968次阅读
    <b class='flag-5'>全球</b>市值<b class='flag-5'>最大</b>的十家芯片公司

    什么是虚拟GPU?虚拟GPU的优势有哪些?

    虚拟 GPU,也称为 vGPU,是通过将数据中心 GPU 进行虚拟化,用户可在多个虚拟机中共享该 GPU
    的头像 发表于 11-10 09:48 671次阅读
    什么是虚拟<b class='flag-5'>GPU</b>?虚拟<b class='flag-5'>GPU</b>的优势有哪些?

    什么样的X2安规电容能被称为双85电容?

    什么样的X2安规电容能被称为双85电容? 电容是一种用于储存电荷的组件,常用于电子电路中。在电路设计中,合理选择电容对于保证电路性能和运行稳定性至关重要。其中,X2安规电容也是常用电容之一,本文
    的头像 发表于 09-22 17:41 500次阅读

    为什么共源共栅运放被称为telescope?

    为什么共源共栅运放被称为telescope?  共源共栅运放,也被称为telescope,是一种特殊的MOSFET运放。它由一对共源共栅电路构成,可以被看作是两个基本的单级MOSFET放大器级联
    的头像 发表于 09-20 16:29 520次阅读

    把集成电路装配为芯片的过程被称为什么?

    把集成电路装配为芯片的过程被称为什么? 把集成电路装配为芯片的过程被称为芯片制造工艺。 芯片制造工艺是一项极其复杂精细的过程,它涉及到多个行业的专业知识和技术,包括材料科学、化学、物理、机械工程
    的头像 发表于 08-29 16:19 578次阅读

    全球GPU呈现“一超一强”竞争格局

    目前英伟达产品 DGX GH200 已发布,互连技术强大,算力进一步升级。5月 29 日,英伟达在其发布会上,正式发布最新的 GH200 Grace Hopper 超级芯片,以及拥有 256 个 GH200 超级芯片的 NVIDIA DGX GH200 超级计算机。
    的头像 发表于 08-14 11:51 1276次阅读
    <b class='flag-5'>全球</b><b class='flag-5'>GPU</b>呈现“一超一强”竞争格局

    回程编码器被称为回程传感器可采集获取、计算和传输旋转作业设备的位置变化

    济南祥控自动化研制的XKCON祥控回程编码器采用高精度绝对值多圈光电编码器为核心采集部件,实时采集获取、计算和传输旋转作业设备的相对设定起点的位置变化数据,也被称为“回程传感器”。
    的头像 发表于 08-10 16:57 875次阅读
    回程编码器<b class='flag-5'>被称为</b>回程传感器可采集获取、计算和传输旋转作业设备的位置变化

    基于磁贴的GPU架构优缺点

    将输出帧缓冲区渲染为几个不同的较小的子区域,称为平铺。然后,它在完成时将每个磁贴写出到内存中。在马里图形处理器上,这些瓷砖很小,每个瓷砖只有16x16像素。 在本指南结束时,您将了解即时模式GPU和基于磁贴的GPU的主要优势和
    发表于 08-02 12:54

    Imagga利用DGX Station实现快速图像识别

    Imagga利用DGX Station实现快速图像识别
    的头像 发表于 08-01 15:10 391次阅读

    NVIDIA推出DGX GH200 AI超级计算机

    新型AI超级计算机将256个Grace Hopper超级芯片连接为巨大的、1-Exaflop、144TB GPU,用于支持生成式AI、推荐系统和数据处理的巨型模型     COMPUTEX
    发表于 05-30 14:15 445次阅读
    NVIDIA推出<b class='flag-5'>DGX</b> GH200 AI超级计算机

    COMPUTEX2023 | NVIDIA 推出 DGX GH200 AI 超级计算机

    新型 AI 超级计算机将 256 个 Grace Hopper 超级芯片连接为巨大的、1-Exaflop、144TB GPU,用于支持生成式 AI、推荐系统和数据处理的巨型模型 COMPUTEX
    的头像 发表于 05-30 01:40 1511次阅读
    COMPUTEX2023 | NVIDIA 推出 <b class='flag-5'>DGX</b> GH200 AI 超级计算机