0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达新一代GPU架构安培A100发布,实现高达20倍的性能提升

牵手一起梦 来源:雷锋网 作者:包永刚 2020-05-15 14:48 次阅读

突如其来的新冠肺炎大流行打乱了众多公司产品发布计划,比如本该在今年3月英伟达(NVIDIA)GTC 2020上发布的安培(Ampere)架构曝光多次却一直未发布。今天,英伟达CEO黄仁勋发布了英伟达新一代GPU架构安培,并带来了基于安培架构GPU A100的DGX-A100 AI系统和面向边缘AI计算的EGX A100。

有意思的是,受疫情影响,已经在家工作四十五天的黄仁勋是在家里的厨房提前录制了演讲视频,用三个视频完成了2020 GTC的主题演讲和新品发布。

此次GTC 2020最重磅的产品自然是安培架构GPU A100,这是目前全球最大的7nm芯片,面积高达826平方毫米,集成了540亿个晶体管。相比Volta架构实现了高达20倍的性能提升,并且可以同时满足AI训练和推理的需求。

由8个安培A100 GPU打造的NVIDIA DGX A100 AI系统单节点性能达到了创纪录的5 petaflops。

第八代安培GPU架构性能提升高达20倍

安培是英伟达继2018发布的Turing(图灵)架构之后的最新一代GPU架构,也是英伟达推出的第八代GPU架构。黄仁勋说:“Ampere架构的突破性设计为英伟达第八代GPU提供了迄今为止最大的性能飞跃,集AI训练和推理于一身,并且其性能相比于前代产品提升了高达20倍。这是有史以来首次,可以在一个平台上实现对横向扩展以及纵向扩展的负载的加速。A100将在提高吞吐量的同时,降低数据中心的成本。”

据悉,第八代安培架构GPU采用的是台积电7nm工艺,使用的是最新的3D封装技术,集成540亿个晶体管也让安培架构GPU A100成为了全球最大的7nm芯片。除此之外,A100还有另外四大关键特性:

具有TF32的第三代 Tensor Core核心,英伟达广泛采用的 Tensor Core核心现在已变得更加灵活、快速且易于使用。

多实例GPU-MG,一种全新技术功能,可将单个A100GPU分割为多达七个独立的GPU,为不同规模的工作提供不同的计算力,以此实现最佳利用率和投资回报率的最大化。

第三代 NVIDIA NVLInk,使GPU之间的高速联接增加至原来的两倍,实现服务器的高效性能扩展。

结构化稀疏,这种全新效率技术利用AI数学固有的稀疏性,使性能提升了一倍。

对于具有TF32的第三代Tensor Core核心,黄仁勋解释,其功能经过扩展后加入了专为AI开发的全新TF32,它能在无需更改任何代码的情况下,使FP32精度下的AI性能提高多达20倍。此外,TensorCore核心现在支持FP64精度,相比于前代,其为HPC应用所提供的计算力比之前提高了多达2.5倍。

20倍的提升之所以是对比2017年发布的Volta架构而不是2018年发布的图灵架构,雷锋网(公众号:雷锋网)认为主要是因为此前英伟达发布的两代AI系统DGX-1和DGX-2都是基于Volta架构GPU Tesla V100,今天推出的基于安培架构的DGXA100是最新第三代AI系统,把两者进行对比更有意义。

凭借这些新功能,英伟达A100能够成为了AI训练和推理以及科学模拟、对话式AI、推荐系统、基因组学、高性能数据分析、地震建模和金融预测等各种高要求工作负载的理想选择。

不过,雷锋网认为,灵活性是性能之外A100更重要的竞争力所在,这个灵活性包括三个层面,第一个层面是A100采用的弹性计算技术能够为每项工作分配适量的计算能力,多实例GPU技术可将每个A100 GPU分割为多达七个独立实例来执行推理任务。

第二个层面,第三代NVLink互联技术能够将多个A100 GPU合并成一个巨大的GPU来执行更大规模的训练任务。

最后一个也是最重要的,安培架构的A100既可以做训练也可以做推理。英伟达给出的数据显示,A100对比前代Telsa V100,进行BERT模型训练性能提升了6倍,BERT模型推理性能提升了7倍。

2017年发布Volta架构的时候,黄仁勋就说:“从 Volta 开始,英伟达 GPU 将对训练、推理兼顾,可谓是革命性的突破。”三年后,他在很大程度上兑现了自己所说的,而这也能够继续保持英伟达在AI市场的领导力。

要把这个问题说清楚就得从最新推出的DGX A100说起。

DGX A100单节点性能达创纪录的5 Petaflops

黄仁勋表示,“AI已经被应用到云计算、汽车、零售、医疗等众多领域,AI算法也正变得越来越复杂和多样。ResNet模型的算力需求从2016年到现在已经增加了3000倍,我们需要更好的解决方案。”

为此,英伟达推出了第三代AI系统DGX A100,高达5 Petaflops(每秒一千万亿(10的15次方)次浮点运算)的Al性能刷新的全球最高激励,并且首次将整个数据中心的性能和功能集成到一个灵活的平台中。

DGXA100系统集成了8个A100 Tensor Core GPU, 具有320GB内存用以训练最大型的AI数据集,以及速度可达200Gbps MeLLanox HDR互连。

另外,利用A100的多实例GPU功能,每台DGXA100系统能够被分割为多达56个实例,用于加速多个小型工作负载的处理速度。凭借这些功能,企业可在一个完全集成的软件定义平台上根据自己的需求优化计算力和资源,加快数据分析、训练和推理等各种工作负载的速度。

总结起来,DGX A100有6大技术特性:

8 个 NVIDIA A100 TensorCore GPU, Al 性能达 5PetafLops, GPU 内存共 320GB ,有着每秒 12.4TB的带宽。

6 个采用第三代NVIDIA NVLink技术的NVIDIA NVSwitch互联结构,4.8TB每秒的双向带宽

9个 MeLLanox ConnectX-6 HDR 200Gb/s网络接口,提供总计每秒3.6TB的双向带宽。 MeLLanox网络计算和网络加速引擎,例如RDMA、GPUDirect,以 及SHARP技术,实现最高性能和可扩展性。

15TB Gen4 NVMe 内存,速度比 Gen3 NVMe SSDs 快 2 倍。

NVIDIA DGX软件堆栈,其中包括专为AI和数据科学工作负载而优化的软件,能够实现性 能的最大化,使企业能够更快获得AI基础架构投资回报。

DGX A100系统的起售价为19.9万美元,英伟达已经开始销售DGXA100。19.9万美元看起来十分昂贵,但其实可以为云服务提供商降低成本和功耗,这是云服务提供商的痛点。

黄仁勋说,通过一个价值100万美元由5个DGX A100系统组成的机架,可以取代当下价值1100万美元,由50个DGX-1和600个CPU组成的25个机架AI训练和推理的数据中心。并且,功耗也可以由630kW大幅降低至28kW。

也就是说,5个DGXA100组成的系统,实现相同的性能,耗电量为现有数据中心系统的1/20,空间为1/25,成本为1/10。

据悉,DGXA100的首批订单将送往美国能源部的阿贡国家实验室(Argonne National Laboratory),该实验室将运用该集群的Al和计算力来更好地研究和应对新冠肺炎。

更厉害的是,英伟达还展示了新一代DGXSuper POD,这个集群由140台 DGXA100系统组成,AI算力高达700 Petaflops,利用 MeLLanox HDR 200Gbps InfiniBand 互连技术,NVIDIA 将 140 台 DGX A100 系统结合在一起,构建了 DGXSuper POD AI超级计算机,用于内部对话式AI、基因组学和自动 驾驶等领域的研究。

黄仁勋称,DGXSuper POD集群是全球速度最快的AI超级计算机之一,其性能相当于此前数千台服务器的性能。凭借DGXA100的企业就绪型架构和性能,NVIDIA得以在不到一个月的时间内构建了该系统,而以往交付具备这样能力的超级计算机需要花费数月甚至数年的时间来计划和采购专用的组件。

另外,为帮助客户构建他们自己的由A100提供算力的数据中心,英伟达发布了全新DGX Super POD参考架构。还推出了 NVIDIA DGXpert计划 , 帮助DGX客户与英伟达的Al专家建立联系。同时,英伟达还推出DGX-Ready软件计划,帮助用户在AI工作流程中充分利用各种经过认证的企业级软件。

更高性价比,更具灵活性的DGXA100对于全球的云服务提供商以及研究机构显然都很有吸引力,同样基于A100的EGXA100也同样如此。

两款边缘AI平台扩大生态系统

面向边缘AI市场,英伟达此次GTC 2020推出了两款计算平台,分别是适用于较大型商业通用服务器上的EGX A100和适用于微型边缘服务器的微型EGX Jetson Xavier NX 。

黄仁勋介绍说,EGXA100聚合加速器和EGX Jetson Xavier NX微型边缘服务器分别被设计用于满足不同尺寸、成本和性能需求。例如搭载了EGX A100的服务器可以管理机场中的数百台摄像头,而 EGX Jetson Xavier NX则可用于管理便利店中的少量摄像头。而云原生技术支持能够确保整个EGX产品家族都可以使用同一经过优化的AI软件轻松构建和部署AI应用。

其中,EGXA100是基于安培架构的A100 GPU,借助英伟达的MeLLanox ConnectX-6 Dx板载网卡,EGXA100可以每秒接收高达200 Gb的数据并将其直接发送到GPU内存以进行AI或 5G信号处理。

EGXA100作为一个云原生软件定义加速器,可以处理对延迟最敏感的5G应用,这为在一个行动点(如:商店、医院和工厂车间)做出智能实时决策提供了局性能AI和 5G平台。

EGX Jetson Xavier NX没有采用最新GPU,不过英伟达称其为全球体积最小、性能最强大的Al超级计算机,适用于微型服务器和边缘智能物联网盒。

据悉,在EGX Jetson Xavier NX的生态圈内,合作伙伴已提供了超过20种解决方案。可以将英伟达Xavier SoC的性能整合到了一个信用卡大小的模块中,运行 EGX云原生软件堆栈的EGX Jetson Xavier NX可以快速处理来自多个高分辨率传感器的流式数据。

值得一提的是,EGX边缘AI平台的云原生架构使其可以运行容器化的软件,英伟达应用框架包括了用于医疗领域的Clara、用于电信领域的Aerial、用于对话式AI领域的Jarvis、用于机器人技术领域的Isaac, 以及用于零售、智慧城市、交通等领域的Mertopolis。

目前整个EGX产品家族均支持云原生技术,因此智能机器制造商和AI应用开发者们可以在嵌入式及边缘设备上构建和部署针对机器人技术、智慧城市、医疗、工业物联网等领域的的软件定义功能。

雷锋网小结

三年前的5月,黄仁勋发布了Volta架构的Tesla V100 GPU,并推出了基于它的AI系统DGX-1。今天,由于新冠肺炎疫情的影响,本来计划在三月发布的最新一代安培架构推迟到了5月。基于安培架构的首款GPU A100是全球最大的7nm芯片,性能相比Volta架构提升最高可以达到20倍,一个架构就可以同时应用于云端和边缘端。

更为重要的是,基于A100的DGXA100 AI系统能够帮助云服务提供商大幅降低数据中心的硬件采购成本和电费支出(这是数据中心的重要支出)。同样基于A100的EGXA100边缘计算平台能够将AI应用于更多的AI场景以及已经开始商用的5G市场。

这种架构的灵活性以及产品的灵活组合,能够让英伟达昂贵的GPU有高的性价比,而安培架构更好实现训练和推理性能的提升,也更有助于英伟达打造云端和边缘端一体化的AI产品,保持在AI市场的竞争力。

可以看到,在云端市场英伟达用安培架构GPU同时满足训练和推理需求,这将在云端AI推理芯片市场占有优势的英特尔带来更大的竞争压力,而想要挑战云端芯片市场的AI芯片的初创公司难度也进一步升级。在边缘市场,英伟达用高性能、多产品组合去满足市场丰富的应用需求,持续开拓生态,要将云端的优势拓展至边缘端。

这样看来,已经在数据中心、汽车、医疗AI市场都有优势的英伟达,还正在与开源社区合作为Apache Spark 3.0带来端到端的GPU加速,正进一步向AI市场发起了全面的攻势。这是否意味着英伟达离AI产品收入高于游戏显卡收入的时代也不远了?

责任编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4403

    浏览量

    126593
  • AI
    AI
    +关注

    关注

    87

    文章

    26364

    浏览量

    263963
  • 英伟达
    +关注

    关注

    22

    文章

    3309

    浏览量

    87679
收藏 人收藏

    评论

    相关推荐

    英伟达v100A100的差距有哪些?

    英伟达v100A100的差距有哪些? 在当今人工智能和深度学习技术日益发展的时代,高性能计算机显卡已成为支持这些技术发展的关键。英伟达是高
    的头像 发表于 08-22 16:46 1.5w次阅读

    英伟a100和h100哪个强?英伟A100和H100的区别

    基于Ampere架构GPU计算加速器,专为高性能计算、人工智能和机器学习等领域而设计。它拥有高达6912个CUDA核心(在32GB版本中),是目前最强大的数据中心
    的头像 发表于 08-09 17:31 3.5w次阅读

    英伟达h800和a100的区别

    英伟达h800和a100的区别 NVIDIA H800和A100是NVIDIA的两种不同类型的GPU,具有不同的架构和特点。以下是它们之间的
    的头像 发表于 08-08 16:05 1.4w次阅读
    <b class='flag-5'>英伟</b>达h800和<b class='flag-5'>a100</b>的区别

    英伟A100的算力是多少?

    ,但 A100 的算力是前者的 20 倍。 A100英伟达推出的一款强大的数据中心GPU,采用全新的Ampere
    的头像 发表于 08-08 15:28 2.4w次阅读

    英伟A100的优势分析

    英伟A100的优势分析 在大模型训练中,A100是非常强大的GPUA100英伟达推出的一款
    的头像 发表于 08-08 15:25 2630次阅读

    英伟A100的简介

    A100英伟达公司推出的一款面向高性能计算(HPC)和人工智能(AI)的加速计算卡。它采用了全球首个基于7nm工艺的数据中心GPU架构A
    的头像 发表于 08-08 15:17 7544次阅读

    英伟A100是什么系列?

    被暴抢。 英伟A100英伟达推出的一款数据中心GPU系列,采用了全新的Ampere架构。它是一款专为深度学习、科学计算、超级计算等工作负
    的头像 发表于 08-08 15:13 2179次阅读

    英伟A100和A40的对比

    英伟A100和A40的对比 A100英伟达推出的一款强大的数据中心GPU,采用全新的Ampere架构
    的头像 发表于 08-08 15:08 1.3w次阅读

    英伟A100和4090的区别

    英伟A100和4090的区别 英伟A100和4090都是英伟达的高性能计算卡型号。它们之间的
    的头像 发表于 08-08 11:59 2.4w次阅读

    英伟A100和V100参数对比

    英伟A100这个AI芯片怎么样?英伟A100是一款基于英伟达Ampere架构的高
    的头像 发表于 08-08 11:54 9059次阅读
    <b class='flag-5'>英伟</b>达<b class='flag-5'>A100</b>和V<b class='flag-5'>100</b>参数对比

    英伟A100和3090的区别

    实现深度学习训练和推理操作,具有更高的计算精度和更大的内存容量。 英伟A100是一款基于英伟达Ampere架构的高
    的头像 发表于 08-07 18:54 2815次阅读

    英伟A100和H100的区别

    英伟A100和H100的区别 英伟A100和H100是两种不同的产品。
    的头像 发表于 08-07 18:06 2.4w次阅读

    英伟a100显卡算力介绍

    英伟a100显卡算力介绍 英伟A100显卡是一款专为数据中心设计的显卡,采用了全新的Ampere架构,配备了6912个CUDA核心,算力
    的头像 发表于 08-07 17:59 5753次阅读

    英伟a100和a800的区别

    英伟a100和a800的区别 英伟A100和A800是两种不同的产品, 主要区别如下: 1. 架构不同:
    的头像 发表于 08-07 17:57 3.2w次阅读

    英伟a100和h100哪个强?

    版本制程(4N)打造,单块芯片包含 800 亿晶体管。 A100都是非常强大的GPUA100配备高达6,912个CUDA核心,A100
    的头像 发表于 08-07 17:32 1.1w次阅读