0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

性能提升20倍!NVIDIA A100 GPU打破16项AI芯片性能记录

Carol Li 来源:电子发烧友整理 作者:李弯弯 2020-07-31 08:03 次阅读

2020年7月30日,MLPerf组织发布第三个版本MLPerf Trainingv0.7基准测试(Benchmark)结果。结果显示,英伟达基于今年5月最新发布的Ampere架构A100 TensorCore GPU,和HDR InfiniBand实现多个DGXA100系统互联的庞大集群——DGX SuperPOD系统在性能上开创了八个全新里程碑,共打破16项纪录。

MLPerf是成立于2018年5月的行业基准测试组织,致力于机器学习硬件、软件和服务的训练和推理性能测试,囊括行业中几乎所有知名企业和机构,比如Intel、NVIDIA、Google、微软、阿里巴巴等。

DGX SuperPOD系统公布于去年6月17号。最初由96台NVIDIA DGX-2H超级计算机和Mellanox互连技术在短短三周内建成,提供9.4千兆次的处理能力,用于该公司无人驾驶车辆部署计划中的需求。

而此次创造纪录的NVIDIA DGX SuperPOD系统主要基于Ampere架构以及Volta架构,并且搭载了今年5月份发布的Ampere架构GPU A100。

黄仁勋在GTC 2020大会上说道,A100是迄今为止人类制造出的最大7纳米制程芯片。A100采用目前最先进的台积电(TSMC)7纳米工艺,拥有540亿个晶体管,它是一块3D堆叠芯片,面积高达826mm^2,GPU的最大功率达到了400W。

这块GPU上搭载了容量40G的三星HBM2显存(比DDR5速度还快得多,就是很贵),第三代TensorCore。同时它的并联效率也有了巨大提升,其采用带宽600GB/s的新版NVLink,几乎达到了10倍PCIE互联速度。

随着安培架构出现的三代TensorCore对稀疏张量运算进行了特别加速:执行速度提高了一倍,也支持TF32、FP16、BFLOAT16、INT8和INT4等精度的加速——系统会自动将数据转为TF32格式加速运算,现在你无需修改任何代码量化了,直接自动训练即可。

A100也针对云服务的虚拟化进行了升级,因为全新的multi-instanceGPU机制,在模拟实例时,每块GPU的吞吐量增加了7倍。

最终在跑AI模型时,如果用PyTorch框架,相比上一代V100芯片,A100在BERT模型的训练上性能提升6倍,BERT推断时性能提升7倍。

电子发烧友综合报道,参考自镁客网、机器之心,转载请注明来源和出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4585

    浏览量

    101684
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4413

    浏览量

    126636
收藏 人收藏

    评论

    相关推荐

    NVIDIA特供中国的芯片AI性能大降10%售价依然高

    目前NVIDIA最昂贵的A100、H100芯片无法对中国市场出售,此前为中国市场定制的A800、H800芯片也被限制对中国出售,可以对中国出
    的头像 发表于 01-03 16:07 879次阅读

    对英伟达A100芯片算力服务收费价格上调100%,这家企业的硬气来自哪里?

    半导体芯情了解到,A100是英伟达最新推出的一款高性能计算芯片,采用了全新的Ampere架构,Ampere架构是NVIDIA于 GTC 2020发布的
    的头像 发表于 11-14 16:30 643次阅读
    对英伟达<b class='flag-5'>A100</b><b class='flag-5'>芯片</b>算力服务收费价格上调<b class='flag-5'>100</b>%,这家企业的硬气来自哪里?

    传英伟达新AI芯片H20综合算力比H100降80%

    但据悉,三种新型AI芯片不是“改良型”,而是“缩小型”。用于ai模型教育的hgx h20的带宽和计算速度是有限的。整体计算能力理论上比nvidia
    的头像 发表于 11-13 09:41 849次阅读

    英伟达a100和h100哪个强?英伟达A100和H100的区别

    英伟达a100和h100哪个强? 就A100和H100这两个产品来说,它们虽然都是英伟达公司的高性能计算产品,但是面向的市场和应用场景不同,
    的头像 发表于 08-09 17:31 3.5w次阅读

    英伟达h800和a100的区别

    架构,而A100使用NVIDIA Ampere架构。Ampere架构比Volta架构更先进。 2. 处理器:H800使用16个Volta GPU处理器,
    的头像 发表于 08-08 16:05 1.4w次阅读
    英伟达h800和<b class='flag-5'>a100</b>的区别

    英伟达h800和a100参数对比

    英伟达h800和a100参数对比 NVIDIA H800和A100是两款高端的GPU产品,下面是它们的参数对比: 1.架构: H800采用的是Volta架构,而
    的头像 发表于 08-08 15:53 2.5w次阅读
    英伟达h800和<b class='flag-5'>a100</b>参数对比

    英伟达a100有国产替代吗?

    和昇腾920芯片均具有AI处理能力。另外,国内企业紫光展锐、寒武纪等也在不断推出性能与英伟达A100相近的AI
    的头像 发表于 08-08 15:37 3673次阅读

    英伟达A100的算力是多少?

    ,但 A100 的算力是前者的 20 倍。 A100是英伟达推出的一款强大的数据中心GPU,采用全新的Ampere架构。它拥有高达6,912个CUDA核心和40GB的高速HBM2显存。
    的头像 发表于 08-08 15:28 2.4w次阅读

    英伟达A100的优势分析

    HBM2显存。 英伟达A100是一款高性能GPU,其主要优势如下: 1. 支持高效的AI计算:A100采用了新一代的Tensor Core
    的头像 发表于 08-08 15:25 2648次阅读

    英伟达A100的简介

    A100是英伟达公司推出的一款面向高性能计算(HPC)和人工智能(AI)的加速计算卡。它采用了全球首个基于7nm工艺的数据中心GPU架构Ampere,拥有6912个CUDA核心和43
    的头像 发表于 08-08 15:17 7574次阅读

    英伟达A100是什么系列?

    被暴抢。 英伟达A100是英伟达推出的一款数据中心GPU系列,采用了全新的Ampere架构。它是一款专为深度学习、科学计算、超级计算等工作负载设计的高性能计算解决方案,拥有更高的计算能力、更大的显存容量和更快的数据传输速度等优势
    的头像 发表于 08-08 15:13 2216次阅读

    英伟达A100和A40的对比

    TFLOPS的FP32浮点性能和156 TFLOPS的深度学习性能。 英伟达A100和A40是英伟达公司推出的两个数据中心加速器。它们都是基于英伟达的Ampere架构设计的最新GPU
    的头像 发表于 08-08 15:08 1.3w次阅读

    英伟达A100和V100参数对比

    英伟达A100这个AI芯片怎么样?英伟达A100是一款基于英伟达Ampere架构的高性能计算卡,主要面向数据中心和高
    的头像 发表于 08-08 11:54 9181次阅读
    英伟达<b class='flag-5'>A100</b>和V<b class='flag-5'>100</b>参数对比

    英伟达a100和a800的区别

    的浮点性能为19.5 TFLOPS,而A800为10.6 TFLOPS。 3. 存储容量不同:A100的显存最大为80 GB,而A800为48 GB。 4. AI加速器不同:A100
    的头像 发表于 08-07 17:57 3.2w次阅读

    英伟达a100和h100哪个强?

    版本制程(4N)打造,单块芯片包含 800 亿晶体管。 A100都是非常强大的GPUA100配备高达6,912个CUDA核心,A100是英
    的头像 发表于 08-07 17:32 1.1w次阅读