0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达H100 Transformer引擎加速AI训练 准确而且高达6倍性能

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-04-01 09:24 次阅读

在当今计算平台上,大型 AI 模型可能需要数月来完成训练。而这样的速度对于企业来说太慢了。

随着一些模型(例如大型语言模型)达到数万亿参数,AI、高性能计算和数据分析变得日益复杂。

NVIDIA Hopper 架构从头开始构建,凭借强大的算力和快速的内存来加速这些新一代 AI 工作负载,从而处理日益增长的网络和数据集。

Transformer 引擎是全新 Hopper 架构的一部分,将显著提升 AI 性能和功能,并助力在几天或几小时内训练大型模型。

使用 Transformer 引擎训练 AI 模型

Transformer 模型是当今广泛使用的语言模型(例如 asBERT 和 GPT-3)的支柱。Transformer 模型最初针对自然语言处理用例而开发,但因其通用性,现在逐步应用于计算机视觉、药物研发等领域。

与此同时,模型大小不断呈指数级增长,现在已达到数万亿个参数。由于计算量巨大,训练时间不得不延长到数月,而这样就无法满足业务需求。

Transformer 引擎采用 16 位浮点精度和新增的 8 位浮点数据格式,并整合先进的软件算法,将进一步提升 AI 性能和功能。

AI 训练依赖浮点数,浮点数是小数,例如 3.14。TensorFloat32 (TF32) 浮点格式是随 NVIDIA Ampere 架构而面世的,现已成为 TensorFlow 和 PyTorch 框架中的默认 32 位格式。

大多数 AI 浮点运算采用 16 位“半”精度 (FP16)、32 位“单”精度 (FP32),以及面向专业运算的 64 位“双”精度 (FP64)。Transformer 引擎将运算缩短为 8 位,能以更快的速度训练更大的网络。

与 Hopper 架构中的其他新功能(例如,在节点之间提供直接高速互连的 NVLink Switch 系统)结合使用时,H100 加速服务器集群能够训练庞大网络,而这些网络此前几乎无法以企业所需的速度进行训练。

更深入地研究 Transformer 引擎

Transformer 引擎采用软件和自定义 NVIDIA Hopper Tensor Core 技术,该技术旨在加速训练基于常见 AI 模型构建模块(即 Transformer)构建的模型。这些 Tensor Core 能够应用 FP8 和 FP16 混合精度,以大幅加速 Transformer 模型的 AI 计算。采用 FP8 的 Tensor Core 运算在吞吐量方面是 16 位运算的两倍。

模型面临的挑战是智能管理精度以保持准确性,同时获得更小、更快数值格式所能实现的性能。Transformer 引擎利用定制的、经NVIDIA调优的启发式算法来解决上述挑战,该算法可在 FP8 与 FP16 计算之间动态选择,并自动处理每层中这些精度之间的重新投射和缩放。

b39541ba-b14d-11ec-aa7f-dac502259ad0.png

Transformer Engine 使用每层统计分析来确定模型每一层的最佳精度(FP16 或 FP8),在保持模型精度的同时实现最佳性能。

与上一代 TF32、FP64、FP16 和 INT8 精度相比,NVIDIA Hopper 架构还将每秒浮点运算次数提高了三倍,从而在第四代 Tensor Core 的基础上实现了进一步提升。Hopper Tensor Core 与 Transformer 引擎和第四代 NVLink 相结合,可使 HPC 和 AI 工作负载的加速实现数量级提升。

加速 Transformer 引擎

AI 领域的大部分前沿工作都围绕 Megatron 530B 等大型语言模型展开。下图显示了近年来模型大小的增长趋势,业界普遍认为这一趋势将持续发展。许多研究人员已经在研究用于自然语言理解和其他应用的超万亿参数模型,这表明对 AI 计算能力的需求有增无减。

b3a976d0-b14d-11ec-aa7f-dac502259ad0.jpg

自然语言理解模型仍在快速增长。

为满足这些持续增长的模型的需求,高算力和大量高速内存缺一不可。NVIDIA H100 Tensor Core GPU 两者兼备,再加上 Transformer 引擎实现的加速,可助力 AI 训练更上一层楼。

通过上述方面的创新,就能够提高吞吐量,将训练时间缩短 9 倍——从 7 天缩短到仅 20 个小时:

b3c3821e-b14d-11ec-aa7f-dac502259ad0.jpg

与上一代相比,NVIDIA H100 Tensor Core GPU 提供 9 倍的训练吞吐量,从而可在合理的时间内训练大型模型。

Transformer 引擎还可用于推理,无需进行任何数据格式转换。以前,INT8 是实现出色推理性能的首选精度。但是,它要求经训练的网络转换为 INT8,这是优化流程的一部分,而 NVIDIA TensorRT 推理优化器可轻松实现这一点。

使用以 FP8 精度训练的模型时,开发者可以完全跳过此转换步骤,并使用相同的精度执行推理操作。与 INT8 格式的网络一样,使用 Transformer 引擎的部署能以更小的内存占用空间运行。

在 Megatron 530B 上,NVIDIA H100 的每 GPU 推理吞吐量比 NVIDIA A100 高 30 倍,响应延迟为 1 秒,这表明它是适用于 AI 部署的上佳平台:

b3d518bc-b14d-11ec-aa7f-dac502259ad0.jpg

对于低延迟应用,Transformer 引擎还可将推理吞吐量提高 30 倍。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26407

    浏览量

    264010
  • 英伟达
    +关注

    关注

    22

    文章

    3318

    浏览量

    87722
  • H100
    +关注

    关注

    0

    文章

    31

    浏览量

    212

原文标题:GTC22 | H100 Transformer 引擎大幅加速 AI 训练,在不损失准确性的情况下提供高达 6 倍的性能

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    英伟达发布新一代H200,搭载HBM3e,推理速度是H100两倍!

    电子发烧友网报道(文/李弯弯)日前,英伟达正式宣布,在目前最强AI芯片H100的基础上进行一次大升级,发布新一代H200芯片。H200拥有141GB的内存、4.8TB/秒的带宽,并将与H100
    的头像 发表于 11-15 01:15 2367次阅读
    <b class='flag-5'>英伟</b>达发布新一代H200,搭载HBM3e,推理速度是<b class='flag-5'>H100</b>两倍!

    英伟达发布超强AI加速卡,性能大幅提升,可支持1.8万亿参数模的训练

    得益于NVIDIA每两年进行一次GPU架构升级以提高性能的策略,全新的基于Blackwell的加速卡比之前的H100更为强大,尤其适用于AI相关任务。
    的头像 发表于 03-19 12:04 170次阅读

    英伟达H200和H100的比较

    英伟达H200和H100是两款不同的AI芯片,它们各自具有独特的特点和优势。以下是关于这两款芯片的一些比较。
    的头像 发表于 03-07 15:53 835次阅读

    AI计算需求激增,英伟H100功耗成挑战

    根据预测,若H100的年利用率保持在61%,那么单台设备每年将耗电3740千瓦小时左右。如果英伟达在2023年售出150万块H100,2024年再增加至200万块,那么到2024年底,将有350万块
    的头像 发表于 12-28 09:29 626次阅读

    英伟达推出新款AI芯片H200 性能飙升90%但是估计依然被出口管制

    大,也是H100的升级版,号称性能飙升90%;全球最强 AI 芯片。 据英伟达的消息,H200拥有141GB的内存、4.8TB/秒的带宽,并将与H1
    的头像 发表于 11-14 16:45 981次阅读
    <b class='flag-5'>英伟</b>达推出新款<b class='flag-5'>AI</b>芯片H200 <b class='flag-5'>性能</b>飙升90%但是估计依然被出口管制

    英伟达特供版芯片将上市:性能最高不到H100的20%

    本周四,一些媒体首次报道了英伟达特供芯片的消息。报道称,这三款新产品是在 H100 GPU 的基础版本基础上进行修改的,采用的是最新架构,但性能大幅度缩减。H100 GPU 是一种用于
    的头像 发表于 11-13 16:44 465次阅读
    <b class='flag-5'>英伟</b>达特供版芯片将上市:<b class='flag-5'>性能</b>最高不到<b class='flag-5'>H100</b>的20%

    英伟达新AI芯片H20综合算力比H100降80%

    但据悉,三种新型AI芯片不是“改良型”,而是“缩小型”。用于ai模型教育的hgx h20的带宽和计算速度是有限的。整体计算能力理论上比nvidia的h100 gpu芯片低80%左右。h20是h
    的头像 发表于 11-13 09:41 850次阅读

    升腾910和英伟h100对比

    升腾910和英伟h100对比  随着人工智能计算进入快速发展的阶段,AI芯片的性能也越来越得到人们的关注,其中两款最受关注的芯片必须是华为的升腾910以及
    的头像 发表于 08-31 17:06 1.3w次阅读

    英伟达赚翻了,分析称H100 AI GPU利润高达1000%

     据Tae Kim透露,金融咨询公司Raymond James推算,每个h100芯片的费用为3320美元。但是,目前还不清楚bom成本分析进行得有多深入。如果这是纯粹的制造成本(晶片和其他部件的平均收益率)的问题,英伟达仍需支付相当大的销售成本。
    的头像 发表于 08-21 11:13 538次阅读

    英伟达a100h100哪个强?英伟达A100H100的区别

    基于Ampere架构的GPU计算加速器,专为高性能计算、人工智能和机器学习等领域而设计。它拥有高达6912个CUDA核心(在32GB版本中),是目前最强大的数据中心GPU之一。A100
    的头像 发表于 08-09 17:31 3.5w次阅读

    英伟达h800和h100的区别

    英伟达h800和h100的区别 其实大白话就是,A100H100是原版,特供中国市场的减配版是A800、H800。A100
    的头像 发表于 08-08 16:06 3.9w次阅读
    <b class='flag-5'>英伟</b>达h800和<b class='flag-5'>h100</b>的区别

    英伟达A100的简介

    达A100英伟达公司推出的一款面向高性能计算(HPC)和人工智能(AI)的加速计算卡。它采用了全球首个基于7nm工艺的数据中心GPU架构A
    的头像 发表于 08-08 15:17 7582次阅读

    英伟达A100和3090的区别

    英伟达A100和3090的区别 英伟达A100是一款面向数据中心的计算加速器,其主要优势是支持数据中心最新的
    的头像 发表于 08-07 18:54 2850次阅读

    英伟达A100H100的区别

    技术,具有超高的性能和能效。 H100则是英伟达推出的一款专门针对HPC领域的加速器卡产品,主要用于科学计算、气象预测、天文学等领域的高性
    的头像 发表于 08-07 18:06 2.4w次阅读

    英伟达a100h100哪个强?

    英伟达a100h100哪个强? 英伟达A100H100更强。
    的头像 发表于 08-07 17:32 1.1w次阅读