0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达H100 Transformer引擎加速AI训练 准确而且高达6倍性能

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-04-01 09:24 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在当今计算平台上,大型 AI 模型可能需要数月来完成训练。而这样的速度对于企业来说太慢了。

随着一些模型(例如大型语言模型)达到数万亿参数,AI、高性能计算和数据分析变得日益复杂。

NVIDIA Hopper 架构从头开始构建,凭借强大的算力和快速的内存来加速这些新一代 AI 工作负载,从而处理日益增长的网络和数据集。

Transformer 引擎是全新 Hopper 架构的一部分,将显著提升 AI 性能和功能,并助力在几天或几小时内训练大型模型。

使用 Transformer 引擎训练 AI 模型

Transformer 模型是当今广泛使用的语言模型(例如 asBERT 和 GPT-3)的支柱。Transformer 模型最初针对自然语言处理用例而开发,但因其通用性,现在逐步应用于计算机视觉、药物研发等领域。

与此同时,模型大小不断呈指数级增长,现在已达到数万亿个参数。由于计算量巨大,训练时间不得不延长到数月,而这样就无法满足业务需求。

Transformer 引擎采用 16 位浮点精度和新增的 8 位浮点数据格式,并整合先进的软件算法,将进一步提升 AI 性能和功能。

AI 训练依赖浮点数,浮点数是小数,例如 3.14。TensorFloat32 (TF32) 浮点格式是随 NVIDIA Ampere 架构而面世的,现已成为 TensorFlow 和 PyTorch 框架中的默认 32 位格式。

大多数 AI 浮点运算采用 16 位“半”精度 (FP16)、32 位“单”精度 (FP32),以及面向专业运算的 64 位“双”精度 (FP64)。Transformer 引擎将运算缩短为 8 位,能以更快的速度训练更大的网络。

与 Hopper 架构中的其他新功能(例如,在节点之间提供直接高速互连的 NVLink Switch 系统)结合使用时,H100 加速服务器集群能够训练庞大网络,而这些网络此前几乎无法以企业所需的速度进行训练。

更深入地研究 Transformer 引擎

Transformer 引擎采用软件和自定义 NVIDIA Hopper Tensor Core 技术,该技术旨在加速训练基于常见 AI 模型构建模块(即 Transformer)构建的模型。这些 Tensor Core 能够应用 FP8 和 FP16 混合精度,以大幅加速 Transformer 模型的 AI 计算。采用 FP8 的 Tensor Core 运算在吞吐量方面是 16 位运算的两倍。

模型面临的挑战是智能管理精度以保持准确性,同时获得更小、更快数值格式所能实现的性能。Transformer 引擎利用定制的、经NVIDIA调优的启发式算法来解决上述挑战,该算法可在 FP8 与 FP16 计算之间动态选择,并自动处理每层中这些精度之间的重新投射和缩放。

b39541ba-b14d-11ec-aa7f-dac502259ad0.png

Transformer Engine 使用每层统计分析来确定模型每一层的最佳精度(FP16 或 FP8),在保持模型精度的同时实现最佳性能。

与上一代 TF32、FP64、FP16 和 INT8 精度相比,NVIDIA Hopper 架构还将每秒浮点运算次数提高了三倍,从而在第四代 Tensor Core 的基础上实现了进一步提升。Hopper Tensor Core 与 Transformer 引擎和第四代 NVLink 相结合,可使 HPC 和 AI 工作负载的加速实现数量级提升。

加速 Transformer 引擎

AI 领域的大部分前沿工作都围绕 Megatron 530B 等大型语言模型展开。下图显示了近年来模型大小的增长趋势,业界普遍认为这一趋势将持续发展。许多研究人员已经在研究用于自然语言理解和其他应用的超万亿参数模型,这表明对 AI 计算能力的需求有增无减。

b3a976d0-b14d-11ec-aa7f-dac502259ad0.jpg

自然语言理解模型仍在快速增长。

为满足这些持续增长的模型的需求,高算力和大量高速内存缺一不可。NVIDIA H100 Tensor Core GPU 两者兼备,再加上 Transformer 引擎实现的加速,可助力 AI 训练更上一层楼。

通过上述方面的创新,就能够提高吞吐量,将训练时间缩短 9 倍——从 7 天缩短到仅 20 个小时:

b3c3821e-b14d-11ec-aa7f-dac502259ad0.jpg

与上一代相比,NVIDIA H100 Tensor Core GPU 提供 9 倍的训练吞吐量,从而可在合理的时间内训练大型模型。

Transformer 引擎还可用于推理,无需进行任何数据格式转换。以前,INT8 是实现出色推理性能的首选精度。但是,它要求经训练的网络转换为 INT8,这是优化流程的一部分,而 NVIDIA TensorRT 推理优化器可轻松实现这一点。

使用以 FP8 精度训练的模型时,开发者可以完全跳过此转换步骤,并使用相同的精度执行推理操作。与 INT8 格式的网络一样,使用 Transformer 引擎的部署能以更小的内存占用空间运行。

在 Megatron 530B 上,NVIDIA H100 的每 GPU 推理吞吐量比 NVIDIA A100 高 30 倍,响应延迟为 1 秒,这表明它是适用于 AI 部署的上佳平台:

b3d518bc-b14d-11ec-aa7f-dac502259ad0.jpg

对于低延迟应用,Transformer 引擎还可将推理吞吐量提高 30 倍。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38153

    浏览量

    296814
  • 英伟达
    +关注

    关注

    23

    文章

    4041

    浏览量

    97688
  • H100
    +关注

    关注

    0

    文章

    33

    浏览量

    564

原文标题:GTC22 | H100 Transformer 引擎大幅加速 AI 训练,在不损失准确性的情况下提供高达 6 倍的性能

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    英伟 Q3 狂揽 308 亿

    厂商季度合计 500 亿美元资本支出中,约 30% 流向了英伟。 新一代 Blackwell 芯片已全面投产,Q3 交付 1.3 万个 GPU 样品,H200 GPU 理论性能
    的头像 发表于 11-20 18:11 1069次阅读

    黄仁勋:英伟AI芯片订单排到2026年 英伟上季营收加速增长62%再超预期

    AI芯片总龙头英伟的财报终于带来了惊喜;英伟公司发布财报数据显示,上季营收加速增长62%;再
    的头像 发表于 11-20 11:36 857次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    Transformer 模型 通过简化Transformer 模型而不影响其收敛性能和下游任务性能加速GPU中的
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    的我我们讲解了这几种芯片的应用场景,设计流程、结构等。 CPU: 还为我们讲解了一种算法:哈希表算法 GPU: 介绍了英伟H100GPU芯片。使用了一下关键技术: ①张量核
    发表于 09-12 16:07

    英伟 H100 GPU 掉卡?做好这五点,让算力稳如泰山!

    H100服务器停工一天损失的算力成本可能比维修费还高。今天,我们给大家总结一套“防掉卡秘籍”,从日常管理到环境把控,手把手教你把掉卡风险压到最低。一、供电是“生命线”,这3点必须盯紧H100满载功耗
    的头像 发表于 09-05 11:03 720次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b> <b class='flag-5'>H100</b> GPU 掉卡?做好这五点,让算力稳如泰山!

    英伟被传暂停生产H20芯片 外交部回应

    韩国三星电子、美国安靠科技、富士康等关键零部件供应商。 据悉,美国安靠科技(Amkor)负责H20芯片的封装,而三星电子负责提供高带宽的内存芯片。 业界人士分析称,一方面英伟H20芯
    的头像 发表于 08-22 15:58 2577次阅读

    H20中国区卖爆!英伟紧急向台积电加订30万块

    性能上相当于英伟另一款主流GPU芯片H100的20%左右。   尽管如此,在美国解禁对H20芯片的出口后,需求仍然超出了想象。据路透社报
    的头像 发表于 07-30 08:08 3008次阅读

    GPU 维修干货 | 英伟 GPU H100 常见故障有哪些?

    上涨,英伟H100GPU凭借其强大的算力,成为AI训练、高性能计算领域的核心硬件。然而,随着使
    的头像 发表于 05-05 09:03 2468次阅读
    GPU 维修干货 | <b class='flag-5'>英伟</b><b class='flag-5'>达</b> GPU <b class='flag-5'>H100</b> 常见故障有哪些?

    海思SD3403边缘计算AI数据训练概述

    模型,将模型转化为嵌入式AI模型,模型升级AI摄像机,进行AI识别应用。 AI训练模型是不断迭代优化过程,譬如,
    发表于 04-28 11:11

    特朗普要叫停英伟对华特供版 英伟H20出口限制 或损失55亿美元

    是“中国特供版”人工智能芯片;是英伟公司为符合美国出口规定专门为中国市场开发的定制芯片,H20芯片在训练AI模型方面不如
    的头像 发表于 04-16 16:59 1892次阅读

    新思科技携手英伟加速芯片设计,提升芯片电子设计自动化效率

    宣布在英伟 Grace Blackwell 平台上实现高达 30 的预期性能提升,加速下一代
    发表于 03-19 17:59 437次阅读

    明远智睿SD2351核心板首发:四核A35+硬核AI引擎,赋能工业AIoT

    ARM Cortex-A35架构,主频高达1.5GHz,集成智能视频引擎(IVE)与智能处理单元(IPU),支持多模态AI分析与实时视频处理,为边缘计算场景提供强劲算力支持。 核心配置亮点: 处理
    发表于 02-20 14:11

    英伟A100H100比较

    英伟A100H100都是针对高性能计算和人工智能任务设计的GPU,但在性能和特性上存在显著差
    的头像 发表于 02-10 17:05 1.1w次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>A<b class='flag-5'>100</b>和<b class='flag-5'>H100</b>比较

    英伟发布Nemotron-CC大型AI训练数据库

    近日,英伟在其官方博客上宣布了一项重大进展,推出了一款名为Nemotron-CC的大型英文AI训练数据库。这一数据库的发布,标志着英伟
    的头像 发表于 01-14 14:14 794次阅读

    英伟收购AI初创公司Run:ai

    :ai作为一家专注于AI云计算软件平台开发的初创公司,其产品以高效利用高性能GPU资源为核心,致力于为用户提供更快速、更便捷的机器学习加速方案。通过此次收购,
    的头像 发表于 12-31 10:46 867次阅读