关于NVIDIA H100 GPU的问题解答-电子发烧友网

NVIDIA 带来知乎精彩问答甄选系列，将为您精选知乎上有关 NVIDIA 产品的精彩问答。

本期为问答甄选第二期 ——探索 H100 的奥秘！

NVIDIA H100 是全球 AI 基础设施的引擎，

让企业能够利用其实现自身 AI 业务的加速。

今年的 GTC22 上 NVIDIA 发布其首款基于 Hopper 架构的 GPU —NVIDIA H100。

该款 GPU 集成了 800 亿个晶体管。H100 是全球范围内最大的性能出众的加速器，拥有革命性的 Transformer 引擎和高度可扩展的 NVIDIA NVLink 互连技术等突破性功能，可推动庞大的 AI 语言模型、深度推荐系统、基因组学和复杂数字孪生的发展。

以下三个知乎甄选问答将为您了解NVIDIA H100带来更加精彩的解答！

Q：NVIDIA GTC 2022 大会官宣，Hopper 计算架构要来了，该架构有哪些值得期待的亮点？

A：NVIDIA 宣布推出采用 NVIDIA Hopper架构的新一代加速计算平台。与上一代产品相比，该平台实现了数量级的性能飞跃。这一全新架构以美国计算机领域的先驱科学家 Grace Hopper 的名字命名，将取代两年前推出的 NVIDIA Ampere 架构。

使用 Transformer 引擎训练 AI 模型：

随着一些模型（例如大型语言模型）达到数万亿参数，AI、高性能计算和数据分析变得日益复杂。在当今计算平台上，大型 AI 模型可能需要数月来完成训练。而这样的速度对于企业来说太慢了。

NVIDIA Hopper 架构从头开始构建，凭借强大的算力和快速的内存来加速这些新一代 AI 工作负载，从而处理日益增长的网络和数据集。Transformer 引擎是全新 Hopper 架构的一部分，将显著提升 AI 性能和功能，并助力在几天或几小时内训练大型模型。

Transformer 引擎采用 16 位浮点精度和新增的 8 位浮点数据格式，并整合先进的软件算法，将进一步提升 AI 性能和功能。

采用全新 DPX 指令将动态编程速度提升 40 倍：

NVIDIA Hopper GPU 架构利用全新 DPX 指令，将动态编程速度提高多达 40 倍。动态编程是一种应用于基因组学、量子计算、路线优化等领域算法中，用以解决问题的技术。

Q：基于 Hopper 架构的 NVIDIA H100 GPU 有什么突破性创新？

A：H100 GPU 为加速大规模 AI 和 HPC 设定了新的标准，带来了六项突破性创新：

先进的芯片—— H100 由 800 亿个晶体管构建而成，这些晶体管采用了专为 NVIDIA 加速计算需求设计的尖端的 TSMC 4N 工艺，因而能够显著提升 AI、HPC、显存带宽、互连和通信的速度，并能够实现近 5TB/s 的外部互联带宽。H100 是首款支持 PCIe 5.0 的 GPU，也是首款采用 HBM3 的 GPU，可实现 3TB/s 的显存带宽。20个 H100 GPU 便可承载相当于全球互联网的流量，使其能够帮助客户推出先进的推荐系统以及实时运行数据推理的大型语言模型。

新的 Transformer 引擎—— Transformer 现在已成为自然语言处理的标准模型方案，也是深度学习模型领域最重要的模型之一。H100 加速器的 Transformer 引擎旨在不影响精度的情况下，将这些网络的速度提升至上一代的六倍。

第二代安全多实例 GPU—— MIG 技术支持将单个 GPU 分为七个更小且完全独立的实例，以处理不同类型的作业。与上一代产品相比，在云环境中 Hopper 架构通过为每个 GPU 实例提供安全的多租户配置，将 MIG 的部分能力扩展了 7 倍。

机密计算—— H100 是全球首款具有机密计算功能的加速器，可保护 AI 模型和正在处理的客户数据。客户还可以将机密计算应用于医疗健康和金融服务等隐私敏感型行业的联邦学习，也可以应用于共享云基础设施。

第 4 代 NVIDIA NVLink—— 为加速大型 AI 模型，NVLink 结合全新的外接 NVLink Switch，可将 NVLink 扩展为服务器间的互联网络，最多可以连接多达 256 个 H100 GPU，相较于上一代采用 NVIDIA HDR Quantum InfiniBand网络，带宽高出9倍。

DPX 指令—— 新的 DPX 指令可加速动态规划，适用于包括路径优化和基因组学在内的一系列算法，与 CPU 和上一代 GPU 相比，其速度提升分别可达 40 倍和 7 倍。Floyd-Warshall 算法与 Smith-Waterman 算法也在其加速之列，前者可以在动态仓库环境中为自主机器人车队寻找最优线路，而后者可用于 DNA 和蛋白质分类与折叠的序列比对。

H100 的多项技术创新相结合，进一步扩大了 NVIDIA在 AI 推理和训练的领导地位，利用大规模 AI 模型实现了实时沉浸式应用。H100 将支持聊天机器人使用功能超强大的monolithic Transformer 语言模型 Megatron 530B，吞吐量比上一代产品高出 30 倍，同时满足实时对话式 AI 所需的次秒级延迟。利用 H100，研究人员和开发者能够训练庞大的模型，如包含 3950 亿个参数的混合专家模型，训练速度加速高达9倍，将训练时间从几周缩短到几天。

Q：NVIDIA H100 在 AI 基础架构方面有什么作用？

A：基于 Hopper 架构的 NVIDIA H100，是“全球 AI 基础架构的新引擎”。

语音、对话、客服和推荐系统等 AI 应用正在推动数据中心设计领域的巨大变革。“AI 数据中心需要处理海量且持续的数据，以训练和完善 AI 模型，原始数据进来，经过提炼，然后智能输出——企业正在制造智能并运营大型 AI 工厂。” 这些工厂全天候密集运行，即便是质量上的小幅改进也能大幅增加客户参与和企业利润。

H100 将帮助这些工厂更快发展。这个 “庞大” 的 800 亿晶体管芯片采用了台积电的 4 纳米工艺制造而成。

“Hopper H100 是有史以来最大的一次性能飞跃——其大规模训练性能是 A100 的 9 倍，大型语言模型推理吞吐量是 A100 的 30 倍。”

审核编辑：汤梓红

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉