0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于NVIDIA H100 GPU的问题解答

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-07-18 10:35 次阅读

NVIDIA 带来知乎精彩问答甄选系列,将为您精选知乎上有关 NVIDIA 产品的精彩问答。

本期为问答甄选第二期 ——探索 H100 的奥秘!

NVIDIA H100 是全球 AI 基础设施的引擎,

让企业能够利用其实现自身 AI 业务的加速。

今年的 GTC22 上 NVIDIA 发布其首款基于 Hopper 架构的 GPU —NVIDIA H100。

该款 GPU 集成了 800 亿个晶体管。H100 是全球范围内最大的性能出众的加速器,拥有革命性的 Transformer 引擎和高度可扩展的 NVIDIA NVLink 互连技术等突破性功能,可推动庞大的 AI 语言模型、深度推荐系统、基因组学和复杂数字孪生的发展。

以下三个知乎甄选问答将为您了解NVIDIA H100带来更加精彩的解答!

Q:NVIDIA GTC 2022 大会官宣,Hopper 计算架构要来了,该架构有哪些值得期待的亮点?

A:NVIDIA 宣布推出采用 NVIDIA Hopper架构的新一代加速计算平台。与上一代产品相比,该平台实现了数量级的性能飞跃。这一全新架构以美国计算机领域的先驱科学家 Grace Hopper 的名字命名,将取代两年前推出的 NVIDIA Ampere 架构。

使用 Transformer 引擎训练 AI 模型:

随着一些模型(例如大型语言模型)达到数万亿参数,AI、高性能计算和数据分析变得日益复杂。在当今计算平台上,大型 AI 模型可能需要数月来完成训练。而这样的速度对于企业来说太慢了。

NVIDIA Hopper 架构从头开始构建,凭借强大的算力和快速的内存来加速这些新一代 AI 工作负载,从而处理日益增长的网络和数据集。Transformer 引擎是全新 Hopper 架构的一部分,将显著提升 AI 性能和功能,并助力在几天或几小时内训练大型模型。

Transformer 引擎采用 16 位浮点精度和新增的 8 位浮点数据格式,并整合先进的软件算法,将进一步提升 AI 性能和功能。

采用全新 DPX 指令将动态编程速度提升 40 倍:

NVIDIA Hopper GPU 架构利用全新 DPX 指令,将动态编程速度提高多达 40 倍。动态编程是一种应用于基因组学、量子计算、路线优化等领域算法中,用以解决问题的技术。

Q:基于 Hopper 架构的 NVIDIA H100 GPU 有什么突破性创新?

A:H100 GPU 为加速大规模 AI 和 HPC 设定了新的标准,带来了六项突破性创新:

先进的芯片—— H100 由 800 亿个晶体管构建而成,这些晶体管采用了专为 NVIDIA 加速计算需求设计的尖端的 TSMC 4N 工艺,因而能够显著提升 AI、HPC、显存带宽、互连和通信的速度,并能够实现近 5TB/s 的外部互联带宽。H100 是首款支持 PCIe 5.0 的 GPU,也是首款采用 HBM3 的 GPU,可实现 3TB/s 的显存带宽。20个 H100 GPU 便可承载相当于全球互联网的流量,使其能够帮助客户推出先进的推荐系统以及实时运行数据推理的大型语言模型。

新的 Transformer 引擎—— Transformer 现在已成为自然语言处理的标准模型方案,也是深度学习模型领域最重要的模型之一。H100 加速器的 Transformer 引擎旨在不影响精度的情况下,将这些网络的速度提升至上一代的六倍。

第二代安全多实例 GPU—— MIG 技术支持将单个 GPU 分为七个更小且完全独立的实例,以处理不同类型的作业。与上一代产品相比,在云环境中 Hopper 架构通过为每个 GPU 实例提供安全的多租户配置,将 MIG 的部分能力扩展了 7 倍。

机密计算—— H100 是全球首款具有机密计算功能的加速器,可保护 AI 模型和正在处理的客户数据。客户还可以将机密计算应用于医疗健康和金融服务等隐私敏感型行业的联邦学习,也可以应用于共享云基础设施。

第 4 代 NVIDIA NVLink—— 为加速大型 AI 模型,NVLink 结合全新的外接 NVLink Switch,可将 NVLink 扩展为服务器间的互联网络,最多可以连接多达 256 个 H100 GPU,相较于上一代采用 NVIDIA HDR Quantum InfiniBand网络,带宽高出9倍。

DPX 指令—— 新的 DPX 指令可加速动态规划,适用于包括路径优化和基因组学在内的一系列算法,与 CPU 和上一代 GPU 相比,其速度提升分别可达 40 倍和 7 倍。Floyd-Warshall 算法与 Smith-Waterman 算法也在其加速之列,前者可以在动态仓库环境中为自主机器人车队寻找最优线路,而后者可用于 DNA 和蛋白质分类与折叠的序列比对。

H100 的多项技术创新相结合,进一步扩大了 NVIDIA在 AI 推理和训练的领导地位,利用大规模 AI 模型实现了实时沉浸式应用。H100 将支持聊天机器人使用功能超强大的monolithic Transformer 语言模型 Megatron 530B,吞吐量比上一代产品高出 30 倍,同时满足实时对话式 AI 所需的次秒级延迟。利用 H100,研究人员和开发者能够训练庞大的模型,如包含 3950 亿个参数的混合专家模型,训练速度加速高达9倍,将训练时间从几周缩短到几天。

Q:NVIDIA H100 在 AI 基础架构方面有什么作用?

A:基于 Hopper 架构的 NVIDIA H100,是“全球 AI 基础架构的新引擎”。

语音、对话、客服和推荐系统等 AI 应用正在推动数据中心设计领域的巨大变革。“AI 数据中心需要处理海量且持续的数据,以训练和完善 AI 模型,原始数据进来,经过提炼,然后智能输出——企业正在制造智能并运营大型 AI 工厂。” 这些工厂全天候密集运行,即便是质量上的小幅改进也能大幅增加客户参与和企业利润。

H100 将帮助这些工厂更快发展。这个 “庞大” 的 800 亿晶体管芯片采用了台积电的 4 纳米工艺制造而成。

“Hopper H100 是有史以来最大的一次性能飞跃——其大规模训练性能是 A100 的 9 倍,大型语言模型推理吞吐量是 A100 的 30 倍。”

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4595

    浏览量

    101724
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4422

    浏览量

    126710
  • AI
    AI
    +关注

    关注

    87

    文章

    26458

    浏览量

    264072
  • H100
    +关注

    关注

    0

    文章

    31

    浏览量

    216

原文标题:NVIDIA 知乎精彩问答甄选(二) | 探索 H100 的奥秘!

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    低压模拟开关/多路选通器常见问题解答

    电子发烧友网站提供《低压模拟开关/多路选通器常见问题解答.pdf》资料免费下载
    发表于 11-28 11:27 0次下载
    低压模拟开关/多路选通器常见<b class='flag-5'>问题解答</b>

    MEMS加速度传感器常见问题解答

    电子发烧友网站提供《MEMS加速度传感器常见问题解答.pdf》资料免费下载
    发表于 11-24 16:06 1次下载
    MEMS加速度传感器常见<b class='flag-5'>问题解答</b>

    CLOCK常见问题解答

    电子发烧友网站提供《CLOCK常见问题解答.pdf》资料免费下载
    发表于 11-23 10:23 0次下载
    CLOCK常见<b class='flag-5'>问题解答</b>

    隔离、iCoupler技术和iCoupler产品常见问题解答

    电子发烧友网站提供《隔离、iCoupler技术和iCoupler产品常见问题解答.pdf》资料免费下载
    发表于 11-22 10:36 0次下载
    隔离、iCoupler技术和iCoupler产品常见<b class='flag-5'>问题解答</b>

    揭秘:英伟达H100最强替代者

    目前,用于高端推理的 GPU 主要有三种:NVIDIA A100NVIDIA H100 和新的 NVI
    的头像 发表于 11-13 16:13 671次阅读
    揭秘:英伟达<b class='flag-5'>H100</b>最强替代者

    博科DCX 8510主干网常见问题解答

    电子发烧友网站提供《博科DCX 8510主干网常见问题解答.pdf》资料免费下载
    发表于 08-30 11:20 0次下载
    博科DCX 8510主干网常见<b class='flag-5'>问题解答</b>

    Brocade G610/G620/G630交换机常见问题解答

    电子发烧友网站提供《Brocade G610/G620/G630交换机常见问题解答.pdf》资料免费下载
    发表于 08-29 15:08 0次下载
    Brocade G610/G620/G630交换机常见<b class='flag-5'>问题解答</b>

    大规模集成电路MegaRAID FastPath软件常见问题解答

    电子发烧友网站提供《大规模集成电路MegaRAID FastPath软件常见问题解答.pdf》资料免费下载
    发表于 08-23 09:41 0次下载
    大规模集成电路MegaRAID FastPath软件常见<b class='flag-5'>问题解答</b>

    PN7160常见问题解答

    电子发烧友网站提供《PN7160常见问题解答.pdf》资料免费下载
    发表于 08-17 14:23 1次下载
    PN7160常见<b class='flag-5'>问题解答</b>

    英伟达a100h100哪个强?英伟达A100H100的区别

    英伟达a100h100哪个强? 就A100H100这两个产品来说,它们虽然都是英伟达公司的高性能计算产品,但是面向的市场和应用场景不同,所以不能简单地说哪个更强。
    的头像 发表于 08-09 17:31 3.6w次阅读

    Arm SystemReady和SystemReady预硅启用的常见问题解答

    本指南提供了有关Arm SystemReady计划和SystemReady预硅启用的常见问题的答案。 信息分为以下几个部分: •SystemReady一般常见问题解答回答了有关SystemReady
    发表于 08-08 06:21

    英伟达a100h100哪个强?

    架构。 英伟达A100是一款基于最新的NVIDIA Ampere架构设计的数据中心GPU,拥有更多的CUDA核心、更高的时钟频率和更大的存储
    的头像 发表于 08-07 17:32 1.1w次阅读

    EMC工程问题解答(八)

    赛盛技术从成立至今收到不少企业和学员关于电磁兼容问题咨询与交流,其中金牌线上课程《EMC实战特训营》收到学员2000+个的提问,赛盛专家团队给予的相关问题回复。以下是整理部分EMC问题解答,供大家
    的头像 发表于 08-05 08:20 434次阅读
    EMC工程<b class='flag-5'>问题解答</b>(八)

    PI7C9X110 PCI快速转PCI可逆网桥常见问题解答

    电子发烧友网站提供《PI7C9X110 PCI快速转PCI可逆网桥常见问题解答.pdf》资料免费下载
    发表于 07-25 18:25 1次下载
    PI7C9X110 PCI快速转PCI可逆网桥常见<b class='flag-5'>问题解答</b>

    PI7C9X111 PCI Express到PCI可逆网桥常见问题解答

    电子发烧友网站提供《PI7C9X111 PCI Express到PCI可逆网桥常见问题解答.pdf》资料免费下载
    发表于 07-25 18:24 0次下载
    PI7C9X111 PCI Express到PCI可逆网桥常见<b class='flag-5'>问题解答</b>