0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

揭秘:英伟达H100最强替代者

智能计算芯世界 来源:半导体行业观察 2023-11-13 16:13 次阅读

在撰写本文时,NVIDIA H100 80GB PCIe 在 CDW 等在线零售商处的售价为 3.2 万美元,并且缺货了大约六个月。可以理解的是,NVIDIA 的高端(几乎)万能 GPU 的价格非常高,需求也是如此。NVIDIA 为许多人工智能用户和那些在企业中运行混合工作负载的用户提供了一种替代方案,但这种方案并不引人注目,但这是非常好的。NVIDIA L40S 是面向图形的 L40 的变体,本文一起深入了解。

NVIDIA A100、NVIDIA L40S 和 NVIDIA H100

首先,我们首先要说的是,如果您现在想要训练基础模型(例如 ChatGPT),那么 NVIDIA H100 80GB SXM5 仍然是首选 GPU。一旦基础模型经过训练,通常可以在成本和功耗显着降低的部件上根据特定领域的数据或推理来定制模型。

目前,用于高端推理的 GPU 主要有三种:NVIDIA A100、NVIDIA H100 和新的 NVIDIA L40S。我们将跳过NVIDIA L4 24GB,因为它更像是低端推理卡。

NVIDIA A100 和 H100 型号基于该公司各自代的旗舰 GPU。由于我们讨论的是 PCIe 而不是 SXM 模块,因此外形尺寸之间两个最显着的差异是 NVLink 和功耗。SXM 模块专为更高功耗而设计(大约是 PCIe 版本的两倍),并通过 NVLink 和多 GPU 组件中的 NVSwitch 拓扑进行互连。

NVIDIA A100 PCIe于 2020 年以 40GB 型号推出,然后在 2021 年中期,该公司将产品更新为A100 80GB PCIe 附加卡。多年后,这些卡仍然很受欢迎。

NVIDIA H100 PCIe是专为主流服务器设计的低功耗 H100。考虑 PCIe 卡的一种方法是,在电压/频率曲线的不同部分运行相似数量的芯片,旨在降低性能,但功耗也低得多。

即使在 H100 系列内也存在一些差异。NVIDIA H100 PCIe 仍然是 H100,但在 PCIe 外形规格中,它降低了性能、功耗和一些互连(例如 NVLink 速度)。

7e56ff88-81c2-11ee-939d-92fbcf53809c.png

L40S 则完全不同。NVIDIA 采用了基础 L40(一款使用 NVIDIA 最新 Ada Lovelace 架构的数据中心可视化 GPU),并更改了调整,使其更多地针对 AI 而不是可视化进行调整。

NVIDIA L40S 是一款令人着迷的 GPU,因为它保留了 L40 的光线追踪核心和 DisplayPort 输出以及支持 AV1 的 NVENC / NVDEC 等功能。与此同时,NVIDIA 将更多的功率用于驱动 GPU 人工智能部分的时钟

我们将其放在图表上以便更容易可视化。NVIDIA 的规格有时甚至会根据 NVIDIA 来源单一视图而有所不同,因此这是我们能找到的最好的规格,如果我们获得规格更新,我们将对其进行更新。我们还包括双卡H100 NVL,它有两个增强型 H100,它们之间有一个 NVLink 桥,因此将其视为双卡解决方案,而其余的都是单卡。

7ed15512-81c2-11ee-939d-92fbcf53809c.png

与 L40 相比,L40S 是一款在人工智能训练和推理方面大幅改进的卡,但人们可以很容易地看到共同的传统。

如果您需要绝对的内存容量、带宽或 FP64 性能,则 L40 和 L40S 不适合。鉴于目前 AI 工作负载取代传统 FP64 计算的相对份额,大多数人都会接受这种权衡。

L40S 的内存看起来可能比 NVIDIA A100 少得多,而且物理上确实如此,但这并不是故事的全部。NVIDIA L40S 支持NVIDIA Transformer Engine和 FP8。使用 FP8 可以极大地减小数据大小,因此,与 FP16 值相比,FP8 值可以使用更少的内存,并且需要更少的内存带宽来移动。NVIDIA 正在推动 Transformer Engine,因为 H100 也支持它,有助于降低其 AI 部件的成本或提高其性能。

7f060334-81c2-11ee-939d-92fbcf53809c.png

L40S 有一组更注重可视化的视频编码/解码,而 H100 则专注于解码方面。

NVIDIA H100 速度更快。它还花费更多。从某种意义上说,在我们撰写本文时,在列出公开价格的 CDW 上,H100 的价格约为 L40S 价格的 2.6 倍。

另一个重要问题是可用性。如今,获得 NVIDIA L40S 比排队等待 NVIDIA H100 快得多。

秘密在于,在 AI 硬件方面取得领先的一种新的常见方法是不使用 H100 进行模型定制和推理。相反,我们又回到了我们多年前介绍过的熟悉的架构,即密集 PCIe 服务器。2017 年,当我们进行DeepLearning11 时,将 NVIDIA GeForce GTX 1080 Ti 塞进服务器中的 10 倍 NVIDIA GTX 1080 Ti 单根深度学习服务器甚至是大公司(例如世界某些地区的搜索/网络超大规模企业)的首选架构驾驶公司。

NVIDIA 更改了其 EULA,禁止此类配置,并且使其软件更加关注用于 AI 推理和训练的数据中心部分,因此现在情况有所不同。

到 2023 年,考虑同样的概念,但采用 NVIDIA L40S 技术(并且没有服务器“humping”。)

通过购买 L40S 服务器并获得比使用 H100 更低成本的 GPU,人们可以获得类似的性能,而且价格可能更低。

NVIDIA L40S 与 H100 的其他考虑因素

L40S 还有其他几个方面需要考虑。一是它支持NVIDIA Virtual GPU vGPU 16.1,而 H100 仍然只支持 vGPU 15。NVIDIA 正在将其 AI 芯片从 vGPU 支持方面进行一些拆分。

7fa385b4-81c2-11ee-939d-92fbcf53809c.png

对于那些想要部署一种 GPU 机器然后能够运行不同类型的工作负载的人来说,像 L40S 这样的东西是有意义的。鉴于其可视化根源,它还拥有支持 AV1 和 RT 内核的 NVIDIA 视频编码引擎。

L40S 不支持一项功能,那就是 MIG。我们之前已经研究过 MIG,但它允许将 H100 分成最多 7 个不同大小的分区。这对于在公共云中拆分 H100 GPU 非常有用,以便可以在客户之间共享 GPU 资源。对于企业来说,这通常是一个较低兴奋度的功能。

此外,部署 L40S 的功耗较低,仅为 SXM5 系统功耗的一半。这对于那些想要横向扩展但每个机架可能没有大量电力预算的人来说非常有吸引力。

最重要的是,L40S 的速度不如 H100,但凭借 NVIDIA 的 FP8 和 Transformer Engine 支持,对于许多人来说,它比 H100 更可用、更容易部署,而且通常价格更低。

最后的话

关于 NVIDIA H100 PCIe 与 L40S 以及为什么人们会使用任一版本,目前有很多非常糟糕的信息。希望这有助于在更大程度上澄清这一点。对我们来说,L40S 并不便宜,但它让我们想起 6 多年前,当时人工智能领域的做法是在服务器中使用成本较低的 NVIDIA GPU,然后使用更多的 GPU。NVIDIA 再次推出该型号,使用 L40S 和官方认可的架构,支持多达数千个GPU。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4598

    浏览量

    101772
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4426

    浏览量

    126755
  • 英伟达
    +关注

    关注

    22

    文章

    3334

    浏览量

    87836

原文标题:揭秘:英伟达H100最强替代者

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    英伟达发布新一代H200,搭载HBM3e,推理速度是H100两倍!

    电子发烧友网报道(文/李弯弯)日前,英伟达正式宣布,在目前最强AI芯片H100的基础上进行一次大升级,发布新一代H200芯片。H200拥有141GB的内存、4.8TB/秒的带宽,并将与H100
    的头像 发表于 11-15 01:15 2398次阅读
    <b class='flag-5'>英伟</b>达发布新一代H200,搭载HBM3e,推理速度是<b class='flag-5'>H100</b>两倍!

    英伟达超级计算机Eos揭秘

    英伟达将Eos描述为一个可以为“AI工厂”提供动力的系统,因为它是一个非常大规模的SuperPod DGX H100系统。
    的头像 发表于 04-24 10:15 131次阅读

    英伟达H200和H100的比较

    英伟达H200和H100是两款不同的AI芯片,它们各自具有独特的特点和优势。以下是关于这两款芯片的一些比较。
    的头像 发表于 03-07 15:53 907次阅读

    AI计算需求激增,英伟H100功耗成挑战

    根据预测,若H100的年利用率保持在61%,那么单台设备每年将耗电3740千瓦小时左右。如果英伟达在2023年售出150万块H100,2024年再增加至200万块,那么到2024年底,将有350万块
    的头像 发表于 12-28 09:29 663次阅读

    英伟H100,没那么缺货了 !RTX 4090 ,大涨

    这样,在云端使用 H100 GPU 的排队时间可能会缩短。数据中心提供商和前比特币挖矿公司正在开设具有 H100 集群的数据中心。这些公司承诺以大型云提供商成本的一小部分提供 H100 GPU 计算,而大型云提供商对
    的头像 发表于 11-23 15:59 736次阅读

    英伟达特供版芯片将上市:性能最高不到H100的20%

    本周四,一些媒体首次报道了英伟达特供芯片的消息。报道称,这三款新产品是在 H100 GPU 的基础版本基础上进行修改的,采用的是最新架构,但性能大幅度缩减。H100 GPU 是一种用于人工智能训练的高端 GPU,已于 2022
    的头像 发表于 11-13 16:44 471次阅读
    <b class='flag-5'>英伟</b>达特供版芯片将上市:性能最高不到<b class='flag-5'>H100</b>的20%

    英伟H100最强替代者

    首先,我们首先要说的是,如果您现在想要训练基础模型(例如 ChatGPT),那么 NVIDIA H100 80GB SXM5 仍然是首选 GPU。一旦基础模型经过训练,通常可以在成本和功耗显着降低的部件上根据特定领域的数据或推理来定制模型。
    的头像 发表于 11-08 15:35 556次阅读
    <b class='flag-5'>英伟</b>达<b class='flag-5'>H100</b>的<b class='flag-5'>最强</b><b class='flag-5'>替代者</b>

    MI300X能否与H100一较高下?

    市场研究公司Omdia近日发布报告称,预计英伟达二季度用于AI和高性能计算应用的H100 GPU的出货量超过了900吨。并且预计其在未来几个季度的GPU销量将大致相同,因此英伟达今年将销售约3600 吨重的
    发表于 09-28 14:50 1293次阅读
    MI300X能否与<b class='flag-5'>H100</b>一较高下?

    升腾910和英伟h100对比

    升腾910和英伟h100对比  随着人工智能计算进入快速发展的阶段,AI芯片的性能也越来越得到人们的关注,其中两款最受关注的芯片必须是华为的升腾910以及英伟达的H100,两者各有优
    的头像 发表于 08-31 17:06 1.3w次阅读

    英伟达a100h100哪个强?英伟达A100H100的区别

    基于Ampere架构的GPU计算加速器,专为高性能计算、人工智能和机器学习等领域而设计。它拥有高达6912个CUDA核心(在32GB版本中),是目前最强大的数据中心GPU之一。A100支持更快的训练速度和更大的模型容量,适用于需要进行大规模并行计算的应用程序。
    的头像 发表于 08-09 17:31 3.6w次阅读

    英伟达h800和h100的区别

    英伟达h800和h100的区别 其实大白话就是,A100H100是原版,特供中国市场的减配版是A800、H800。A100
    的头像 发表于 08-08 16:06 3.9w次阅读
    <b class='flag-5'>英伟</b>达h800和<b class='flag-5'>h100</b>的区别

    英伟达a100有国产替代吗?

    英伟达a100有国产替代吗? 目前尚未出现明确可替代英伟达A100的国产产品,但中国国内的企业正
    的头像 发表于 08-08 15:37 3702次阅读

    英伟达A100H100的区别

    英伟达A100H100的区别 英伟达A100H100是两种不同的产品。A
    的头像 发表于 08-07 18:06 2.4w次阅读

    英伟达a100h100哪个强?

    英伟达a100h100哪个强? 英伟达A100H100更强。
    的头像 发表于 08-07 17:32 1.1w次阅读

    AMD甩出最强AI芯片 单个GPU跑大模型

    专为生成式AI设计的GPU:HBM密度是英伟H100的2.4倍,带宽是英伟H100的1.6倍。
    的头像 发表于 06-20 10:47 655次阅读