0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达和AMD新芯片,突破PCIe限制

智能计算芯世界 来源:半导体行业观察 2024-03-01 09:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

学过微处理器的同学可能还记得,最初的8086/8088处理器没有浮点单元。主板通常有一个额外的插槽,用于可选的8087 数学协处理器。数学协处理器进入了 CPU 本身,如今,CPU 没有可选的数学协处理器。

然而, SIMD 处理器(例如GPU)有多种选择。众所周知,GPU 可以比 CPU 主机更快地加速数学处理(例如矩阵运算)。

随着Nvidia GH-200 处理器 和AMD MI300A APU的推出,市场正在见证“8087 时刻”——即 CPU 吸收外部性能硬件。Nvidia 和 AMD 都已将 GPU 纳入处理器中,其结果是 HPC 性能大幅跃升,并预示着未来的发展。

再见 PCI

AMD 和 Nvidia 的 GPU 都依赖 PCI 总线与 CPU 进行通信。CPU 和 GPU 有两个不同的内存域,数据必须通过 PCI 接口从 CPU 域移动到 GPU 域(并返回)。

使用第 5 代 PCIe 总线中全部 16 个通道的 GPU 的最大带宽约为 63GB/s。此瓶颈将限制 CPU 和 GPU 之间的内存移动。

Nvidia GH200 通过 900 GB/s 双向 NVLink-C2C 连接 Grace CPU 和 Hooper GPU。结果大约快了 14 倍。此外,GH200 还带来了单一共享 CPU-GPU 内存域的优势。无需通过 PCI 总线在 CPU 和 GPU 之间移动数据。如图 1 所示,CPU 和 GPU 对所有内存具有一致的视图。CPU内存高达480GB LPDDR5X(带ECC),GPU具有96GB HBM3或144GB HBM3e。总的相干(单域)内存在 576GB 到 624GB 之间。

wKgZomXhLMiARMptAADkHTuyYxg500.jpg

当前的 AMD Instinct MI300A APU 中采用单一内存域,具有 128 GB HBM3 内存,使用 Infinity Fabric 在 CPU 和 GPU 之间一致共享,封装峰值吞吐量为 5.3 TB/s 。 虽然 MI300A 目前不支持像 GH200 那样额外的 DDR 内存扩展,但 CXL 是一个值得将来记住的词。

对于 GH200 和 MI300A,关键的突出短语是“呈现单个存储域”。在传统的CPU-PCIe-GPU组合中,GPU内存量通常小于CPU内存,数据必须通过PCIe接口进行混洗。这两个新设计消除了这个瓶颈。单个大内存域一直对 HPC 有吸引力,而 GenAI 的增长加速了这种需求(即,能够在内存中加载大型模型并使用 GPU 运行它们)。对于传统 GPU,GPU 内存量限制了模型大小,需要采用分布式 GPU 方法。(注:GH200 可以通过外部 NVLink 连接,创建海量统一内存;例如,Nvidia-AWS NLV32可以提供高达 20 TB 的统一内存。)

离你的桌面并不远

技术领域明显的趋势之一是从昂贵的新技术市场转向低成本的大宗商品市场。高性能计算也不例外。随着市场需求,从多核到高级内存的一切都已从高端转移到“手机”。迁移到单个内存域就是这些变化之一。

最近,在 Linux 基准测试网站Phoronix上,杰出的测试员Michael Larabel在 GH200 工作站上运行了 HPC 基准测试。该系统由德国的GPTshop.ai提供。

据了解,系统塔式机箱配备 GH200 Grace Hopper Superchip,配备 576G 内存、双 2000+ W 电源、QCT 主板以及多种配置选项,包括 SSD 和 NVIDIA Bluefield/Connect-X 适配器。一项有趣且有用的功能是 TDP 可以从 450W 编程到 1000W(CPU + GPU + 内存),这在非数据中心环境中应该很有用。另外,默认风冷噪音据称为25分贝。液体冷却也是一种选择。

然而,桌面超级工作站并不便宜。目前可用的型号 GH200 576GB起价为 47,500 欧元(根据 Phoronix 的说法,由于在欧盟以外地区运输时无需缴纳 19% 的增值税,因此该价格相当于 41,000 美元)

这个价格可能看起来很高,但考虑到具有 80 GB HBM2e 内存的 Nvidia H100 PCIe GPU 目前的市场价格在 3 万美元到 3.5 万美元之间。这不包括为 GPU 供电和运行的主机系统。此外,用户还受到 80GB GPU 内存的限制,该内存通过 PCIe 总线与主内存域分开。

GPTshop工作站提供576GB的单域内存。HPC 和 GenAI 用户会发现这半 TB 的 CPU-GPU 内存很有吸引力。

初步基准

借助 GPTshop,Phoronix 能够远程运行多个基准测试。基准应被视为初步的,而不是最终的绩效衡量标准。特别是,基准测试仅针对 CPU,没有使用 Hopper A100 GPU。因此,基准图是不完整的。Phoronix 计划在未来测试基于 GPU 的应用程序。

据 Phoronix 称,Ubuntu 23.10 与 Linux 6.5 一起使用 GCC-13 作为标准编译器。使用类似的环境来测试可比较的处理器,包括 Intel Xeon Scalable、AMD EPYC 和 Ampere Altra Max 处理器。完整的列表可以在Phoronix 网站上找到。

此外,没有可用于基准测试运行的功耗数据。据 Phoronix 称,NVIDIA GH200 目前似乎没有在 Linux 下公开任何 RAPL/PowerCap/HWMON 接口,仅用于读取 GH200 的功率/能源使用情况。系统上的BMC确实通过Web界面暴露了整个系统的功耗,并且功率数据没有通过IPMI暴露。

尽管存在这些限制,一些重要的基准测试还是首次在 Nvidia 之外的 GH200 上运行。

好奥莱 HPCG

Phoronix 报告的第一个测试是标准HPCG内存带宽基准测试,如图 2 所示。

wKgaomXhLMiAWYYtAAWDqsqK-uw329.jpg

可以看出,GH200 Arm 的性能达到了可观的 42 GFLOPS,略高于 Xeon Platinum 8380 2P(40 GFLOPS),略低于 EPYC 9654 Genoa 2P(44 GFLOPS)。另外值得注意的是 72 核 Arm Grace CPU,其性能几乎是 Ampere Altra Max 128 核 Arm 处理器的两倍。

GH200 在其他基准测试中表现良好。最令人印象深刻的结果如图 3 所示。使用 72 核 Arm GH200 的NWChem (C240-Bucky Ball) 运行时间为 1404 秒,仅落后于领先者 128 核 Epyc 9554 (2p),成绩为 1323 秒。

wKgZomXhLMiAVoZlAATrg6t09VQ779.jpg

即将发生的事情

Nvidia GH200 和 AMD MI300A 引入了新的处理器架构。与吸收 8087 数学协处理器类似,高端 CPU 也开始吸收 GPU(或 SIMD 处理单元)。然而,这个想法并不是全新的。自 2011 年以来,AMD 已将中等 GPU 集成到其台式机/笔记本电脑APU 处理器中。虽然这些高端处理器可能被认为是“专用”的,因此价格昂贵,但随着时间的推移,对 GenAI 的巨大兴趣可能会将这些设计推向商品价格点。随着更多基准的出现,这个故事将继续发展。

此外,引入具有足够内存的个人高性能工作站,可以在您的办公桌旁运行一些最大的法学硕士,这是一个重要的里程碑。更不用说运行许多大内存 GPU 优化的 HPC 应用程序的能力了。数据中心和云仍将是当今的主力,但必须要说的是“拥有重置按钮”。


审核编辑:刘清
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微处理器
    +关注

    关注

    11

    文章

    2416

    浏览量

    85340
  • PCIe
    +关注

    关注

    16

    文章

    1420

    浏览量

    87546
  • 英伟达
    +关注

    关注

    23

    文章

    4040

    浏览量

    97668
  • AMD芯片
    +关注

    关注

    0

    文章

    16

    浏览量

    3047

原文标题:英伟达和AMD新芯片,突破PCIe限制

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    外媒:英伟正开发新款中国特供芯片B30A 或为旗舰AI芯品B300的阉割版

    我们看到英伟的旗舰新品 B300备受关注;但是受限于美国实施出口限制措施,英伟不会出货,就像此前英伟
    的头像 发表于 08-20 15:19 3117次阅读
    外媒:<b class='flag-5'>英伟</b><b class='flag-5'>达</b>正开发新款中国特供<b class='flag-5'>芯片</b>B30A 或为旗舰AI芯品B300的阉割版

    今日看点丨消息称智驾基础芯片配套8GB小容量存储芯片价格开始暴涨;英伟推出具身智能推理模型Cosmos Re

    了一项特殊协议,两家企业同意将特供中国的芯片收入的15%上缴给美国政府,以换取相关产品的出口许可证。 2023年10月,美国商务部公布对华半导体出口管制最终规则,进一步加大对人工智能相关芯片、半导体制造设备的对华出口限制
    发表于 08-12 09:41 1888次阅读

    英伟拟再推中国特供GPU,今年6月量产!

    电子发烧友网综合报道 近年来,美国政府对华半导体出口管制政策不断收紧,英伟等半导体企业面临严峻挑战。为保持在中国市场的竞争力,英伟推出了多款特供版GPU,以满足政策
    发表于 05-27 00:03 4599次阅读

    美国限制英伟向华出售H20芯片

    出口H20芯片,以及任何其他性能达到H20内存带宽、互连带宽或其组合的芯片,都必须获得出口许可。 公告披露,美国政府称,这旨在解决相关产品可能被用于或被转用于中国超级计算机的风险。4月14日,美国政府通知英伟
    的头像 发表于 04-16 17:28 852次阅读

    特朗普要叫停英伟对华特供版 英伟H20出口限制 或损失55亿美元

    据外媒报道,英伟公司发布了一项通知称,美国政府于9日告知英伟公司;特供版的H20芯片出口到中国需要许可证,紧接着在14日又告知
    的头像 发表于 04-16 16:59 1889次阅读

    新思科技携手英伟加速芯片设计,提升芯片电子设计自动化效率

    解决方案在英伟 GPU和英伟 CUDA-X库上所实现的加速 基于英伟 GB200 Grac
    发表于 03-19 17:59 437次阅读

    英伟市值一夜蒸发近2万亿 英伟股价下跌超8%

    财年第四财季和全财年业绩数据上看,2025财年第四财季及全年的营收和利润都实现了大幅增长,大家特别关注的数据中心业务也是业绩增长的核心动力,展现出英伟在AI领域的强大实力。而且英伟
    的头像 发表于 03-04 10:19 988次阅读

    英伟杀疯了!Blackwell横扫市场,AMD、英特尔加入降本浪潮

    。与此同时,随着AI大模型的普及,高计算量需求和成本压力也成为行业关注的焦点。如何在性能与成本之间找到平衡,成为整个AI芯片行业共同面临的挑战。AI大模型的出现对芯片市场产生了哪些影响,DeepSeek带来的“AI降本浪潮”又会给AMD
    的头像 发表于 03-02 00:02 2412次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>杀疯了!Blackwell横扫市场,<b class='flag-5'>AMD</b>、英特尔加入降本浪潮

    英伟回应美新规:在华业务不受影响

    ,BIS近日修订了出口管理法规(EAR),加强了对与高级计算集成电路(IC)相关的尽职调查程序要求,并公布了经批准的IC设计实体名单。只有名单上的企业所设计的芯片才不会受到额外的出口限制。 针对这一新规,英伟
    的头像 发表于 01-20 10:52 880次阅读

    荷兰与英伟AMD商讨AI设施建设

    近日,荷兰政府在其官方网站上发布消息称,荷兰经济事务大臣迪尔克·贝尔亚尔茨在访问硅谷期间,与英伟AMD两大科技公司进行了深入的战略讨论。此次访问时间为1月8日至1月9日,旨在探讨如何支持荷兰人
    的头像 发表于 01-13 10:06 696次阅读

    荷兰与英伟AMD商讨共建人工智能设施

    荷兰政府正在积极寻求与全球领先的科技公司英伟AMD的合作,共同推动荷兰人工智能设施的建设与发展。 据荷兰政府官方网站的消息,荷兰经济事务大臣迪尔克·贝尔亚尔茨于近日对美国硅谷进行了访问,期间
    的头像 发表于 01-10 13:36 1014次阅读

    英伟组建ASIC团队,挖掘台湾设计服务人才

    芯片战线。 据了解,英伟此次挖脚行动的目标非常明确,即寻找具有丰富经验和专业技能的设计服务人才。这些人才将加入英伟的ASIC团队,共同研
    的头像 发表于 01-03 14:39 1008次阅读

    微软大手笔采购英伟AI芯片

    据全球知名市场调研机构Omdia的最新估计,微软在2024年的英伟Hopper架构芯片采购计划上展现出了惊人的手笔。这一举动旨在帮助微软在构建下一代人工智能(AI)系统的激烈竞争中抢占先机。 据悉
    的头像 发表于 12-20 15:50 954次阅读

    刚刚!英伟最新回应!

    12月10日消息,据报道,英伟市值一夜蒸发掉了889亿美元(约合人民币6460亿元)。 据此前媒体报道,近日英伟公司因涉嫌违反《中华人民共和国反垄断法》及《市场监管总局关于附加
    的头像 发表于 12-10 18:13 1182次阅读

    英伟被立案调查 英伟回应反垄断调查

    英伟被立案调查! 国家市场监督管理总局在12 月 9 日晚宣布,英伟公司涉嫌违反《中华人民共和国反垄断法》及《市场监管总局关于附加限制
    的头像 发表于 12-10 15:03 816次阅读