0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达Blackwell平台网络配置分析

智能计算芯世界 来源:智能计算芯世界 2024-04-17 11:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文来自“英伟达Blachwell平台网络配置详解”。GTC大会英伟达展示了全新的 Blackwell 平台系列产品,包括 HGX B100 服务器、NVLINK Switch、GB200Superchip Computer Node、Quantum X800 交换机和 CX8 网卡(InfiniBand 方案)、ETH Spectrum X800 交换机和 BF3 网卡(以太网方案)。

1. Blackwell 平台网络配置分析

从网络配置的角度,英伟达提供了第五代 NVLINK、第六代 PCIE、单端口800Gbit/s 的 IB 和以太网网卡、1.6T 光模块需求。从目前英伟达公布的产品介绍看,这些升级后的网络能力可能不会第一时间全部配置在最新的 DGX B200 服务器上,而是在后续的产品中逐步升级。从英伟达公布的产品说明材料看,DGX B200 服务器配置 8 颗 NVIDIA B200 Tensor Core GPUs,4 个 800G OSPF 光模块,最大功耗为 14.3kW。

2 DGX GB200: NVLink domain 提升至 576 GPUs

采用 DGX GB200 系统的 NVIDIA DGX SuperPOD 专为训练和推理万亿参数生成式AI 模型而构建。每个液冷机架配备 36 个 NVIDIA GB200 Grace Blackwell 超级芯片(36 个 NVIDIA Grace CPU 和 72 个 Blackwell GPU),与 NVIDIA NVLink 连接为一体。多个机架与 NVIDIA Quantum InfiniBand 连接,可扩展到数万个 GB200 超级芯片。

GB200 可以在单机柜内搭建包含 36 个或者 72 个 GPU 的 NVLink domain。一个机柜内包含 18 个计算节点和 9 台 L1 NVLink Switch。基于第五代 NVLink 技术,每个 NVLink 交换机可以提供 144 个 100GB NVLink 端口。通过机柜内的 9 个 L1NVLink Switch 可以合计 提 供 1296 个 100GB NVLink 端口 ,机柜 内的每 个Blackwell GPUs 可以获得 18 个端口,合计 1.8T 的 NVLink 带宽。

GB200 NVL72 使用了一个定制化的 Copper cable cartridge 实现机柜内 9 个L1 NV Switch 和 18 个计算节点的 NVLink 连接。英伟达介绍 NVIDIA GB200 NVL72可以在一个 NVLink domain 内连接 576 个 GPU。英伟达当前公布的 GB200 NVL72 配置了 72 个 CX7 网口(OSFP 400Gb/s InfiniBand),并没有使用最新的 CX8 网卡。

3 全新 IB 交换机,双层胖树支持万卡集群

NVIDIA Quantum-X800 Q3400-RA 是一台 4U 的 IB 交 换机 ,对比 上一 代Quantum-9700 交换机设备尺寸提升了一倍。Quantum-X800 也是英伟达第一款使用200Gb/s-per-lane SerDes 方案的交换机设备,通过 72 个 OSPF 1.6T 光模块提供144 个 800G 端口。英伟达指出,基于 Quantum-X800 的高性能,两层胖树网路拓扑就可以连接 10386 个网络接口卡。

GTC 大会上,英伟达推出的 Spectrum-X800 SN5600 是一台 51.2T 端口容量的以太网交换机,可以配置 64 个 OSPF 800G 光模块。

4 新平台依然需要 800G 和 400G 光模块

从 GTC 大会的介绍看,BLACKWELL 平台会带来第五代 NVLINK、第六代 PCIE、第八代 IB 网络应用。但是在当前早期交付的产品中依然会采用 800G 和 400G 光模块。其中 DGX B200 服务器配置通过 4 个 800G OSPF 光模块提供 8 个 400G 端口,这和DGX H100 服务器的配置相同。

我们认为 B200 GPU 和 800 光模块的配置比例和 H100 GPU 保持一致。而 GB200NVL72 需要配置 72 个 OSPF 400G 光模块,以便通过 IB 网络实现万卡集群的连接。

5 新的IB网络带来1.6T光模块需求

NVIDIA Quantum-X800 Q3400-RA 和 CX8 NIC 则明确需要配置 1.6T 光模块。和上一代 IB 网络相比,主要的变化是 Quantum-X800 的端口能力提升至 115.2T,可以通过两层胖树拓扑实现 10386 个网络接口卡的连接,万卡规模 Blackwell GPU 集群使用 IB 网络组网的成本得到优化。我们认为这会弱化以太网方案的价格优势,提升 IB 网络方案的竞争力。

6 NVLink domain 容量扩展带来新增的铜缆连接需求

通过第五代 NVLINK 从 900GB 提升至 1800GB,单个 NVLINK domain 的 GPU 数量提升至 576 个。最大的变化是 L1 NV Switch 从服务器 PCB 板载芯片的形式调整为机柜内的 9 台交换机,连接能力提升至 72 个 GPU,需要使用铜缆实现机柜内的NVLINK 连接。

而如何实现 576 个 GPU 连接,目前英伟达还没有给出具体的连接方案,但是鉴于目前最新的 IB 交换机能力,我们认为连接 576 个 GPU 需要 L2 NV Switch。最终的方案使用铜缆还是光模块,核心是铜缆的连接距离是否可以满足 8 个机柜的连接需求,低成本的铜缆连接方案会是优先选项。

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 以太网
    +关注

    关注

    41

    文章

    6291

    浏览量

    181930
  • 交换机
    +关注

    关注

    23

    文章

    2946

    浏览量

    104999
  • 光模块
    +关注

    关注

    84

    文章

    1734

    浏览量

    64772
  • 网络配置
    +关注

    关注

    1

    文章

    27

    浏览量

    8167
  • 英伟达
    +关注

    关注

    23

    文章

    4126

    浏览量

    99776

原文标题:英伟达Blackwell平台网络配置详解

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    硅光成AI胜负手?英伟20亿美元战略投资Marvell

    纳入英伟 AI 生态体系,并在硅光子技术领域展开深度合作,旨在帮助客户更高效地搭建 AI 算力基础设施。   构建 “异构计算” 新范式 根据双方签署的战略协议,此次合作的核心围绕NVLink Fusion—— 英伟
    的头像 发表于 04-06 07:02 1.2w次阅读

    企业级AI Agent王炸! 英伟GTC将开源 NemoClaw

    消息人士透露,英伟计划在下周在美国圣荷西举行的年度开发者大会前后正式公布 NemoClaw。据知情人士向 WIRED 透露,该平台允许企业部署 AI 代理为内部团队执行任务,且不限于使用英伟
    的头像 发表于 03-10 11:35 9516次阅读
    企业级AI Agent王炸! <b class='flag-5'>英伟</b><b class='flag-5'>达</b>GTC将开源 NemoClaw

    英伟Rubin平台引入微通道冷板技术,100%全液冷设计

    电子发烧友网报道(文/李弯弯)英伟在近期举办的 CES 2026 展会上,正式推出了其全新的 Vera Rubin 计算平台。作为继 Blackwell 架构之后的又一力作,Rubi
    的头像 发表于 01-19 07:15 1.7w次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>Rubin<b class='flag-5'>平台</b>引入微通道冷板技术,100%全液冷设计

    迈向吉瓦级AI工厂的能源变革:英伟Rubin平台电源架构解析

    转变。英伟(NVIDIA)推出的Rubin平台,作为Blackwell架构的继任者,不仅是算力密度的又一次飞跃,更是对数据中心能源基础设施的一次极限挑战。
    的头像 发表于 01-15 17:42 1106次阅读
    迈向吉瓦级AI工厂的能源变革:<b class='flag-5'>英伟</b><b class='flag-5'>达</b>Rubin<b class='flag-5'>平台</b>电源架构解析

    麦格纳宣布扩大与英伟的战略合作

    麦格纳宣布扩大与英伟的战略合作,为整车厂基于英伟DRIVE Hyperion平台的项目落地提供支持。
    的头像 发表于 01-09 12:59 601次阅读

    突发!特朗普批准英伟H200芯片对华出口,抽成25%

    一种“妥协”。此前,英伟一直希望向中国销售其更先进的Blackwell系列芯片,但美政府目前仍明确表示不赞成。H200芯片性能虽低于Blackwell,但强于此前已获准对华出口的H2
    的头像 发表于 12-09 17:58 1867次阅读

    今日看点:特朗普:英伟Blackwell AI芯片不会广泛对海外开放;闪迪 NAND 闪存11 月报价涨幅高达 50%

    特朗普:英伟Blackwell AI芯片不会广泛对海外开放   美国总统唐纳德·特朗普表示,英伟先进的人工智能(AI)芯片
    发表于 11-10 10:28 1510次阅读

    英伟首片美国制造Blackwell晶圆下线,重塑AI芯片制造格局

    近日,美国亚利桑那州凤凰城的台积电 Fab 21 晶圆厂内,一块承载全球 AI 产业期待的特殊晶圆正式下线 —— 这是首片在美国本土制造的英伟 Blackwell 芯片晶圆。英伟
    的头像 发表于 10-22 17:21 1262次阅读

    睿擎平台网络开发指南:从IP配置到远程控制 | 技术解析

    在工业物联网和嵌入式系统开发中,网络功能是连接设备、实现远程控制和数据传输的核心基础。睿擎工业开发平台提供了全面的网络开发支持,包括灵活的IP配置、稳定的
    的头像 发表于 10-22 17:13 6681次阅读
    睿擎<b class='flag-5'>平台网络</b>开发指南:从IP<b class='flag-5'>配置</b>到远程控制 | 技术解析

    英伟最新B30A芯片曝光:算力角逐中的新变数

    在全球AI芯片市场风云变幻之际,英伟再次成为焦点。据路透社8月19日报道,两位知情人士透露,英伟正在为中国市场开发一款基于其最新Blackwel
    的头像 发表于 08-22 16:41 1858次阅读

    外媒:英伟正开发新款中国特供芯片B30A 或为旗舰AI芯品B300的阉割版

    ;或为旗舰AI芯品B300的阉割版 ;估计性能只有B300的50%--70%。 据外媒路透社报道,为了中国市场;英伟正在加速研发基于最新Blackwell架构的AI芯片,   暂定名为B30A,将采用单芯片设计,预计可提供
    的头像 发表于 08-20 15:19 4215次阅读
    外媒:<b class='flag-5'>英伟</b><b class='flag-5'>达</b>正开发新款中国特供芯片B30A 或为旗舰AI芯品B300的阉割版

    国家网信办约谈英伟

    用户网络安全、数据安全,依据《网络安全法》《数据安全法》《个人信息保护法》有关规定,国家互联网信息办公室于2025年7月31日约谈了英伟公司,要求
    的头像 发表于 07-31 13:56 2918次阅读
    国家网信办约谈<b class='flag-5'>英伟</b><b class='flag-5'>达</b>

    英伟2026财年Q1营收公布 一季度营收441亿美元 英伟Q1净利润187.8亿美元

    美元,同比增长73%,市场预估为392.2亿美元。净利润为187.8亿美元,同比增长26%。业绩整体好于预期。 在2026财年第一季度;英伟的数据中心业务仍是驱动英伟业绩增长的核心
    的头像 发表于 05-29 17:58 1442次阅读

    英伟拟再推中国特供GPU,今年6月量产!

    。                                                     最新消息显示,英伟拟新推出一款专门面向中国市场的人工智能芯片,且最早将于今年6月开始量产。这款芯片属于英伟
    发表于 05-27 00:03 4955次阅读