0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达Quantum-2 Infiniband平台技术

智能计算芯世界 来源:智能计算芯世界 2023-07-18 16:02 次阅读

随着大数据和人工智能等技术的快速发展,高性能计算需求日益增长。英伟达Quantum-2 Infiniband平台应运而生,为用户提供高速、低延迟的数据传输和处理能力,实现卓越的分布式计算性能。

Quantum-2采用最新一代NVIDIA Mellanox HDR 200Gb/s Infiniband网络适配器,支持高速数据传输和低延迟计算。结合NVIDIA GPU,实现加速计算和分布式存储,提高计算效率和资源利用率。

b8ce0c4e-24fa-11ee-962d-dac502259ad0.png

此外,Quantum-2还支持多种先进技术,如NVIDIA RDMA、NVLink和Multi-host等,实现数据中心范围内的高效数据传输和资源共享。用户可根据实际需求,搭建高性能计算集群或分布式存储系统,为大数据分析、人工智能、科学计算等领域提供强大支持。

Q:CX7 NDR 200 QSFP112能否兼容HDR/EDR线缆?

A:可以

b8f0d01c-24fa-11ee-962d-dac502259ad0.png

Q:CX7 NDR能否支持CR8模块?

A:CX7 NDR用Nvidia SR4多模或者DR4单模规格的模块,IB交换机侧使用SR8或者DR8模块。Q:CX7 Dual-port 400G能否bonding后达到800G,为啥200G bonding后能叠加达到400G?

A:目前CX7并没有双口400G配置,网络总性能由PCle带宽/网卡处理能力/网口物理带宽的瓶颈决定,PCle带宽上限为512G,网卡处理能力》400G,故双口200G bond可达到400G带宽。

Q:一分二线缆怎么连接

A:Al训练场景需配合NCCLSHARP通信环连接SU内不同节点的网卡。

Q:哪些卡是IB/ETH双模的,IB/ETH双模怎么切换

A:mlxconfig -d mlx5_x s LINK_TYPE_P1=1(Or 2)

b913e0b6-24fa-11ee-962d-dac502259ad0.png

Q: Superpod组网里,假如我每台服务器上配置4个NDR200的卡,那我能直接用一个一分四的线缆直接连接到同一个交换机上吗?还是说得用2根一分二的分别连不同的交换机?

A:不推荐,这种连接方式不符合SuperPoD组网规则,考虑到NCCL/SHARP性能,需要Leaf层交换机分别使用一分四线缆连接SU内不同服务器的NDR200端口,形成不同的通信环。

Q:Super Pod组网中,如果最后一个SU中,节点的数量不足32台,比如只有16台,那最后一个SU的Leaf交换机可以只用4台吗?这样会出现同一个节点的两个网卡接入到一个leaf交换机上,SHARP树会不会有问题?

A:可以但不推荐,NDR交换机可以支持64 SAT(SHARP Aggregation Tree)。

Q.NDR交换机上的同一个模块,一个口插NDR线缆,另一个口插NDR 200的一分二线缆吗?

A:可以,需要交换机侧做NDR口的端口分拆配置。

Q.有一个关于最新superpod组网的问题想咨询您一下,我看到最新的superpod组网白皮书是计算网络中单独配置2台IB交换机组UFM软件的网络,但是这样就导致了我集群会减少一台GPU节点。如果我不单独配置UFM交换机,只在管理节点部署UFM软件,在不占用计算网络的情况下通过另一套存储网络管理集群是否可以呢?

A:建议配置UFM设备(含软件),计算网内的管理节点部署UFM软件是可选方案,但该节点不应该承担GPU计算业务负载。 存储网络是单独组网的,是不同的网络平面,无法管理计算集群。

Q: UFM Enterprise,SDN, Telemetry, Cyber-Al有什么区别?是不是必须买UFM?

A:可使用OFED自带的opensm和命令脚本工具进行简单的管理和监控,但是不具备UFM友好的可视化界面,功能也少了很多。

b938665c-24fa-11ee-962d-dac502259ad0.png

Q:交换机的子网管理器,OFED的子网管理器,UFM,三个管理节点的数目是否有差异?客户部署时选择哪个比较合适?

A:管理交换机适合2K节点内的管理,UFM和OFED的openSM节点管理能力无限制,需要配合管理节点的CPU以及硬件处理能力。

Q: DAC ACC AOC Transceiver的区别,每种的限制。

A:连接距离,布线的难易程度如下图。

b94b3f48-24fa-11ee-962d-dac502259ad0.png

Q: 交换机 64 个 400Gb port, 为什么是 32 个 QSFP56 端口

A: 尺寸和功耗,2U 面板只能 32 cage;这是 OSPF 接口,支持两个 400G ports,NDR 交换机要把 cage 和 port 的概念区分清楚。

Q: 请问两端的模块不同,可以通过线缆链接起来打通数据吗?比如服务器这边是 OSFP,交换机是 QSFP112

A: IB 必须用我们的 module 和 cable,现在主要介绍 IB,IB 交换机只有是 OSFP;两侧的模块都要使用 NVIDIA 的推荐模块,可以支持

Q: UFM 可以用来监控 RoCE 网络吗

A: 不可以,只支持 IB

Q: UFM 跟有管理性 Switch 和非管性 switch, 功能性是否一樣

A: 一样

Q: IB 线缆在不影响传输带宽时延的前提下,最大支持多远的传输距离

A: 模块+cable,最远 500m,多模;DAC 铜缆 3m 以下,ACC 5m

Q: CX7 网卡开以太模式可以与其他家的 400G 支持 RDMA 的以太网交换机互联吗

A: 400G ethernet 互联可以,RDMA 是 RoCE,可以在这种情况下跑,性能没有保证;400G 以太网建议使用 BF3+Spectrum-4 组成的 Spectrum-X 平台

Q: NDR 兼容 HDR、EDR 的话,这种线缆和模块只有一体的吗?

A: 是的,没有分体的方案

Q: OSFP 网卡侧的模块应该是用的 flat 的吧?

A: 是的,网卡用 flat

Q: IB 卡开以太模式是不支持 RDMA 的吗?

A: 可以跑 RoCE,就是 RDMA over Ethernet,推荐用 Nvidia Spectrum-X solution

Q: BF3 现在量产了吗

A: 根据 OPN 不同,量产时间不同,具体跟负责 SA 联系,提供你需要的 OPN

Q: 为什么 NDR 的光缆是分开的,没有像 HDR 一样的那种 AOC 线缆呢

A: 混杂了单多模,风水冷,不同长度这些因素,AOC 一体的方案会非常复杂,部署也不灵活

Q: 请问 400G 的 IB 和 400G 的以太,除了光模块不一样,线缆是一样的吗

A: 光缆是相同的,注意是 APC 带 8 度斜角的类型

Q: CX7 网卡延时性能有具体要求么?在满内存,已绑核等最优调试环境下对于网络延时要求是?小于多少 us 算合适?

A: 这个跟测试机器的主频,配置都有关系,还跟测试用 perftest, mpi 工具都有关系,建议你联系负责 SA,给你提供具体支持

Q: OSFP 网卡侧的模块应该是用的 OSFP-flat 的吧?为啥会说用的是 OSFP-Riding Heatsink 的呢?

A: riding heatsink 指的是在 cage 上有个散热器

b97a682c-24fa-11ee-962d-dac502259ad0.png

Q: 这个集群方案里 ufm 的部分在哪里呢?想了解下这部分的作用

A: UFM 单独跑在 server 上,可以当做一个 node,可以 HA 接两台。 但不建议跑 UFM 的node 同时跑计算业务

Q: 集群规模多大的时候,建议推荐 UFM 呢?

A: IB 网络都建议配置,UFM 不只是 opensm,还有其他非常强大的管理和接口功能

A: 只要客户有网管需求,建议都配置 UFM

Q: PCIe 5 是否只有 512G 嗎?PCIe4 是多少

A: Gen5 32G*16=512G, Gen 4 16G*16=256G

Q: IB 卡有单工或者双工说法么

A: 都是双工;单工或者双工对于当前的设备来讲,只是概念而已 因为收和发物理通道已经分离了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1776

    文章

    43845

    浏览量

    230605
  • 网络适配器
    +关注

    关注

    0

    文章

    40

    浏览量

    11471
  • 英伟达
    +关注

    关注

    22

    文章

    3327

    浏览量

    87772
  • 大数据
    +关注

    关注

    64

    文章

    8649

    浏览量

    136589

原文标题:英伟达Quantum-2 Infiniband平台技术A&Q

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA推出X800网络交换机平台,实现800Gb/s端到端吞吐量

     X800系列包括InfiniBand适用的Quantum-X800和标准以太网适用的Spectrum-X800两个产品线。前者以最高性能理念设计,家族成员包括英伟Quantum Q
    的头像 发表于 03-19 13:48 231次阅读

    英伟达公布了其新的6G研究云平台

    3月19日消息,在年度GTC AI活动中,英伟达公布了其新的6G研究云平台,5G公众号了解到这是一种“三管齐下”的方法,致力于让英伟达芯片和AI技术在6G中发挥更大、更关键的作用,让
    的头像 发表于 03-19 11:04 419次阅读

    英伟新显卡起售近1.3万元

    英伟行业资讯
    深圳市浮思特科技有限公司
    发布于 :2023年12月29日 16:56:52

    以太网or非以太网?各家AI/ML网络技术盘点

    Nvidia 的 GPU 及其全栈 AI/ML 解决方案使其成为市场中无可争议的上流玩家。 Nvidia DGX Cloud 解决方案将 Quantum-2 (25.6Tbs) InfiniBand 交换机与 ConnectX 和 Bluefield 网络适配器集成。
    发表于 12-13 14:46 361次阅读
    以太网or非以太网?各家AI/ML网络<b class='flag-5'>技术</b>盘点

    英伟将在越南设法人实体

    英伟行业资讯
    深圳市浮思特科技有限公司
    发布于 :2023年12月12日 10:29:04

    英伟达三大AI法宝:CUDA、Nvlink、InfiniBand

    以太网是一种广泛使用的网络协议,但其传输速率和延迟无法满足大型模型训练的需求。相比之下,端到端IB(InfiniBand)网络是一种高性能计算网络,能够提供高达 400 Gbps 的传输速率和微秒级别的延迟,远高于以太网的性能。这使得IB网络成为大型模型训练的首选网络技术
    发表于 12-05 11:02 1867次阅读
    <b class='flag-5'>英伟</b>达三大AI法宝:CUDA、Nvlink、<b class='flag-5'>InfiniBand</b>

    英伟HBM4预计2026年推出

    英伟行业资讯
    深圳市浮思特科技有限公司
    发布于 :2023年11月27日 15:15:17

    英伟为何放不下中国?

    英伟行业资讯
    深圳市浮思特科技有限公司
    发布于 :2023年11月27日 15:11:09

    #英伟 #显卡 英伟全新旗舰显卡RTX 5090性能暴涨70%

    显卡英伟
    深圳市浮思特科技有限公司
    发布于 :2023年11月20日 14:19:25

    #消费级显示被禁止出口 英伟RTX 4090显卡遭遇下架风波

    英伟
    深圳市浮思特科技有限公司
    发布于 :2023年10月19日 15:58:35

    英伟市值下跌看半导体行业的风云变幻

    半导体英伟
    北京中科同志科技股份有限公司
    发布于 :2023年10月19日 09:38:56

    全新一代Jetson Orin Nano来袭,40TOPS超强算力,刷新你的想象! #Jetson #英伟

    英伟
    学习电子知识
    发布于 :2023年07月02日 13:27:15

    00032 Jetson TX2 NX开发者套件!TX2的性能,NANO的尺寸! #英伟 #jetson

    英伟
    学习电子知识
    发布于 :2023年07月02日 13:21:19

    联发科回应结盟英伟合攻 Arm 架构芯片传闻

    外界推测英伟将与联发科共同宣布双方在 Arm PC 相关芯片的合作,但联发科发布公告表示,这个传闻纯属外界猜测,联发科不做任何评论。 外界认为,根据联发科的活动邀请函内容来看,将展示该公司产品在智能生活、移动通信、车用电子三领域的先进
    发表于 05-28 08:47