0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里云与 NVIDIA 合作测试以太网络新架构

NVIDIA英伟达 来源:未知 2023-11-01 09:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

全新 NVIDIA Spectrum-X 网络平台构筑阿里生成式 AI 云底座



随着生成式 AI 的热潮席卷全球,用于训练生成式 AI 的大型高性能网络基础设施开始受到客户和行业的关注。这不仅仅是因为巨大的市场潜力,更因为生成式 AI 应用对当前网络的技术与产品带来的巨大挑战。


由于生成式 AI 训练任务的特性,其对网络的要求与传统的 DC 网络在多方面存在差异。主要体现在:


  • 性能至上,对于网络带宽及通信效率的要求高,需要实现从 GPU 到网络,再到其它 GPU 的端到端带宽平衡,从而达到最大化集群训练性能的目的。

  • AI 网络流量并发性高和突发性流量多,对于数据的完整性要求极高,依赖于 RDMA 转发保证带宽最大化和数据的完整性,降低对 CPU 资源消耗。

  • 模型并行加数据并行共存的通信机制导致对于网络时延敏感,网络中的任何额外的时延都可能影响数以百计的 GPU 之间的通信效率。

  • 需要无收敛的网络拓扑保证各种通信场景下的网络带宽没有瓶颈。


由于传统的网络解决方案无法满足这些需求,NVIDIA 依靠多年在 AI 和高速通信邻域的积累,推出了 Spectrum-X 以太网解决方案,以推动以太网技术可以更好的适配生成式 AI 基础设施的要求。


NVIDIA Spectrum-X 是首个专为基于以太网的 AI 云提高性能和效率而设计的平台。NVIDIA Spectrum-X 依托于 NVIDIA Spectrum-4 以太网交换机和 NVIDIA BlueField-3 DPU 的紧密结合,专为 AI 工作负载构建了端到端的创新网络平台,大幅提升了以太网在大规模、可扩展环境中的通信效率,并在多租户环境中实现了一致的、可预测的性能,提高了生成式 AI 云的性能和能效。NVIDIA Spectrum-X 网络平台还包括 Cumulus Linux、NetQ 、Air 和 DOCA 加速软件等,以及 NVIDIA 的 LinkX 系列线缆和光模块产品,共同助力该网络平台实现绝佳的性能。


NVIDIA Spectrum-X 网络平台集成了 NVIDIA Spectrum-4 以太网交换机、NVIDIA BlueField-3 DPU、NVIDIA LinkX 线缆及加速软件和 SDK,通过无损以太网的端到端动态路由、基于可编程拥塞控制的性能隔离技术等先进的 RoCE 扩展功能,构建了一个专为 AI 云而优化和加速的端到端 高性能 400GbE 以太网络。测试显示,与传统以太网相比,采用 NVIDIA Spectrum-X 网络平台可将大规模 AI 工作负载的性能提高到 1.7 倍,并将网络的有效通信带宽提升到 1.6 倍。


NVIDIA Spectrum-X 网络平台,实现了 GPU 到 GPU 直接的端到端加速和优化,大幅减少了大规模生成式 AI 模型的运行时间,提升了 GPU 的效率,优化了 AI 平台的总体拥有成本(TCO)和降低了基础设施的整体功耗。同时,它还具有高度的通用性,有力的支撑了各种生成式 AI 应用,由于它也是标准的以太网,实现了与已有的基于以太网堆栈的云架构和云服务互通。


阿里云作为全球领先的云供应商,拥有巨型的通用计算平台。同时,阿里云也持续向加速计算领域扩张,建成并持续扩张以 “PAI 灵骏” 算力服务为代表大型的 GPU 集群。阿里云基础设施网络团队从 2017 年开始构建端网融合的可预期高性能 RDMA 网络架构,过去几年已经在高性能存储领域实现了大规模部署,目前正在大规模 AI 计算领域持续创新迭代和规模部署,以适配 AI 计算对高性能网络的诉求。阿里云也充分认识到技术创新对以太网方案持续支持高性能网络,尤其是生成式 AI 基础设施的重要性。为此,阿里云联合 NVIDIA 对 Spectrum-X 解决方案进行测试,以评估新技术对高性能网络的适应能力。


测试的主要内容和结果

阿里云测试环境配置


测试环境使用了 2 台 Spine 交换机,4 台 ToR 交换机,16 台 HGX GPU 服务器并配置了 NVIDIA BlueField-3 DPU,基于NVIDIA 51.2T Spectrum-4 交换芯片的 SN5600,以太网交换机,支持 128*400G 或者 64*800G 端口。每台 GPU 服务器配置 8 张 BlueField-3 DPU,每 4 台 GPU 服务器为一组连接到一台 ToR 交换机,共 4 组连接到 4 台 ToR 交换机。ToR 交换机通过 200G 网络连接到 BlueField-3 DPU,4 台 ToR 交换机通过 2 台 Spine 交换机连接在一起,构成无阻塞胖树网络。



主要的测试内容


这些测试由多个级别的工作负载组成,从简单到复杂:

  • RDMA 基准性能测试,覆盖带宽和延迟。

  • 孤立场景下的 All to All 和 All Reduce 集合通信测试,专注于 NCCL 性能基准。

  • 在共享资源和有背景噪声环境下的性能测试。

  • 故障场景的测试。



测试结果显示,由于使用了端到端的逐包负载均衡优化技术(Adaptive Routing)和零配置 RoCE 拥塞控制(ZTR CC)使得网络利用率显著提升,并显著减少由于网络拥塞和 In-Cast 问题带来的时延和抖动。网络带宽利用率在各种测试场景下均可超过 90%。这种逐包负载均衡技术也可以对多种故障情况(本端和远端)做出响应,合理的利用网络内的带宽资源。在真实训练任务的测试过程中,Spectrum-X 可以降低 20% 以上的训练时间。在获得这一切收益的同时,网络的配置工作量大大降低,运维人员不再需要进行复杂的配置和频繁的调优工作。


这些测试结果表明 NVIDIA Spectrum-X 加速网络平台的突破性技术可大幅提升大规模生成式 AI 工作负载的性能,并大幅缩短生成式 AI 模型的运行时间。通过采用 NVIDIA Spectrum-X 网络平台,客户可进一步为千行百业的客户提供极具性能和成本优势的生成式 AI 云服务,将 AI 通用大模型和行业大模型赋能和融合各种应用场景。NVIDIA 和阿里云的开发人员将基于 NVIDIA Spectrum-X 网络平台的加速软件和 SDK 进一步在虚拟化、定制化可编程拥塞控制、遥测、快速故障响应等方面展开合作,推动这一新解决方案的进一步发展和应用。


针对这一联合测试,阿里云基础设施网络研发事业部总经理蔡德忠表示:“高性能网络技术是 AI 计算 Scaling Law 的关键所在,这个领域需要持续不断的创新迭代,阿里云始终坚持网络的开放性,也是网络开源生态的领导者和积极贡献者,阿里云与 NVIDIA 在 AI 计算和高性能存储领域合作多年,将持续探索创新基于 Open Ethernet 的高性能网络方案,助力 AI 计算集群的大规模高效扩展。”


NVIDIA 网络高级副总裁 Gilad Shainer 表示:“生成式 AI(Generative AI)是面向下一代业务需求的典型代表,为了支撑成千上万的用户的需求,生成式 AI 云需要最先进及最可靠的网络基础架构满足各种 AI 业务的平滑增长。阿里云和 NVIDIA 在 Spectrum-X 以太网平台上的策略合作,可以充分利用 Spectrum-X 的先进路由技术和云上业务性能隔离技术,使阿里云及其广大用户可以尽情享受生成式 AI 的服务。”


更多内容,敬请查阅 NVIDIA Spectrum-X 网络平台架构白皮书,进一步了解NVIDIA Spectrum-X 网络平台。




更多精彩内容

适用于数据中心和 AI 时代的网络
借助 NVIDIA Spectrum 以太网最大限度地提高存储网络性能
使用 NVIDIA Spectrum-X 网络平台加速生成式 AI 工作负载


原文标题:阿里云与 NVIDIA 合作测试以太网络新架构

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    23

    文章

    4116

    浏览量

    99634

原文标题:阿里云与 NVIDIA 合作测试以太网络新架构

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    车载以太网,速度直指Tbps?

    要点总结:汽车以太网,特别是10BASE-T1S,正在成为车载网络中CAN的替代品,预计未来自动驾驶和联网汽车将拥有更高的速度。汽车领域向以太网的过渡并非普遍现象;一些原始设备制造商(OEM)可能
    的头像 发表于 04-02 11:00 2205次阅读
    车载<b class='flag-5'>以太网</b>,速度直指Tbps?

    NVIDIA与亚马逊科技深化合作伙伴关系

    NVIDIA 和亚马逊科技 (AWS) 扩展双方合作,增强在 AWS 平台上的由 NVIDIA 驱动的数据处理能力,并增加对 NVIDIA
    的头像 发表于 03-23 15:17 456次阅读

    Microchip Technology与现代(Hyundai)汽车集团合作探索适用于未来车载连接的10BASE-T1S单对以太网技术

    (SPE)技术的先进车载网络解决方案。此次合作旨在支持开发更高效、可靠且可扩展的车辆架构,满足未来出行不断演进的需求。 高级驾驶员辅助系统(ADAS)和联网汽车功能的飞速发展,正不断催生对强韧、高性能车载
    的头像 发表于 02-25 09:55 483次阅读
    Microchip Technology与现代(Hyundai)汽车集团<b class='flag-5'>合作</b>探索适用于未来车载连接的10BASE-T1S单对<b class='flag-5'>以太网</b>技术

    以太网一致性测试全解析:保障高性能网络的关键技术

    在高速网络设备的设计与制造中,以太网一致性测试是确保产品性能稳定、符合行业标准的关键环节。我们能够为客户提供从测试标准解读到实际问题排查的全方位支持。本文将以100Base-TX和10
    的头像 发表于 01-20 17:42 1300次阅读
    <b class='flag-5'>以太网</b>一致性<b class='flag-5'>测试</b>全解析:保障高性能<b class='flag-5'>网络</b>的关键技术

    NVIDIA Spectrum-X以太网硅光技术助力AI工厂网络创新

    NVIDIA 将率先为 AI 工厂引入采用光电一体封装 (CPO) 的优化以太网网络,通过 NVIDIA Spectrum-X 以太网硅光技术,为
    的头像 发表于 01-14 09:06 895次阅读
    <b class='flag-5'>NVIDIA</b> Spectrum-X<b class='flag-5'>以太网</b>硅光技术助力AI工厂<b class='flag-5'>网络</b>创新

    汽车CAN/以太网一体化测试板:虹科多协议车载测试解决方案

    随着汽车电子架构向域控制器演进,车载网络测试面临着CAN(FD)与以太网多协议并发的挑战。传统分散式测试设备需组合多个独立模块,存在系统复杂
    的头像 发表于 12-29 13:15 469次阅读

    如何选择支持CAN FD与车载以太网的一体化车载网络测试主板?虹科车辆网络通讯测试主板深度解析

    痛点而生的高性能车载网络通讯测试主板——虹科HKIC1-MBM2100,看它如何凭借8路CAN/CAN FD接口与2路1000BASE-T1车载以太网的集成式设计,重塑车辆测试的价值。
    的头像 发表于 12-11 15:03 581次阅读

    NVIDIA扩大与微软合作推动AI超级工厂建设

    在 Microsoft Ignite 大会上,NVIDIA 扩大与微软的合作,包括在由 NVIDIA Blackwell 平台驱动的全新 Microsoft Fairwater AI 超级工厂中部署新一代
    的头像 发表于 12-01 09:52 995次阅读

    ADP7000系列示波器特色功能:以太网物理层一致性测试,让网络物理层问题无所遁形

    传输速率的提升,以太网物理层面临更多信号完整性、协议合规性等挑战,造成网络问题,这使得以太网设备在研发、生产和应用环节的物理层一致性测试变得尤为关键。航天测控公司
    的头像 发表于 10-30 09:02 581次阅读
    ADP7000系列示波器特色功能:<b class='flag-5'>以太网</b>物理层一致性<b class='flag-5'>测试</b>,让<b class='flag-5'>网络</b>物理层问题无所遁形

    NVIDIA Spectrum-X 以太网交换机助力 Meta 和 Oracle 加速网络性能

    基于 NVIDIA Spectrum-X 以太网交换机的 AI 数据中心网络。 Meta 和 Oracle 正将 Spectrum-X 以太网交换机标准化为一种开放的加速
    的头像 发表于 10-14 10:26 2087次阅读
    <b class='flag-5'>NVIDIA</b> Spectrum-X <b class='flag-5'>以太网</b>交换机助力 Meta 和 Oracle 加速<b class='flag-5'>网络</b>性能

    车载以太网测试典型问题三则

    北汇信息作为国内外众多OEM的第三方认证测试服务商,积累了大量的测试服务经验,分享三则车载以太网测试典型问题。
    的头像 发表于 10-11 15:42 2250次阅读
    车载<b class='flag-5'>以太网</b><b class='flag-5'>测试</b>典型问题三则

    中宇联持续深化与阿里Well-Architected卓越架构合作,共筑企业智能升级基石

    前言在2025年云栖大会期间,中宇联凭借其深厚的技术积淀与丰富的行业实践,作为阿里Well-Archtected卓越架构技术合作伙伴在榜单中被重点提及。这一重要时刻不仅是对中宇联技术
    的头像 发表于 10-11 10:18 1557次阅读
    中宇联持续深化与<b class='flag-5'>阿里</b><b class='flag-5'>云</b>Well-Architected卓越<b class='flag-5'>架构</b><b class='flag-5'>合作</b>,共筑企业智能升级基石

    小鹏汽车与阿里签署后量子安全技术合作协议

    9月24日,小鹏汽车与阿里在云栖大会正式签署后量子安全技术合作协议。小鹏汽车高级总监林蓬蓬、阿里数据安全产品线总监杨永代表双方签约。根据
    的头像 发表于 09-30 14:09 973次阅读

    NVIDIA推出Spectrum-XGS以太网技术

    NVIDIA 今日宣布推出 NVIDIA Spectrum-XGS 以太网。这项跨区域扩展(scale-across)技术可将多个分布式数据中心组合成一个十亿瓦级 AI 超级工厂。
    的头像 发表于 08-27 12:51 1482次阅读

    四维图新与阿里达成战略合作

    近日,北京四维图新科技股份有限公司(以下简称“四维图新”)与阿里计算有限公司(以下简称“阿里”)正式签署战略合作框架协议,宣布建立长期战
    的头像 发表于 06-05 17:53 1283次阅读