0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

全新NVIDIA Spectrum-X网络平台构筑阿里生成式AI云底座

丽台科技 来源:丽台科技 2023-11-02 09:07 次阅读

全新 NVIDIA Spectrum-X 网络平台构筑阿里生成式 AI 云底座。

a409b7e6-7913-11ee-939d-92fbcf53809c.png

随着生成式 AI 的热潮席卷全球,用于训练生成式 AI 的大型高性能网络基础设施开始受到客户和行业的关注。这不仅仅是因为巨大的市场潜力,更因为生成式 AI 应用对当前网络的技术与产品带来的巨大挑战。

由于生成式 AI 训练任务的特性,其对网络的要求与传统的 DC 网络在多方面存在差异。主要体现在:

性能至上,对于网络带宽及通信效率的要求高,需要实现从 GPU 到网络,再到其它 GPU 的端到端带宽平衡,从而达到充分发挥集群训练性能的目的。

AI 网络流量并发性高和突发性流量多,对于数据的完整性要求很高,依赖于 RDMA 转发保证带宽最大化和数据的完整性,降低对 CPU 资源消耗。

模型并行加数据并行共存的通信机制导致对于网络时延敏感,网络中的任何额外的时延都可能影响数以百计的 GPU 之间的通信效率。

需要无收敛的网络拓扑保证各种通信场景下的网络带宽没有瓶颈。

由于传统的网络解决方案无法满足这些需求,NVIDIA 依靠多年在 AI 和高速通信领域的积累,推出了 Spectrum-X 以太网解决方案,以推动以太网技术可以更好地适配生成式 AI 基础设施的要求。

NVIDIA Spectrum-X 是专为基于以太网的 AI 云提高性能和效率而设计的平台。

NVIDIA Spectrum-X 依托于 NVIDIA Spectrum-4 以太网交换机和 NVIDIA BlueField-3 DPU 的紧密结合,专为 AI 工作负载构建了端到端的创新网络平台,大幅提升了以太网在大规模、可扩展环境中的通信效率,并在多租户环境中实现了一致的、可预测的性能,提高了生成式 AI 云的性能和能效。NVIDIA Spectrum-X 网络平台还包括 Cumulus Linux、NetQ、Air 和 DOCA 加速软件等,以及 NVIDIA 的 LinkX 系列线缆和光模块产品,共同助力该网络平台实现出色的性能。

NVIDIA Spectrum-X 网络平台集成了 NVIDIA Spectrum-4 以太网交换机、NVIDIA BlueField-3 DPU、NVIDIA LinkX 线缆及加速软件和 SDK,通过无损以太网的端到端动态路由、基于可编程拥塞控制的性能隔离技术等先进的 RoCE 扩展功能,构建了一个专为 AI 云而优化和加速的端到端高性能 400GbE 以太网络。测试显示,与传统以太网相比,采用 NVIDIA Spectrum-X 网络平台可将大规模 AI 工作负载的性能提高到 1.7 倍,并将网络的有效通信带宽提升到 1.6 倍。

NVIDIA Spectrum-X 网络平台,实现了 GPU 到 GPU 直接的端到端加速和优化,大幅减少了大规模生成式 AI 模型的运行时间,提升了 GPU 的效率,优化了 AI 平台的总体拥有成本(TCO)和降低了基础设施的整体功耗。同时,它还具有高度的通用性,有力地支撑了各种生成式 AI 应用,由于它也是标准的以太网,实现了与已有的基于以太网堆栈的云架构和云服务互通。

阿里云作为全球领先的云供应商,拥有巨型的通用计算平台。同时,阿里云也持续向加速计算领域扩张,建成并持续扩张以PAI 灵骏”算力服务为代表大型的 GPU 集群。阿里云基础设施网络团队从 2017 年开始构建端网融合的可预期高性能 RDMA 网络架构,过去几年已经在高性能存储领域实现了大规模部署,目前正在大规模 AI 计算领域持续创新迭代和规模部署,以适配 AI 计算对高性能网络的诉求。阿里云也充分认识到技术创新对以太网方案持续支持高性能网络,尤其是生成式 AI 基础设施的重要性。

为此,阿里云联合 NVIDIA 对 Spectrum-X 解决方案进行测试,以评估新技术对高性能网络的适应能力。

测试的主要内容和结果

阿里云测试环境配置

测试环境使用了 2 台 Spine 交换机,4 台 ToR 交换机,16 台 HGX GPU 服务器并配置了 NVIDIA BlueField-3 DPU,基于 NVIDIA 51.2T Spectrum-4 交换芯片的 SN5600,以太网交换机,支持 128*400G 或者 64*800G 端口。每台 GPU 服务器配置 8 张 BlueField-3 DPU,每 4 台 GPU 服务器为一组连接到一台 ToR 交换机,共 4 组连接到 4 台 ToR 交换机。ToR 交换机通过 200G 网络连接到 BlueField-3 DPU,4 台 ToR 交换机通过 2 台 Spine 交换机连接在一起,构成无阻塞胖树网络。

a42367d6-7913-11ee-939d-92fbcf53809c.png

主要的测试内容

这些测试由多个级别的工作负载组成,从简单到复杂:

RDMA 基准性能测试,覆盖带宽和延迟。

孤立场景下的 All to All 和 All Reduce 集合通信测试,专注于 NCCL 性能基准。

在共享资源和有背景噪声环境下的性能测试。

故障场景的测试。

a442808a-7913-11ee-939d-92fbcf53809c.png

测试结果显示,由于使用了端到端的逐包负载均衡优化技术(Adaptive Routing)和零配置 RoCE 拥塞控制(ZTR CC)使得网络利用率显著提升,并显著减少由于网络拥塞和 In-Cast 问题带来的时延和抖动。网络带宽利用率在各种测试场景下均可超过 90%。这种逐包负载均衡技术也可以对多种故障情况(本端和远端)做出响应,合理地利用网络内的带宽资源。在真实训练任务的测试过程中,Spectrum-X 可以降低 20% 以上的训练时间。在获得这一切收益的同时,网络的配置工作量大大降低,运维人员不再需要进行复杂的配置和频繁的调优工作。

这些测试结果表明 NVIDIA Spectrum-X 加速网络平台的突破性技术可大幅提升大规模生成式 AI 工作负载的性能,并大幅缩短生成式 AI 模型的运行时间。

通过采用 NVIDIA Spectrum-X 网络平台,客户可进一步为千行百业的客户提供具有性能和成本优势的生成式 AI 云服务,将 AI 通用大模型和行业大模型赋能和融合各种应用场景。NVIDIA 和阿里云的开发人员将基于 NVIDIA Spectrum-X 网络平台的加速软件和 SDK 进一步在虚拟化、定制化可编程拥塞控制、遥测、快速故障响应等方面展开合作,推动这一新解决方案的进一步发展和应用。

针对这一联合测试,阿里云基础设施网络研发事业部总经理蔡德忠表示:“高性能网络技术是 AI 计算 Scaling Law 的关键所在,这个领域需要持续不断的创新迭代,阿里云始终坚持网络的开放性,也是网络开源生态的领导者和积极贡献者,阿里云与 NVIDIA 在 AI 计算和高性能存储领域合作多年,将持续探索创新基于 Open Ethernet 的高性能网络方案,助力 AI 计算集群的大规模高效扩展。”

NVIDIA 网络高级副总裁 Gilad Shainer表示:“生成式 AI(Generative AI)是面向下一代业务需求的典型代表,为了支撑成千上万的用户的需求,生成式 AI 云需要先进及可靠的网络基础架构满足各种 AI 业务的平滑增长。阿里云和 NVIDIA 在 Spectrum-X 以太网平台上的策略合作,可以充分利用 Spectrum-X 的先进路由技术和云上业务性能隔离技术,使阿里云及其广大用户可以尽情享受生成式 AI 的服务。”






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 以太网
    +关注

    关注

    40

    文章

    5077

    浏览量

    166238
  • NVIDIA
    +关注

    关注

    14

    文章

    4595

    浏览量

    101724
  • 交换机
    +关注

    关注

    19

    文章

    2437

    浏览量

    95665
  • 光模块
    +关注

    关注

    71

    文章

    1134

    浏览量

    58101
  • GPU芯片
    +关注

    关注

    1

    文章

    291

    浏览量

    5689

原文标题:全新 NVIDIA Spectrum-X 网络平台构筑阿里生成式 AI 云底座

文章出处:【微信号:Leadtek,微信公众号:丽台科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA Edify为视觉内容提供商带来3D生成AI全新图像控件

    用于视觉生成AI 的多模态架构 NVIDIA Edify 正在迈入全新维度。
    的头像 发表于 03-26 09:49 319次阅读

    NVIDIA发布专为大规模AI量身订制的全新网络交换机-X800系列

    NVIDIA Quantum-X800 InfiniBand 网络NVIDIA Spectrum™-X800 以太网络是全球首批高达 8
    的头像 发表于 03-20 09:54 228次阅读

    NVIDIA 发布全新交换机,全面优化万亿参数级 GPU 计算和 AI 基础设施

    圣何塞 —— GTC —— 太平洋时间 2024 年 3 月 18 日 —— NVIDIA 发布专为大规模 AI 量身订制的全新网络交换机 - X800 系列。   NVIDIA Qu
    发表于 03-19 10:05 115次阅读
    <b class='flag-5'>NVIDIA</b> 发布<b class='flag-5'>全新</b>交换机,全面优化万亿参数级 GPU 计算和 <b class='flag-5'>AI</b> 基础设施

    夯实Net5.5G,构筑数字化发展网络底座

    ,裸眼3D、XR游戏、超高清视频会议、AI大模型等新场景新应用不断涌现,适配不同场景,Net5.5G将通过泛在万兆联接、400GE融合承载、超融合数据中心网络网络数字地图等新技术新能力,构筑
    的头像 发表于 12-26 19:10 294次阅读
    夯实Net5.5G,<b class='flag-5'>构筑</b>数字化发展<b class='flag-5'>网络</b>新<b class='flag-5'>底座</b>

    NVIDIA全新AI以太网络平台大幅提升AI云性能

    NVIDIA 近日宣布,三家头部系统制造商将率先在其服务器产品阵容中集成专为 AI 量身定制的 NVIDIA Spectrum-X™ 以太网络
    的头像 发表于 11-27 14:31 416次阅读

    戴尔科技、慧与和联想即将推出 NVIDIA 全新 AI 以太网络平台

    NVIDIA Spectrum-X 以太网络技术,帮助企业客户加速生成AI 业务。 Spectr
    的头像 发表于 11-21 21:50 329次阅读
    戴尔科技、慧与和联想即将推出 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>全新</b> <b class='flag-5'>AI</b> 以太<b class='flag-5'>网络</b><b class='flag-5'>平台</b>

    戴尔科技、慧与和联想即将推出 NVIDIA 全新 AI 以太网络平台

    NVIDIA Spectrum-X™ 以太网络技术,帮助企业客户加速生成AI 业务。   Spe
    发表于 11-21 18:18 156次阅读
    戴尔科技、慧与和联想即将推出 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>全新</b> <b class='flag-5'>AI</b> 以太<b class='flag-5'>网络</b><b class='flag-5'>平台</b>

    利用 NVIDIA Jetson 实现生成AI

    近日,NVIDIA 发布了 Jetson 生成AI 实验室(Jetson Generative AI Lab),使开发者能够通过 NVIDIA
    的头像 发表于 11-07 21:25 487次阅读
    利用 <b class='flag-5'>NVIDIA</b> Jetson 实现<b class='flag-5'>生成</b>式 <b class='flag-5'>AI</b>

    NVIDIA 人工智能开讲 | 什么是 Spectrum-X 网络平台

    ”两大音频 APP 上搜索“ NVIDIA 人工智能开讲 ”专辑,众多技术大咖带你深度剖析核心技术,把脉未来科技发展方向! 随着生成AI 成为热门话题,生成
    的头像 发表于 11-06 20:25 381次阅读
    <b class='flag-5'>NVIDIA</b> 人工智能开讲 | 什么是 <b class='flag-5'>Spectrum-X</b> <b class='flag-5'>网络</b><b class='flag-5'>平台</b>?

    阿里云与 NVIDIA 合作测试以太网络新架构

    全新 NVIDIA Spectrum-X 网络平台构筑阿里
    的头像 发表于 11-01 09:30 183次阅读

    NVIDIA 扩展机器人平台,迎接生成AI 的崛起

    基于 NVIDIA Jetson 平台进行开发的 1 万多家公司现在可以利用全新生成AI、API 和微服务来加快推进行业数字化 强大的
    的头像 发表于 10-20 02:05 343次阅读
    <b class='flag-5'>NVIDIA</b> 扩展机器人<b class='flag-5'>平台</b>,迎接<b class='flag-5'>生成</b>式 <b class='flag-5'>AI</b> 的崛起

    NVIDIA 端到端网络解决方案亮相“腾讯全球数字生态大会”,引领产业未来!

    网络技术的最新进展 ,包含 NVIDIA Spectrum-XAI 性能和能效提升方面的成果 。 现场解锁 NVIDIA 端到端
    的头像 发表于 09-06 19:15 650次阅读
    <b class='flag-5'>NVIDIA</b> 端到端<b class='flag-5'>网络</b>解决方案亮相“腾讯全球数字生态大会”,引领产业未来!

    VMware 与 NVIDIA 为企业开启生成AI 时代

    全新 VMware Private AI Foundation With NVIDIA 帮助企业为生成AI 在业务中的应用做好准备;该
    的头像 发表于 08-23 19:10 473次阅读
    VMware 与 <b class='flag-5'>NVIDIA</b> 为企业开启<b class='flag-5'>生成</b>式 <b class='flag-5'>AI</b> 时代

    使用 NVIDIA Spectrum-X 网络平台加速生成AI 工作负载

    使用。您甚至可以在云端或内部部署人工智能。 然而,人工智能应用程序可能会对网络造成很大负担,这种增长给 CPU 和 GPU 服务器以及将这些系统连接到一起的现有底层网络基础设施带来了负担。 传统以太网虽然足以处理主流和企业应用程序,如 Web、视频或音频流,但并未针对支持
    的头像 发表于 06-09 21:00 248次阅读
    使用 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Spectrum-X</b> <b class='flag-5'>网络</b><b class='flag-5'>平台</b>加速<b class='flag-5'>生成</b>式 <b class='flag-5'>AI</b> 工作负载

    COMPUTEX2023 | NVIDIA 推出面向超大规模生成AI 的加速以太网平台

    全新NVIDIA Spectrum-X 网络平台NVIDIA
    的头像 发表于 05-30 01:40 377次阅读
    COMPUTEX2023 | <b class='flag-5'>NVIDIA</b> 推出面向超大规模<b class='flag-5'>生成</b>式 <b class='flag-5'>AI</b> 的加速以太网<b class='flag-5'>平台</b>