0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Spectrum-X网络平台助力提升AI存储性能

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2025-02-15 11:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

AI 工厂依靠的不仅仅是计算网。当然,连接 GPU 的东西向网络对于 AI 应用的性能至关重要,而连接高速存储阵列的存储网也不容忽视。存储性能在运行 AI 业务过程中的多个阶段中发挥着关键作用,包括训练过程中的 Checkpoint 操作、推理过程中的检索增强生成(RAG)等。

为了满足这些需求,NVIDIA 和存储生态合作伙伴正在将NVIDIA Spectrum-X 网络平台扩展到数据存储网,从而带来更高的性能和更快的实现 AI 的时间。由于 Spectrum-X 动态路由技术能够缓解网络中的流量冲突并增加有效带宽,从而使存储性能远高于 RoCE v2,RoCE v2 是大多数数据中心用于 AI 计算网和存储网的以太网网络协议。

Spectrum-X 将读取带宽加速了高达 48%,写入带宽加速了高达 41%。带宽的增加可以更快地完成 AI 工作流中与存储相关的操作,从而缩短训练业务的完成时间,并降低推理过程中的 Token 分配延迟。

Spectrum-X 的主要存储合作伙伴

随着 AI 工作负载的规模和复杂性不断增加,存储解决方案也必须不断发展,以跟上现代 AI 工厂的需求。DDN、VAST Data 和WEKA 等领先的存储供应商正与 NVIDIA 合作,利用 Spectrum-X 集成和优化其解决方案,为 AI 存储网带来先进的功能。

Spectrum-X 对 Israel-1 超级计算机的大规模影响

NVIDIA 已经搭建了生成式 AI 超级计算机 Israel-1,用于对各种 AI 网络解决方案进行预测试和验证以优化 Spectrum-X 性能和简化网络部署。这使 Israel-1 成为测试 Spectrum-X 如何影响存储工作负载的良好平台,展示了网络在现实的超级计算机运行状态下对存储性能的影响。

为了了解 Spectrum-X 对存储网络的影响,Israel-1 团队测量了从 NVIDIA HGX  GPU 服务器客户端访问存储时的读写带宽。该测试(Flexible I/O Tester 基准测试)在将网络配置为标准 RoCE v2 网络的情况下执行一次,然后在启用 Spectrum-X 的动态路由和拥塞控制后重新运行。

这些测试使用了不同数量的 GPU 服务器作为客户端运行,覆盖了从 40 个 GPU 到 800 个 GPU。在所有的测试中,Spectrum-X 都表现得更好。读带宽提升幅度在 20%到 48%之间,写带宽提升幅度在 9%到 41%之间,这些结果与 DDN、VAST 和 WEKA 等生态合作伙伴测到的加速性能一致。

存储网络性能对于 AI 性能至关重要

要想知道 Spectrum-X 为何会带来如此大的影响,需要先了解存储在 AI 业务中的重要性。AI 性能不仅仅受大语言模型(LLM)每一步完成时间的影响,还与许多其他因素有关。例如,由于模型训练通常需要几天、几周或几个月才能完成,因此设置 Checkpoint 或保存部分训练模型的中间结果到存储非常重要,通常需要每隔几个小时操作一次。这意味着,万一系统出现问题,训练进度不会丢失。

对于具有数十亿至数万亿参数的模型,这些 Checkpoint 的状态变得越来越大,现在最大型 LLM 模型会生成高达数 TB 的数据,保存数据或恢复数据会产生多条“大象流”,这些突发的大象流,可能会淹没交换机的缓冲和链路,所以网络必须保证为训练工作负载提供最佳利用率。

检索增强生成(RAG)是另一个存储网可以影响工作负载性能的例子,借助 RAG,LLM 与不断增长的知识库相结合,为模型添加特定领域的上下文,从而提供更快的响应时间,而无需额外的模型训练或微调。RAG 的工作原理是获取额外的内容或知识,并将其嵌入到向量数据库中,从而使其成为可搜索到的知识库。

输入推理提示时,系统会解析(嵌入)提示并搜索数据库,检索到的内容会向提示添加上下文,以帮助 LLM 制定最佳答案。向量数据库是多维的,可能非常庞大,尤其是由图像和视频组成的知识库。

这些数据库通过存储网连接到推理节点,网络必须确保快速通信以尽可能降低延迟。对于多租户生成式 AI 工厂而言,这一点变得尤为重要,因为这些工厂每秒要处理大量的查询。

存储中动态路由和拥塞控制的应用

Spectrum-X 平台引入了 InfiniBand 网络上的关键创新技术,例如RoCE Adaptive Routing(动态路由)和RoCE Congestion Control(拥塞控制)。NVIDIA 通过采用这些创新技术并将其与存储网相结合,提高了存储工作负载的性能和网络利用率。

动态路由

为了消除大象流之间的碰撞并减轻 Checkpoint 过程中产生的网络流量,动态路由可以对于网络上的流进行逐包的动态负载平衡,Spectrum-4 以太网交换机根据实时拥塞状况来选择拥塞最低的路径。由于数据包被喷洒到整个网络中,到达目的地时它们可能会出现乱序,在传统的以太网下,这将需要重新传输许多数据包。

借助 Spectrum-X,接收端主机里的 SuperNIC 或数据处理器(DPU)知道数据包的正确顺序,可以在主机内存中按序放置数据包,从而使动态路由对应用程序透明。这可提高网络利用率,为 Checkpoint、数据获取等实现更高的有效带宽以及提供可预测、一致的结果。

拥塞控制

Checkpoints 和其它存储操作通常会导致 Incast 拥塞,也称为多对一拥塞。当多个客户端尝试向单个存储节点写入数据时,就会出现这种情况。Spectrum-X 引入了一种基于遥测的拥塞控制技术,使用交换机中硬件遥测技术来通知 SuperNIC 或 DPU,以降低发送端的数据注入速率(即 RDMA 写和读)。从而防止出现拥塞热点,这些热点可能会反向传播,导致相邻作业或进程受到拥塞的不公平影响。

增强弹性

由于 AI 工厂通常由大量交换机、线缆和收发器组成,任何链路中断都可能导致网络性能的大幅下降,因此网络弹性对于维护基础设施的健康至关重要。Spectrum-X 全局动态路由可在链路中断时实现优化、快速的重新收敛,从而充分利用存储网。

NVIDIA 全栈集成

除了 Spectrum-X 为存储网带来的创新之外,NVIDIA 还提供并推荐使用多种 SDK、库和软件产品,以加速存储到 GPU 数据通路,其中包括但不限于以下内容:

NVIDIA Air:一款基于云的网络仿真工具,用于对交换机、SuperNIC 和存储进行建模,可加速 Day 0、Day 1 和 Day 2 对于存储网的操作。

NVIDIA Cumulus Linux:基于自动化部署和 API 构建的网络操作系统,可确保大规模网络的平稳运营和管理。

NVIDIA DOCA:面向 NVIDIA SuperNIC 和 DPU 的 SDK,可在存储、安全等方面提供出色的可编程性和性能。

NVIDIA NetQ:一款网络验证工具集,集成了交换机遥测技术,可提供网络的实时可见性。

NVIDIA GPUDirect Storage:一项在存储和 GPU 显存之间建立直接数据路径的技术,可提高数据传输效率。

开始使用 Spectrum-X

随着模型越来越大,数据走向更多的多模态,存储将一直是生成式 AI 训练和操作的关键要素。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109048
  • 网络平台
    +关注

    关注

    0

    文章

    20

    浏览量

    8203
  • AI
    AI
    +关注

    关注

    89

    文章

    38085

    浏览量

    296320

原文标题:NVIDIA Spectrum-X 网络平台和合作伙伴提升 AI 存储性能达 48%

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA扩大与微软合作推动AI超级工厂建设

    在 Microsoft Ignite 大会上,NVIDIA 扩大与微软的合作,包括在由 NVIDIA Blackwell 平台驱动的全新 Microsoft Fairwater AI
    的头像 发表于 12-01 09:52 402次阅读

    NVIDIA Spectrum-X 以太网交换机助力 Meta 和 Oracle 加速网络性能

    基于 NVIDIA Spectrum-X 以太网交换机的 AI 数据中心网络。 Meta 和 Oracle 正将 Spectrum-X 以太
    的头像 发表于 10-14 10:26 1413次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Spectrum-X</b> 以太网交换机<b class='flag-5'>助力</b> Meta 和 Oracle 加速<b class='flag-5'>网络</b><b class='flag-5'>性能</b>

    NVIDIA在Hot Chips 2025大会展示创新技术

    本周在加利福尼亚州帕洛阿尔托(Palo Alto)举行的 Hot Chips 大会上,NVIDIA 专家详细介绍了 NVIDIA NVLink 和Spectrum-X 以太网技术、Blackwell 以及 CUDA 如何为全球数
    的头像 发表于 08-27 12:52 1602次阅读

    NVIDIA推出Spectrum-XGS以太网技术

    NVIDIA 今日宣布推出 NVIDIA Spectrum-XGS 以太网。这项跨区域扩展(scale-across)技术可将多个分布式数据中心组合成一个十亿瓦级 AI 超级工厂。
    的头像 发表于 08-27 12:51 1113次阅读

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    合作案例,成为AI数据中心升级的关键推动者。 一、技术实力:AI光模块的研发与量产先锋 睿海光电作为全球AI光模块的领先品牌,专注于为数据中心、超算中心及智算中心提供高性能
    发表于 08-13 19:01

    全新STM32MP257开发板震撼发布!异核架构x接口丰富x边缘AI助力ARM嵌入式工业4.0应用!

    全新STM32MP257开发板震撼发布!异核架构x接口丰富x边缘AI助力ARM嵌入式工业4.0应用! ATK-DLMP257B开发板是正点原子基于STM32MP257DAK3处理器
    发表于 04-12 12:04

    适用于数据中心和AI时代的800G网络

    下降。 InfiniBand助力AI性能提升AI工厂中,InfiniBand网络技术因
    发表于 03-25 17:35

    英伟达GTC2025亮点:NVIDIA认证计划扩展至企业存储领域,加速AI工厂部署

    ,现在已将企业存储纳入其中,旨在通过加速计算、网络、软件和存储助力企业更高效地部署 AI 工厂。 在企业构建
    的头像 发表于 03-21 19:38 1706次阅读

    英伟达GTC2025亮点:NVIDIA与行业领先存储企业共同推出面向AI时代的新型企业基础设施

    存储提供商构建搭载 AI 查询智能体的基础设施,利用 NVIDIA 计算、网络和软件,针对复杂查询进行推理并快速生成准确响应 NVIDIA
    的头像 发表于 03-21 09:42 1059次阅读

    NVIDIA推出全新硅光网络交换机

    NVIDIA 今天推出了 NVIDIA Spectrum-XNVIDIA Quantum-X 硅光
    的头像 发表于 03-20 14:52 814次阅读

    Banana Pi 发布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 计算与嵌入式开发

    RZ/V2N——近期在嵌入式世界2025上新发布,为 AI 计算、嵌入式系统及工自动化提供强大支持。这款全新的计算平台旨在满足开发者和企业用户对高性能、低功耗和灵活扩展的需求。 []() 领先的计算
    发表于 03-19 17:54

    NVIDIA 与行业领先的存储企业共同推出面向 AI 时代的新型企业基础设施

    :即企业存储平台,搭载由 NVIDIA 加速计算、网络和软件驱动的 AI 查询智能体。   NVIDIA
    发表于 03-19 10:11 411次阅读
    <b class='flag-5'>NVIDIA</b> 与行业领先的<b class='flag-5'>存储</b>企业共同推出面向 <b class='flag-5'>AI</b> 时代的新型企业基础设施

    NVIDIA网络安全AI平台助力保护关键基础设施

    平台集成了 NVIDIA BlueField 和 Morpheus,并为 Armis、Check Point Software Technologies、CrowdStrike、Deloitte 和 WWT 的下一代网络防御提
    的头像 发表于 02-19 10:22 916次阅读

    使用NVIDIA推理平台提高AI推理性能

    NVIDIA推理平台提高了 AI 推理性能,为零售、电信等行业节省了数百万美元。
    的头像 发表于 02-08 09:59 1307次阅读
    使用<b class='flag-5'>NVIDIA</b>推理<b class='flag-5'>平台</b>提高<b class='flag-5'>AI</b>推理<b class='flag-5'>性能</b>

    NVIDIA发布Cosmos™平台助力物理AI系统发展

    NVIDIA近日宣布推出全新的NVIDIA Cosmos™平台,该平台专为自动驾驶汽车(AV)和机器人等物理AI系统而设计,旨在推动这些领域
    的头像 发表于 01-08 15:36 895次阅读