0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA如何简化企业AI工作负载

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2025-09-23 15:21 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

AI 基础架构中,数据为计算引擎提供关键燃料。随着代理式 AI 系统的持续演进,多个模型与服务相互协作,需要获取外部上下文并实时做出决策,企业面临如何高效、智能且可靠地处理大规模数据流的挑战。无论是从持久化存储中加载模型、检索知识以支持查询,还是协调智能体对工具的调用,数据的高效流转始终是决定 AI 系统性能的核心因素。

GPU 与 GPU 之间的东西向通信长期以来一直是优化的重点。然而,负责模型加载、存储 I/O 和推理请求的南北向网络同样关键,其性能瓶颈会直接影响 AI 系统的响应速度。

NVIDIA 企业参考架构(Enterprise RA)可指导企业高效部署 AI 工厂及南北向网络,为构建可扩展、安全且高性能的 AI 基础设施提供系统性的设计方法。企业参考架构凝练了 NVIDIA 丰富的实践经验,涵盖服务器与网络配置、软件堆栈到运维最佳实践等各个方面,为部署复杂的 AI 基础设施提供了清晰且经过验证的实施路径。

在企业参考架构的众多组件中,NVIDIA Spectrum-X 以太网在加速南北向数据流方面发挥着重要作用,尤其是搭载 NVIDIA BlueField-3 DPU 助力数据密集型 AI 应用场景。

传统以太网存储网络并非专为满足 AI 和 HPC 工作负载在可扩展、数据流和敏感性方面的需求而设计,常因延迟和网络拥塞影响整体性能。每次 AI 模型在训练过程中进行检查点操作时,都会将大量数据流通过南北向网络传输至持久化存储。对于当前拥有数十亿参数的模型而言,这些检查点文件可能达到数 TB 级别,确保在系统发生故障时训练进度不会丢失。

推理工作负载同样高度依赖高效的南北向网络。在 AI 智能体检索数据时,无论是从检索增强生成(RAG)系统的向量数据库中获取嵌入,还是从外部工具或数据库中调取与客户查询相关的信息,这些过程都需要快速、低延迟的南北向连接。随着企业逐步从静态的单次推理演进为动态的多轮次、多智能体协同推理,南北向网络的需求也随之呈指数级增长。这种增长源于智能体在持续与用户、外部数据源及云服务交互的过程中,不断执行数据的提取、处理与更新操作。

通过采用 NVIDIA Spectrum-X 以太网加速企业参考架构中的数据传输,这些网络可转化为无损的 AI 数据存储与传输平台,专为满足现代 AI 工作负载的性能需求而设计。该企业级架构支持打造面向可预测性、高吞吐量和低延迟数据访问优化的 AI 工厂,从而充分释放现代 AI 工作流的潜力。

融合网络:企业 AI 工作负载简化的基础

企业 AI 工厂通常为解决特定应用场景而构建,其网络规模一般从 4 到 16 个服务器节点起步。在此场景下,融合架构将东西向流量(如计算任务)与南北向流量(如存储访问和外部服务通信)整合至统一的交换网络中,有助于简化运维。该架构通过减少布线需求和硬件扩展可以有效降低系统复杂性,同时在训练、推理和检索等各类工作负载中保持高吞吐性能。但融合的东西向与南北向网络需要具备充足带宽和良好服务质量(QoS)能力,以可靠地支持这两类流量的并发运行。

Spectrum-X 以太网是企业参考架构的核心,发挥着关键作用。该架构最初针对 GPU 与 GPU 之间以及节点与节点之间的东西向通信进行了优化,同时借助动态路由和遥测技术,有效避免网络拥塞,提升吞吐量,并降低 AI 运行时及检索密集型工作负载中的延迟。因而它也为南北向的网络和存储数据路径提供了显著的带宽与性能优势。

Spectrum-X 的以太网功能同样至关重要,例如虚拟路由和转发(VRF)实现的服务隔离以及 QoS 对流量的优先级管理。虚拟路由和转发能够在无需依赖物理网络划分的情况下,从逻辑上将东西向通信与南北向流量(如用户接入或存储访问)进行分隔。QoS则通过在以太网帧或 IP 数据包头添加标签,确保特定类型的流量(如存储流量相对于基于 HTTPS 的用户流量)获得相应的优先级处理。当多个 AI 智能体或工作负载在共享基础设施上并发运行时,这些机制结合一些高级功能例如噪声隔离等,实现进一步的功能强化,从而保障系统性能的稳定性与一致性。

需要注意的是,尽管融合架构非常适合中小规模的企业级 AI 工厂,但它并非适用于所有场景的通用方案。在大规模多租户环境中,例如由 NVIDIA 云合作伙伴(NCP)运营的环境,采用具有物理连接网络的分离式架构可能是更优选择,这既能提供更高的有效带宽,又能实现租户之间及不同流量类型之间的严格隔离。

融合网络是一项经过周密考量的设计选择,契合企业级 AI 基础设施在专用场景下的应用需求,同时兼顾性能与可管理性。企业参考架构通过提供一系列指导方案,能够覆盖从小型基础集群到扩展至 1000 个 GPU 的中型部署,有效简化了为特定用例确定理想网络架构的复杂过程。

了解 NVIDIA 以太网 SuperNIC 与BlueField-3 DPU 的功能与应用

了解 AI 工厂中的网络编排时,有必要区分 NVIDIA 以太网 SuperNIC 与 DPU 的不同角色。NVIDIA SuperNIC 专为处理 GPU 间东西向通信流量而设计,面向超大规模 AI 环境时,可为每个 GPU 提供高达 800 Gb/s 的带宽,确保在分布式训练和推理过程中实现高效、快速的数据连接。

而 BlueField-3 DPU 则负责处理南北向流量。它能够将存储管理、遥测和网络安全等任务从主机 CPU 卸载、加速并实现隔离,从而为核心 AI 处理释放宝贵的计算资源。实际上,它充当了专用的云基础设施处理器,确保数据在 AI 工厂与外部生态系统(包括网络存储)之间高效流动。

SuperNIC 与 BlueField-3 DPU 共同构建了强大的 AI 网络协同体系。SuperNIC 为 AI 工厂内部的计算提供动力与路径支持,而 BlueField-3 DPU 则确保外部数据能够顺利、大规模地接入。这种组合拳使企业能够全面优化 AI 基础设施各层级的性能表现。

对企业的影响:向量数据库与实时检索

代理式 AI 和 RAG 系统的日益普及是南北向网络应用的一个典型示例。以 NVIDIA RAG 2.0 Blueprint 为代表的架构,通过整合外部知识(如文档、图像、日志和视频),扩展了大语言模型(LLM)的能力。该架构利用 NVIDIA NeMo Retriever 和 NVIDIA NIM 微服务,将这些内容通过向量数据库进行嵌入、索引和检索,从而提供更加准确且符合上下文的响应。

当用户提交查询时,LLM 会生成相应的向量嵌入,并利用该嵌入在向量数据库(如外部存储中的 Milvus)中快速检索相关性较高的上下文信息。这一过程依赖于高效、低延迟的南北向数据流动。系统越早完成外部知识的检索与整合,其响应速度就越快,结果也越准确。Spectrum-X 以太网络优化了这一数据路径,在模型实时获取嵌入信息方面,确保了最小的延迟和最大的吞吐量。

2df02566-92e5-11f0-8c8f-92fbcf53809c.png

图 1. 在 RAG 增强型 LLM 用户查询中,NVIDIA Spectrum-X 以太网中的数据流步骤示意

下面来分析一下南北向用户的计算与存储流程:

用户查询入口(用户到互联网到 leaf):用户提示或任务通过入口网关流入 AI 工厂,到达 leaf 交换机,然后进入集群。企业参考架构通过 Spectrum-X 以太网优化了这一路径,缩短了依赖外部数据的应用程序的首 token 时延(Time to First Token,TTFT),并避免了手动网络配置调整。

请求路由到 GPU 服务器(通过 DPU 优化 leaf 到 GPU路由):请求通过 leaf 交换机定向到 GPU 节点,BlueField-3 DPU 在此处理数据包解析、卸载网络栈,并将请求路由到正确的推理引擎(例如 NVIDIA NIM)。该请求流经 leaf-spine Spectrum-X 以太网交换机,通过动态路由,避免拥塞。Spectrum-X 以太网使用交换机实时状态或队列占用来动态地保持流量高效流动,类似于地图应用在交通堵塞时为用户重新安排路线。

外部上下文获取(服务器到 leaf 到 spine 再到 leaf 到存储):对于上下文查询(例如向量数据库),请求通过 RoCE(RDMA over Converged Ethernet)流经 leaf-spine 网络到达基于 NVMe 的存储系统。Spectrum-X 以太网的无缝互操作性和为 AI 优化的性能,助力 DDN、VAST Data 和 WEKA 等合作伙伴平台上的数据访问,可将存储性能提升高达 1.6 倍。

数据返回到 GPU(存储到 leaf 到 spine 再到 leaf 到 server):相关向量和嵌入式内容通过 RoCE 在同一融合网络上返回。Spectrum-X 以太网可实现此路径的拥塞感知,并通过 DPU 处理数据包重排序来保持 GPU 的高效供给。在这里,QoS 标记可以确保优先处理延迟敏感型存储数据,尤其是当多个 AI 智能体通过南北向流量查询多个工具时。

LLM 推理和最终响应(GPU 到 leaf 到用户):利用内存中的原始提示和相关外部上下文,GPU 完成推理。最终响应会向上路由,并退出基础设施返回至用户应用。基于 VRF 的网络隔离可确保存储、推理和用户流量在逻辑上保持独立,从而确保大规模运行时的性能稳定。

在多个 AI 智能体同时运行(如协作处理复杂任务或响应多用户查询)的环境中,高效的南北向网络能够有效避免瓶颈,保障系统的流畅性与响应速度。通过优化数据检索流程,企业可显著提升决策效率并改善用户体验。无论应用于客户聊天机器人、金融咨询工具,还是内部知识管理平台,基于高效南北向网络的 AI 代理与 RAG 架构均能切实创造可观的业务价值。

AI 工作负载已不再局限于隔离环境中的大型训练集群,而是越来越多地融入日常企业运营,需要与数据湖、外部服务以及面向用户的应用实现无缝交互。在此新范式下,南北向网络正重新崛起,成为 AI 工厂的关键支撑。凭借 NVIDIA Spectrum-X 以太网、NVIDIA BlueField 以及基于 NVIDIA 企业参考架构的精细架构设计,企业能够打造具备高弹性、高性能且可随 AI 工作负载持续扩展的 AI 工厂。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 负载
    +关注

    关注

    2

    文章

    649

    浏览量

    36197
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109109
  • AI
    AI
    +关注

    关注

    89

    文章

    38153

    浏览量

    296796

原文标题:南北向网络:加速企业 AI 工作负载的关键

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    2025 NVIDIA创业企业展示北京站成功举办

    近日,2025 NVIDIA 创业企业展示——北京站(AI 智能体与物理 AI 出海专场)在北京量子银座集智会议中心举办。
    的头像 发表于 09-16 10:43 930次阅读

    NVIDIA技术助力企业创建主权AI智能体

    AI Factory 的经验证设计将加速基础设施与软件(包括全新 NVIDIA NIM 微服务和经扩展的 NVIDIA Blueprint)相结合,为各国和企业
    的头像 发表于 06-16 14:28 1091次阅读

    通过NVIDIA RTX PRO服务器加速企业工作负载

    从大语言模型(LLM)到代理式 AI 推理和物理 AI ,随着 AI 工作负载的复杂性和规模不断增加,人们对更快、扩展性更高的计算基础设施的
    的头像 发表于 06-12 15:31 644次阅读
    通过<b class='flag-5'>NVIDIA</b> RTX PRO服务器加速<b class='flag-5'>企业</b><b class='flag-5'>工作</b><b class='flag-5'>负载</b>

    面向半定制AI基础架构的NVIDIA NVLink Fusion技术

    为了高效应对 AI 工作负载,数据中心正在被重构。这是一项非常复杂的工作,因此,NVIDIA 目前正在交付以
    的头像 发表于 06-06 14:59 1094次阅读
    面向半定制<b class='flag-5'>AI</b>基础架构的<b class='flag-5'>NVIDIA</b> NVLink Fusion技术

    NVIDIA携手合作伙伴提升AI智能体的交互能力

    NVIDIA Enterprise AI Factory 的经验证设计和全新的 NVIDIA AI Blueprint 可帮助企业部署具有沟
    的头像 发表于 05-22 09:52 802次阅读

    NVIDIA将为每家AI工厂提供网络安全

    NVIDIA DOCA Argus 框架可检测 AI 工作负载中的威胁并对之做出响应,同时与企业安全系统无缝集成,从而提供实时洞察。
    的头像 发表于 05-07 15:11 799次阅读
    <b class='flag-5'>NVIDIA</b>将为每家<b class='flag-5'>AI</b>工厂提供网络安全

    NVIDIA加速的Apache Spark助力企业节省大量成本

    随着 NVIDIA 推出 Aether 项目,通过采用 NVIDIA 加速的 Apache Spark 企业得以自动加速其数据中心规模的分析工作负载
    的头像 发表于 03-25 15:09 908次阅读
    <b class='flag-5'>NVIDIA</b>加速的Apache Spark助力<b class='flag-5'>企业</b>节省大量成本

    英伟达GTC2025亮点:NVIDIA认证计划扩展至企业存储领域,加速AI工厂部署

    全新的存储认证和参考架构让企业 IT 部门能更轻松地选择和部署 AI 基础设施,实现最优的性能和能效。 AI 部署的成功依靠速度、数据和规模。因此,NVIDIA 正在扩展
    的头像 发表于 03-21 19:38 1719次阅读

    英伟达GTC2025亮点:Oracle与NVIDIA合作助力企业加速代理式AI推理

    Oracle 数据库与 NVIDIA AI 相集成,使企业能够更轻松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,
    的头像 发表于 03-21 12:01 1185次阅读
    英伟达GTC2025亮点:Oracle与<b class='flag-5'>NVIDIA</b>合作助力<b class='flag-5'>企业</b>加速代理式<b class='flag-5'>AI</b>推理

    英伟达GTC2025亮点:NVIDIA与行业领先存储企业共同推出面向AI时代的新型企业基础设施

    的参考设计,领先的存储提供商可用来构建全新的 AI 基础设施,以满足 AI 推理工作负载的严苛要求:即企业存储平台,搭载由
    的头像 发表于 03-21 09:42 1066次阅读

    Oracle 与 NVIDIA 合作助力企业加速代理式 AI 推理

    Oracle 数据库与 NVIDIA AI 相集成,使企业能够更轻松、快捷地采用代理式 AI       美国加利福尼亚州圣何塞 —— GTC  —— 2025 年 3 月 18 日
    发表于 03-19 15:24 471次阅读
    Oracle 与 <b class='flag-5'>NVIDIA</b> 合作助力<b class='flag-5'>企业</b>加速代理式 <b class='flag-5'>AI</b> 推理

    NVIDIA 与行业领先的存储企业共同推出面向 AI 时代的新型企业基础设施

    3 月 18 日 —— NVIDIA 今日推出了 NVIDIA AI 数据平台 —— 一项可自定义的参考设计,领先的存储提供商可用来构建全新的 AI 基础设施,以满足
    发表于 03-19 10:11 414次阅读
    <b class='flag-5'>NVIDIA</b> 与行业领先的存储<b class='flag-5'>企业</b>共同推出面向 <b class='flag-5'>AI</b> 时代的新型<b class='flag-5'>企业</b>基础设施

    NVIDIA 推出开放推理 AI 模型系列,助力开发者和企业构建代理式 AI 平台

    月 18 日 ——  NVIDIA 今日发布具有推理功能的开源 Llama Nemotron 模型系列,旨在为开发者和企业提供业务就绪型基础,助力构建能够独立工作或以团队形式完成复杂任务的高级
    发表于 03-19 09:31 336次阅读
    <b class='flag-5'>NVIDIA</b> 推出开放推理 <b class='flag-5'>AI</b> 模型系列,助力开发者和<b class='flag-5'>企业</b>构建代理式 <b class='flag-5'>AI</b> 平台

    NVIDIA 发布保障代理式 AI 应用安全的 NIM 微服务

    的“知识机器人”,提升全球数十亿知识工作者的生产力。为了开发 AI 智能体,企业需要解决信任、物理安全、网络安全以及合规性等关键问题。 全新 NVIDIA NIM
    发表于 01-17 16:29 282次阅读

    Orange Business推出Live Intelligence:简化企业级生成式AI部署

    Business在AI技术应用方面迈出了重要的一步。 Live Intelligence是Orange Business针对法国及欧洲市场,专为各种规模的企业量身定制的综合性生成式AI解决方案。它不仅
    的头像 发表于 12-27 13:55 1112次阅读