0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA SuperNIC推进现代AI基础设施发展

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-11-06 13:59 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在生成式 AI 时代,加速网络对于为大规模分布式 AI 工作负载构建高性能计算平台至关重要。NVIDIA 在加速网络领域继续保持领先地位,提供先进的以太网和 InfiniBand 解决方案,可最大限度地提高 AI 工厂和云数据中心的性能和效率。

这些解决方案的核心是NVIDIA SuperNIC,一种专为超大规模 AI 工作负载而优化的新型网络加速器。这些 SuperNIC 是NVIDIA Spectrum-X 以太网和Quantum-X800 InfiniBand 网络平台的关键组件,旨在提供前所未有的可扩展性和性能。

ConnectX-8 SuperNIC 是 NVIDIA SuperNIC 产品系列中的新成员,与 BlueField-3 SuperNIC 一起,共同推动加速的大规模 AI 计算网络的新一轮创新浪潮。ConnectX-8 SuperNIC 的总数据吞吐量为 800 Gb/s,可为万亿级参数的 AI 模型提供所需的速度、网络健壮性和可扩展性,并与 NVIDIA 交换机无缝集成,以实现最佳性能。

本文将探讨 NVIDIA SuperNIC 的独特属性及其在推进现代 AI 基础设施发展方面的关键作用。

RoCE 对于 AI 工作负载的重要性

对于 AI 模型训练来说,在数据中心内的 GPU 之间高速传输庞大的数据集是 AI 方案缩短训练时间和加快上市时间的关键。

NVIDIA SuperNIC 具备了出色的硬件 RoCE 加速功能,可实现高达 800 Gb/s 的 GPUDirect RDMA 通信速度,解决了旁路 CPU 在 GPU 之间实现直接数据传输面临的挑战。

这种直接通信的方法可最大限度地减少 CPU 开销并降低延迟,在 GPU 显存之间实现更快、更高效的数据传输。在实际应用中,此功能可实现更高的并行度,在 AI 工作负载多节点扩展时,不会出现传统的基于 CPU 的数据传输常见的的通信瓶颈。

通过 Spectrum-X RoCE 动态路由

提升 AI 性能

NVIDIA SuperNIC 的直接数据放置(DDP)功能是 Spectrum-X 平台提升 AI 网络性能的关键之一。

随着生成式 AI 工作负载扩展到了数千个节点以上,以等价多路径(ECMP)为代表的传统 IP 路由协议再难以处理 AI 模型生成的大规模、持续的数据流(俗称大象流)。这些流可能会使网络资源不堪重负,并导致拥塞,从而降低整体网络性能。

Spectrum-X RoCE 动态路由可以在可用的网络路径中动态调整流量的分配,确保需要高带宽的流以最佳方式路由,以防止网络拥塞。该方法利用 NVIDIA Spectrum-4 以太网交换机可在多个路径上均匀分发数据包的负载均衡功能,避免了传统静态路由机制造成的瓶颈。

然而,使用这样的数据包分发的方式,可能会导致数据包乱序问题的出现。

NVIDIA SuperNIC 通过在数据包到达接收端时将其直接按序放入缓冲区来解决了这一问题,确保了应用能收到正确顺序的数据。这种 NVIDIA 交换机和 SuperNIC 之间的紧密合作,实现了高效、高速的 AI 工作负载通信,确保大规模 AI 模型能够持续地处理数据,而不会中断或降低性能。

解决 AI 网络的拥塞问题

由于 AI 工作负载的突发性,因此极易受到网络拥塞的影响。AI 模型训练(尤其是通过集合通信在多个 GPU 之间进行同步和共享数据时)会产生频繁且短暂流量峰值,这需要先进的拥塞管理机制来保持网络的性能。传统的拥塞控制方法(例如基于 TCP 的流量控制)无法处理这种 AI 独特的流量模型。

为了解决这一问题,Spectrum-X 采用了基于 Spectrum-4 交换机的实时遥测功能的先进拥塞控制机制,使得 SuperNIC 能够根据当前的网络利用率主动地调整数据发送的速率,防止拥塞,避免问题的发生。

通过使用带内高频遥测数据,SuperNIC 可以以微秒级精度作出反应,确保即使在高流量条件下也能优化网络带宽并尽可能降低延迟。

使用增强的可编程 I/O 加速 AI 网络

随着 AI 工作负载日益复杂,网络基础设施不仅必须在速度上不断发展,还需要在适应性方面进步,以支持数千个节点之间的各种通信模式。

NVIDIA SuperNIC 处于这项创新的前沿,提供增强的可编程 I/O 功能,这些功能对于现代 AI 数据中心环境至关重要。这些 SuperNIC 具有加速数据包处理管线,能够以线速运行,吞吐量高达 800 Gb/s。

通过将数据包处理任务从 CPU 卸载到 SuperNIC,此管道可显著降低网络延迟并提高整体系统效率。管道的可编程性由 NVIDIA DOCA 软件框架提供支持,为网络专业人员提供了大规模构建和优化网络的灵活性。

NVIDIA SuperNIC 采用数据路径加速器(DPA),可增强可编程性。DPA 是一种高度并行的 I/O 处理器,配备 16 个超线程核心,专为处理 I/O 密集型工作负载而设计。它可以通过 DOCA 针对设备仿真、拥塞控制和流量管理等各种低代码应用程序轻松进行编程。这种可编程性使组织能够根据其 AI 工作负载的特定需求定制网络基础设施,确保数据在保持峰值性能的同时跨网络高效流动。

保护 AI 网络连接

保护 AI 模型对于保护敏感数据和知识产权免遭潜在的漏洞和对抗性攻击至关重要。当您的组织构建 AI 工厂和云数据中心时,您需要有效的安全解决方案来解决可能损害模型性能和可信度的漏洞,最终保护竞争优势和用户隐私。

传统的网络加密方法通常难以扩展到 100 Gb/s 以上,从而使关键数据处于危险之中。相比之下,NVIDIA SuperNIC 可提供加速网络和在线加密加速,速度高达 800 Gb/s,确保数据在传输过程中保持加密状态,同时实现峰值 AI 性能。

NVIDIA SuperNIC 为 IPsec、TLS 和可扩展的 PSP 加密操作提供硬件加速支持,为保护人工智能网络环境提供成熟的解决方案。

PSP 由 Google 开发,并为开源社区做出了贡献。PSP 从一开始就采用无状态设计,非常适合支持超大规模数据中心环境的需求。该架构允许独立处理每个请求,从而增强在分布式系统中管理加密操作的可扩展性和弹性。

结束语

在生成式 AI 的动态格局中,NVIDIA SuperNIC 作为 NVIDIA Spectrum-X 和 Quantum-X800 网络平台不可或缺的一部分,为网络的变革时代奠定了基础。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109110
  • 网络
    +关注

    关注

    14

    文章

    8135

    浏览量

    93108
  • AI
    AI
    +关注

    关注

    89

    文章

    38170

    浏览量

    296865

原文标题:NVIDIA SuperNIC 驱动新一代 AI 网络发展

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA推出全新BlueField-4 DPU

    全新 NVIDIA BlueField DPU 具有 800Gb/s 的吞吐量,其集成的 NVIDIA ConnectX-9 SuperNICNVIDIA DOCA 微服务为
    的头像 发表于 11-03 14:48 603次阅读

    NVIDIA携手OpenAI构建AI基础设施

    NVIDIA 首席执行官黄仁勋、OpenAI 首席执行官 Sam Altman 和 OpenAI 总裁 Greg Brockman 宣布了一项新的合作伙伴关系,旨在推动 OpenAI 的发展,并支持几乎所有行业和用户大规模使用 AI
    的头像 发表于 09-23 14:38 682次阅读

    NVIDIA通过全新 Omniverse库、Cosmos物理AI模型及AI计算基础设施,为机器人领域开启新篇章

    NVIDIA 通过全新 Omniverse 库、Cosmos 物理 AI 模型及 AI 计算基础设施,为机器人领域开启新篇章   · 全新 NVID
    的头像 发表于 08-12 11:29 1368次阅读
    <b class='flag-5'>NVIDIA</b>通过全新 Omniverse库、Cosmos物理<b class='flag-5'>AI</b>模型及<b class='flag-5'>AI</b>计算<b class='flag-5'>基础设施</b>,为机器人领域开启新篇章

    NVIDIA DOCA 3.0版本的亮点解析

    NVIDIA DOCA 框架已发展成为新一代 AI 基础设施的重要组成部分。从初始版本到备受期待的 NVIDIA DOCA 3.0 发布,每
    的头像 发表于 07-04 14:27 965次阅读
    <b class='flag-5'>NVIDIA</b> DOCA 3.0版本的亮点解析

    Arm如何助力AI基础设施变革

    众所周知,人工智能 (AI) 有望革新人类活动的方方面面。然而,要充分释放这一潜力,就必须面对一个基本事实:支撑传统计算的基础设施已无法满足未来 AI 发展的需求。
    的头像 发表于 07-03 14:29 773次阅读

    NVIDIA技术助力企业创建主权AI智能体

    AI Factory 的经验证设计将加速基础设施与软件(包括全新 NVIDIA NIM 微服务和经扩展的 NVIDIA Blueprint)相结合,为各国和企业简化了全栈式
    的头像 发表于 06-16 14:28 1096次阅读

    欧洲联手NVIDIA打造AI基础设施

    NVIDIA 于近日宣布,其正在携手欧洲各国、科技和行业领导者,共同建造 NVIDIA Blackwell AI 基础设施,以强化数字主权、支撑经济增长,并推动欧洲大陆成为
    的头像 发表于 06-16 14:25 1114次阅读

    NVIDIA英伟达 GTC 巴黎亮点:NVIDIA CEO黄仁勋公布欧洲AI发展新蓝图

    联合举办的 GTC 巴黎上,NVIDIA 创始人兼 CEO 黄仁勋传递出一个明确信息:欧洲不仅采用 AI,还正在建设 AI。 黄仁勋在面向线上以及巴黎体育宫现场观众发表演讲时表示:“我们现在拥有一个全新的行业,即
    的头像 发表于 06-13 11:44 990次阅读
    <b class='flag-5'>NVIDIA</b>英伟达 GTC 巴黎亮点:<b class='flag-5'>NVIDIA</b> CEO黄仁勋公布欧洲<b class='flag-5'>AI</b><b class='flag-5'>发展</b>新蓝图

    维谛加速推进人工智能基础设施演进,助力NVIDIA 800 VDC 电源架构发布

    :VRT)今日宣布与NVIDIA在人工智能发展路线图方面达成高度战略协同。NVIDIA发布全新规划,旨在为下一代AI数据中心部署800VDC电源基础
    的头像 发表于 05-22 14:18 836次阅读
    维谛加速<b class='flag-5'>推进</b>人工智能<b class='flag-5'>基础设施</b>演进,助力<b class='flag-5'>NVIDIA</b> 800 VDC 电源架构发布

    NVIDIA CEO黄仁勋展望AI基础设施产业

    NVIDIA CEO 黄仁勋在 COMPUTEX 的主题演讲中,描绘了 AI 未来的宏伟愿景,同时展示了新平台与新合作。
    的头像 发表于 05-22 10:11 673次阅读

    PoE交换机如何助力智慧城市基础设施建设?

    随着全球城市化的加速发展,智慧城市的概念正逐步成为现实。通过技术手段提升居民生活质量、优化城市运营并促进可持续发展已成为趋势。弹性且高效的网络是智慧城市基础设施的关键支撑,而以太网供电(PoE
    发表于 03-25 10:20

    英伟达GTC2025亮点:NVIDIA与行业领先存储企业共同推出面向AI时代的新型企业基础设施

    的参考设计,领先的存储提供商可用来构建全新的 AI 基础设施,以满足 AI 推理工作负载的严苛要求:即企业存储平台,搭载由 NVIDIA 加速计算、网络和软件驱动的
    的头像 发表于 03-21 09:42 1067次阅读

    NVIDIA 与行业领先的存储企业共同推出面向 AI 时代的新型企业基础设施

    存储提供商构建搭载 AI 查询智能体的基础设施,利用 NVIDIA 计算、网络和软件,针对复杂查询进行推理并快速生成准确响应   美国加利福尼亚州圣何塞 —— GTC —— 太平洋时间 2025 年
    发表于 03-19 10:11 414次阅读
    <b class='flag-5'>NVIDIA</b> 与行业领先的存储企业共同推出面向 <b class='flag-5'>AI</b> 时代的新型企业<b class='flag-5'>基础设施</b>

    单对以太网技术助力现代通信基础设施发展

    单对以太网(SPE)技术为现代通信基础设施带来了真正的附加价值。Phoenix Contact凭借在SPE领域的全面产品组合,提供技术解决方案和跨行业专业知识。
    的头像 发表于 02-26 14:19 950次阅读

    DXC实现全球IT基础设施现代

    -Skanska选择DXC实现全球IT基础设施现代化 弗吉尼亚州阿什布恩2025年2月26日 /美通社/ -- 全球领先的《财富》世界500强技术服务提供商DXC Technology
    的头像 发表于 02-26 11:41 538次阅读
    DXC实现全球IT<b class='flag-5'>基础设施</b><b class='flag-5'>现代</b>化