0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Spectrum-X助力IBM为AI Cloud提供高性能底座

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-05-08 09:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在混合云与 AI 的时代,企业和组织需要创建、分析和保存海量的数据,在分布式的应用环境中会形成各种各样的数据孤岛,导致复杂系统难以管理,成本不断增加。为了能够更快速地从数据中获得所需的洞察力,其底层的信息架构必须支持混合云、大数据和人工智能(AI)工作负载以及传统应用,同时确保安全性、可靠性、数据效率和高性能,还需要能够无缝扩展来应对非结构化数据的飞速增长。

IBM Storage Scale 作为一种高性能的并行数据存储解决方案,可以帮助用户更快速地获得所需的计算或分析结果,管理快速扩展的数据和基础架构,同时确保数据安全性并降低总体存储成本。

36e6907c-0c74-11ef-a297-92fbcf53809c.png

图1:AI 与混合云对数据存储的需求

面对生成式 AI 的爆炸式发展,GPU 集群的运算性能至关重要,不仅需要更高的 GPU 的计算能力和更快的存储,同时需要专用的网络基础设施来确保多个节点并行的最佳性能。NVIDIA 开发了业界首款面向 AI 的以太网网络平台 - Spectrum-X ,旨在增强 AI 云的性能和效率。Spectrum-X 平台的核心是 NVIDIA Spectrum-4 以太网交换机NVIDIA BlueField-3 SuperNIC/DPUNVIDIA DOCA 软件栈及交换机软件栈NVIDIA LinkX 高品质互连设备,这种组合构成了 AI 加速计算网络架构的基础。NVIDIA 将 BlueField-3 SuperNIC 和 DPU 集成到其面向 AI 训练、推荐及推理等各种系统中,不仅满足以太网在多租户云上的各种需求,同时保证了 AI 集群最好的运算及存储性能。

3704076a-0c74-11ef-a297-92fbcf53809c.png

图2:NVIDIA Spectrum-X 平台介绍

在 AI 云存储平台的选择上,IBM Storage Scale 可提供经过验证的企业级数据平台。IBM Storage Scale 源自 GPFS,有超过 30 年的研发历史,在全球有大量成功部署的经验,广泛应用在业界超大规模和需求严苛的应用环境,包括过去几十年间全球性能最强的人工智能和高性能计算环境。

为了满足不同类型应用的数据访问需求,IBM Storage Scale 能够将文件、大数据分析、对象和容器应用的接口集成到一个统一的向外扩展的存储解决方案之中。它可为所有这些数据提供一个统一的命名空间,实现协议互通,并通过直观的图形用户界面(GUI)提供单点管理。通过对最终用户透明的存储策略,可对数据进行分层、压缩或迁移到磁带或云端,以降低成本;数据还可以分层到高性能数据存储介质,包括服务器缓存,进而降低延迟、提升性能。远程站点的智能数据缓存可确保借助活动文件管理(AFM)功能以本地读/写性能在地域分散的各个站点之间提供数据,不需要复制全部数据,减少数据传递的网络开销。

3723cd2a-0c74-11ef-a297-92fbcf53809c.png

图3:IBM Storage Scale 概览

对于 AI 集群应用来说,为了满足不断提高的算力和各种基础模型对更大参数规模的需要,也需要更高速的数据访问能力,避免因为存力不足导致的低效 I/O使得 GPU 无用武之地。由多台服务组成的 GPU 服务器集群需要数百 GBps 到数 TBps 的高速数据存储才能满足其对存力的需求;此外,为了提升 GPU 的应用效率,NVIDIA 开发了 GPUDirect Storage 技术,可以通过 RDMA 高速网络直接将数据从外部存储传输至 GPU 显存上,能有效减轻 CPU I/O 的瓶颈,提升 GPU 访问数据的带宽并大幅缩短通信延迟;此外,对于 AI 应用来说,从数据摄入到生产推理,每个环节都需要利用不同工具实现海量数据处理,并且这是一个不断重复的流程。用户需要构建的端到端的高速数据管道,简化流程并实现数据安全、高效的流动。

经过充分优化的 IBM Storage Scale System 可以充分发挥并行架构和高速网络的优势,加速各种 AI 工作负载应用,具备以下优势:

极致性能:提供业界领先的文件读写性能,目前单个 SSS 模块可提供超过 310 GB/s 的文件访问带宽和 13M IOPS,可扩展到上千个模块满足更高性能和容量的需求,同时内置的 Decluster RAID 技术可以最小化各种硬件故障对性能的影响;

认证支持:IBM Storage Scale 是 NVIDIA 官方认证支持 GPUDirect Storage 的存储技术,能够避免 GPU 的 I/O 瓶颈,帮助用户加速各种 AI 业务 和数据密集型应用,同时大幅度提升宝贵 GPU 资源的利用率;

全局访问:IBM Storage Scale 提供的全局数据平台访问能力,支持多种应用访问协议互通(如对象、容器、HDFS 等等)和不同存储环境,实现数据的整合和调度,结合其它存储设备(包括磁带)实现分层存储,降低数据总体拥有成本,提升端到端的数据处理效率;

安全弹性:提供端到端的全面数据安全弹性解决方案,包括完善的数据高可用和容灾解决方案,以及用于实现网络安全弹性的 Safeguarded Copy 和安全日志审计能力。

374743a4-0c74-11ef-a297-92fbcf53809c.png

图4:单个 IBM SSS 6000 模块性能实测结果

为了充分发挥 IBM Storage Scale 高带宽、低时延的优势,通常用户会采用支持 RDMA 的网络来进行数据访问,包括 InfiniBand 网络RoCE(RDMA over Converged Ethernet)网络。NVIDIA Spectrum-X 平台具备 NVIDIA 独有的 Adapt Routing 等专门面向 AI 的以太网网络优化技术,可以在大规模集群中充分发挥出存储系统的高带宽的性能,为客户打造高性能且稳定运行的 AI 集群提供稳定的网络基础。

以 AI 集群的数据业务流为例,数据从 GPU 显存到网络存储服务器的网络路径会经过 GPU 集群上存储平面的 Leaf 交换机到 Spine 交换机,再到 Leaf 交换机,最后连接到存储服务器;AI 存储业务是典型的大象流,传统的以太网交换机是基于流为粒度的负载分担,不难看出 GPU 集群内的 Leaf 层交换机和 Spine 交换机之间会有多条等价路径,包括 Leaf 到不同 Spine 的等价路径,也包括同一 Leaf 到 Spine 内多条链路的等价路径,但是由于写数据流 Hash key 值高度一致,导致,在 Leaf 层交换机不能将流充分的分配到不同的等价路径上,这样的技术对于目前大规模 AI 集群内的存储业务来说会影响存储数据流的传输带宽,即便存储系统本身性能强大,也会因为网络成为瓶颈而不能发挥出应有的性能;而当采用 Adapt Routing 技术之后,由于是基于数据包为粒度的转发机制,无论存储数据流的数量大小,都可以均匀的将流量转发到所有等价路径上,从而消除网络上的瓶颈,最大化的利用存储系统的性能,提升存储带宽、降低存储平面时延。这对基于以太网络构建 AI 集群极为重要。

3765c7e8-0c74-11ef-a297-92fbcf53809c.png

图5:开启 AR 和关闭 AR 的转发路径对比

为了展示 Spectrum-X 平台在存储领域内的实际效果,如下图所示,搭建一个 Demo 环境用于模拟 AI 存储应用的典型场景,采用 4 台搭载 NVIDIA BlueField-3 的服务器,两台计算节点配备 BlueField-3 DPU,两台存储节点配备 BlueField-3 SuperNIC,采用 6 台搭载 Spectrum-4 交换芯片的 SN5600 交换机组成典型的两层 Spine-Leaf 胖树网络;并且,BlueField DPU 和 SuperNIC 均为为双端口卡,每个端口连接到不同的 Leaf 交换机上,保证存储平面的高可靠,同时开启端口 Bonding,使得可以最大化利用端口性能。测试覆盖 2 打 1 和 2 打 2 两种场景,构造 RDMA 流量进行测试。

3791b7f4-0c74-11ef-a297-92fbcf53809c.png

图6:Spectrum-X 存储 AR 测试 Topo

在 2 打 1 和 2 打 2 的场景下,两个计算节点同时发送流量给一个或 2 个存储节点,模拟典型的存储写场景,对交换网络的影响。在测试过程中,分别开启 Adapt Routing 和关闭 Adapt Routing,收集接受端网络带宽,用于对比性能差异,测试如数据下图所示,可以清楚看到,开启 Adapt Routing 之后无论是 2 打 1,还是 2 打 2 场景,接受端网络带宽都已经接近物理带宽 95% 以上。在没有开启 Adapt Routing 测试用例,流量在交换机之间网络带宽利用率大幅下降,最终测试的带宽不足开启 Adapt Routing 的一半。从而可以看出,采用了 Adapt Routing 技术的 Spectrum-X 平台可以有效的解决存储网络内带宽瓶颈,充分发挥存储系统的性能,从而提升 AI 集群整体的效能。

37ae4270-0c74-11ef-a297-92fbcf53809c.png

图7:2 打 1 和 2 打 2 场景下开启 Adapt Routing

和 关闭 Adapt Routing 的带宽对比

通过和 NVIDIA 网络团队的合作,采用 IBM Storage Scale 和 NVIDIA Spectrum-X 平台实现软件定义的数据基础架构,使得搭建在 Spectrum-X 平台上 IBM 的 Storage Scale 不仅可以面向云上应用提供基于以太网存储生态的多种服务,同时也可以大幅提升存储的性能,发挥出 IBM 的 Storage Scale 高吞吐大带宽的性能优势,满足 AI 时代云上高性能存储数据的要求。解决新一代以数据为中心的基础设施所面临的挑战和技术瓶颈,为 AI 云应用提供高性能的底座,帮助客户在混合云和 AI 时代实现竞争优势。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109110
  • 以太网交换机

    关注

    0

    文章

    138

    浏览量

    14997
  • 数据存储
    +关注

    关注

    5

    文章

    1014

    浏览量

    52602
  • 人工智能
    +关注

    关注

    1813

    文章

    49749

    浏览量

    261614
  • 大数据
    +关注

    关注

    64

    文章

    9030

    浏览量

    143080

原文标题:NVIDIA Spectrum-X 助力 IBM 为 AI Cloud 提供高性能底座

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA扩大与微软合作推动AI超级工厂建设

    在 Microsoft Ignite 大会上,NVIDIA 扩大与微软的合作,包括在由 NVIDIA Blackwell 平台驱动的全新 Microsoft Fairwater AI 超级工厂中部署新一代
    的头像 发表于 12-01 09:52 443次阅读

    使用NVIDIA Nemotron RAG和Microsoft SQL Server 2025构建高性能AI应用

    搜索和调用外部 AI 模型的 SQL 原生 API。NVIDIA 与微软共同将 SQL Server 2025 与 NVIDIA Nemotron RAG 开放模型集合无缝连接,这使您能够在云端或本地环境中基于自己的数据构建
    的头像 发表于 12-01 09:31 366次阅读
    使用<b class='flag-5'>NVIDIA</b> Nemotron RAG和Microsoft SQL Server 2025构建<b class='flag-5'>高性能</b><b class='flag-5'>AI</b>应用

    NVIDIA Spectrum-X 以太网交换机助力 Meta 和 Oracle 加速网络性能

    Facebook 开放交换系统平台。 Oracle 采用 Spectrum-X 以太网交换机构建十亿瓦级(Giga-Scale)AI 超级计算机。 NVIDIA 宣布 Meta 和 Oracle 将升级
    的头像 发表于 10-14 10:26 1451次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Spectrum-X</b> 以太网交换机<b class='flag-5'>助力</b> Meta 和 Oracle 加速网络<b class='flag-5'>性能</b>

    NVIDIA在Hot Chips 2025大会展示创新技术

    本周在加利福尼亚州帕洛阿尔托(Palo Alto)举行的 Hot Chips 大会上,NVIDIA 专家详细介绍了 NVIDIA NVLink 和Spectrum-X 以太网技术、Blackwell 以及 CUDA 如何为全球数
    的头像 发表于 08-27 12:52 1635次阅读

    NVIDIA推出Spectrum-XGS以太网技术

    NVIDIA 今日宣布推出 NVIDIA Spectrum-XGS 以太网。这项跨区域扩展(scale-across)技术可将多个分布式数据中心组合成一个十亿瓦级 AI 超级工厂。
    的头像 发表于 08-27 12:51 1125次阅读

    IBM Spectrum LSF如何助力半导体企业应对AI时代的高性能芯片需求

    上万个作业,可能会瞬间挤爆计算资源。那如何把成千上万个作业有序的调度到大规模的集群中呢?这时候,就得请出 HPC(高性能计算)调度界的“大宗师”—— IBM Spectrum LSF!
    的头像 发表于 05-27 15:18 832次阅读

    NVIDIA推出AI平台DGX Cloud Lepton

    CoreWeave、Crusoe、Firmus、Foxconn、GMI Cloud、Lambda、Nebius、Nscale、SoftBank Corp. 和 Yotta Data Services DGX Cloud Le
    的头像 发表于 05-22 09:42 723次阅读

    英伟达GTC2025亮点:Oracle与NVIDIA合作助力企业加速代理式AI推理

    基础设施以及生成式 AI 服务首次实现集成,以帮助全球企业组织加速创建代理式 AI 应用。 此次 Oracle Cloud Infrastructure (OCI) 与 NVIDIA
    的头像 发表于 03-21 12:01 1187次阅读
    英伟达GTC2025亮点:Oracle与<b class='flag-5'>NVIDIA</b>合作<b class='flag-5'>助力</b>企业加速代理式<b class='flag-5'>AI</b>推理

    NVIDIA推出全新硅光网络交换机

    NVIDIA 今天推出了 NVIDIA Spectrum-XNVIDIA Quantum-X 硅光网络交换机,使
    的头像 发表于 03-20 14:52 828次阅读

    Banana Pi 发布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 计算与嵌入式开发

    RZ/V2N——近期在嵌入式世界2025上新发布, AI 计算、嵌入式系统及工自动化提供强大支持。这款全新的计算平台旨在满足开发者和企业用户对高性能、低功耗和灵活扩展的需求。 [](
    发表于 03-19 17:54

    Oracle 与 NVIDIA 合作助力企业加速代理式 AI 推理

    Oracle Cloud Infrastructure (OCI) 与 NVIDIA AI Enterprise 软件平台之间的集成,将使 160 多个 AI 工具和 100 多个
    发表于 03-19 15:24 471次阅读
    Oracle 与 <b class='flag-5'>NVIDIA</b> 合作<b class='flag-5'>助力</b>企业加速代理式 <b class='flag-5'>AI</b> 推理

    重磅发布 | 晶丰明源多相数字控制器和DrMOS,NVIDIA显卡提供高性能供电解决方案

    BPD93204,搭配晶丰明源高可靠性 DrMOS BPD80350E使用,AI服务器、显卡、笔记本电脑和高性能计算需求等应用提供了高效、灵活且可靠的电源系统管理解决方案。”   在
    发表于 02-18 15:06 1386次阅读
    重磅发布 | 晶丰明源多相数字控制器和DrMOS,<b class='flag-5'>为</b><b class='flag-5'>NVIDIA</b>显卡<b class='flag-5'>提供</b><b class='flag-5'>高性能</b>供电解决方案

    NVIDIA Spectrum-X网络平台助力提升AI存储性能

    AI 工厂依靠的不仅仅是计算网。当然,连接 GPU 的东西向网络对于 AI 应用的性能至关重要,而连接高速存储阵列的存储网也不容忽视。存储性能在运行
    的头像 发表于 02-15 11:01 1187次阅读

    NVIDIA推出面向RTX AI PC的AI基础模型

    NVIDIA 今日发布能在 NVIDIA RTX AI PC 本地运行的基础模型,数字人、内容创作、生产力和开发提供强大
    的头像 发表于 01-08 11:01 879次阅读

    鸿蒙原生页面高性能解决方案上线OpenHarmony社区 助力打造高性能原生应用

    NEXT的原生页面高性能解决方案,从页面滑动、跳转及应用冷启动等关键环节,开发者提供全面的支持。目前,这些解决方案均已上线OpenHarmony开源社区,可在OpenHarmony三方库中心仓进行搜索,欢迎开发者多多使用和共
    发表于 01-02 18:00