0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

美光科技实现单台服务器性能高达230M IOPS

Micron美光科技 来源:Micron美光科技 2026-01-19 10:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

我们非常自豪地宣布,AI 基础设施性能达成了一项重大里程碑:通过使用 NVIDIA SCADA 编程模型、美光 9650 PCIe 6.0 SSD、Broadcom PEX90000 PCIe 6.0 交换机及 H3 平台 Falcon 6048 PCIe 6.0 服务器,我们实现了高达 2.3 亿 IOPS 的性能。

规模化加速数据访问(SCADA) 是一种安全的编程模型和技术堆栈,最早在BaM 系统架构中的 GPU 主动按需高吞吐量存储访问技术中采用。这是存储生态系统中的一项重大举措,由 NVIDIA、美光等公司携手开发,旨在定义并实现一种新的基础设施,以访问远超本地内存限制的海量数据集。SCADA 直接使用 NVMe 设备来执行加载/存储操作,防止出现内存不足错误。此外,通过将存储控制转移到受信任的 DPU 上,SCADA 可持续保持高性能,并保护共享数据免受不安全计算节点的影响。

这一成果展示了 GPU 驱动的存储编排技术、下一代互连设备及业界速度顶尖的 SSD 结合时,所迸发出的强大性能。

美光 9650:全球速度顶尖的 SSD

美光 9650 SSD的重要意义不仅在于超高的原生性能,更在于通过速度、能效及互操作性之间的平衡,赋能下一代 AI 和高性能计算工作负载。作为全球首款 PCIe 6.0 SSD(美光在 2025 年 FMS 大会上率先宣布推出支持 AI 革命的 SSD 组合),美光 9650 实现了创纪录的吞吐量和 IOPS,同时支持广泛的生态系统集成。过去两年,美光与 PCIe 6.0 领域的合作伙伴密切合作,进行了大量互操作性测试,为今年的广泛采用奠定了基础。美光 9650 采用 PCIe 6.0 架构,并针对小数据块操作进行了优化,专为 NVIDIA SCADA 等 GPU 驱动环境而构建。

NVIDIA SCADA 可提升吞吐量以大规模加速 AI 工作负载

SCADA 代表了 NVIDIA 对于 GPU 驱动存储系统操作的构想。通过在 GPU 和存储设备之间建立直接连接,SCADA 可绕过传统的 CPU 堵塞点,加速数据在 GPU 和存储设备之间的传输。SCADA 是 NVIDIA 多年研究和工程开发的成果,旨在使 GPU 能够直接编排 NVMe 事务,为小块数据操作提供前所未有的吞吐量和 IOPS。此类操作对于图神经网络(用于药物发现、社交网络、知识图谱等)等 AI 工作负载的大规模加速至关重要。

Broadcom 和 H3:业界前沿服务器平台

NVIDIA GPU 依靠 H3 Falcon 6048 PCIe 6.0 服务器实现对存储系统的编排。服务器集成了多台 Broadcom 的 PEX90000 PCIe 6.0 交换机。这些 PCIe 6.0 交换机可提供超低延迟、高带宽,以及足够的端口密度,实现了强大的可扩展性,能够满足 GPU 与 NVMe 设备之间的无缝互联需求。

这些 PCIe 6.0 交换机部署在基于 H3 平台的 Falcon 6048 服务器中,从而将加速器和存储设备整合到一个针对 PCIe 6.0 优化的单一架构中。该系统支持安装 44 块 E1.S 规格美光 9650 SSD,每块 SSD 通过一个 PCIe 6.0 x4 接口连接到系统。H3 平台支持高级遥测和诊断功能,简化了大规模 AI 架构的管理。此外,该平台还与各种 CPU、GPU、SSD(特别是美光 9650)、网卡和重定时器进行了大量互操作性测试,确保这些硬件能够可靠无忧地部署到平台上。

现场演示:2.3 亿 IOPS是如何实现的

我们在 SC25 大会上的演示,不仅是相关硬件性能的证明,更是系统架构发展中的一个里程碑。我们使用了一台基于 H3 平台打造的 Falcon 6048 服务器,配置如下:

44 块美光 9650 PCIe 6.0 SSD (E1.S,7.68TB)

3 块 NVIDIA H100 PCIe 5.0 GPU(搭载 NVL 96GB HBM3)

1 块英特尔 PCIe 5.0 CPU

3 台 Broadcom PEX90000 PCIe 6.0 系列交换机(每台 144 个通道)

03da6e88-f1bf-11f0-92de-92fbcf53809c.png

通过运行 SOL 基准测试中的 SCADA 工作负载,我们实现了高达 2.3 亿 IOPS 的 512B 随机读取性能。该基准测试旨在衡量从一组 SSD 中访问数据时,GPU 线程所能实现的随机读取性能 (IOPS)。测试数据表明,当从 1 块 SSD 逐步增加到 44 块 SSD 时,该系统具备线性扩展能力。测试证明,GPU 驱动的 I/O 与 PCIe 6.0 基础设施相结合,可实现巨大的价值。

随后我们调整了 SOL 基准测试,同时运行三个实例,随机访问 44 块 SSD,进行 256 次迭代(每个队列对的 I/O * 512),使用 8 个队列对,以获得最佳性能。

为何新架构对 AI 和高性能计算至关重要?

随着 AI 模型日益复杂,推理过程使用的数据量持续增加,存储可能会成为整个系统的瓶颈。SCADA 颠覆了传统模式,让 GPU 直接通过存储设备驱动 I/O,从而降低了延迟,并最大限度提高了带宽利用率。在 PCIe 6.0 和高性能 SSD 的支持下,这种新架构能够为向量数据库、图神经网络和大规模推理管线等工作负载提供实时访问海量数据的能力。

本文作者

Ryan Meredith数据中心工作负载工程总监

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 服务器
    +关注

    关注

    14

    文章

    10438

    浏览量

    91846
  • AI
    AI
    +关注

    关注

    91

    文章

    41964

    浏览量

    303060
  • 美光科技
    +关注

    关注

    1

    文章

    232

    浏览量

    24541

原文标题:SC25大会上的性能突破演示:单台服务器性能高达230M IOPS

文章出处:【微信号:gh_195c6bf0b140,微信公众号:Micron美光科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    东芝解锁服务器电源高效新高度

    近年来数据中心功耗持续上升,迫切需要提升服务器电源效率并降低损耗,为此东芝开发了采用适用于服务器的1kW ITTF AC-DC转换的高效服务器电源参考设计,该参考设计在
    的头像 发表于 05-16 17:35 1374次阅读
    东芝解锁<b class='flag-5'>服务器</b>电源高效新高度

    出样256GB DDR5-9200 RDIMM

    近日,科技正式宣布已开始向主要服务器生态系统合作伙伴提供其最新的256GB DDR5 RDIMM(寄存式双列直插式内存模块)样品。这款内存模块传输速率高达9200MT/s,比目前批
    的头像 发表于 05-14 11:26 986次阅读

    230M频段天线模块选购指南与应用方案解析

    随着无线通信技术的快速普及和工业物联网的蓬勃发展,工作于230MHz 频段 的天线模块因具有远距离传输、穿透力强、覆盖范围广 等优点,在行业中得到了广泛应用。本文围绕 230M 频段天线模块
    的头像 发表于 03-28 09:43 574次阅读

    服务器数据恢复】断电致UFS2文件系统损坏的虚拟机数据恢复案例

    本次需要进行数据恢复的设备为一台服务器,该服务器通过FreeNAS提供iSCSI块存储服务,并借助另外两台服务器构建虚拟化系统。
    的头像 发表于 03-10 17:36 667次阅读
    【<b class='flag-5'>服务器</b>数据恢复】断电致UFS2文件系统损坏的虚拟机数据恢复案例

    深入剖析LMG2656:650V 230mΩ GaN半桥的卓越性能与应用

    了驱动和电流感应仿真功能的650V 230mΩ GaN半桥,探讨其特性、应用场景以及设计要点。 文件下载: lmg2656.pdf 特性亮点 强大的电气性能 LMG2656集成了650V的GaN功率
    的头像 发表于 03-01 15:05 794次阅读

    服务器数据恢复】服务器“泡水”硬盘掉线,数据竟这样恢复

    北亚企安数据恢复中心的服务器数据恢复工程师和硬件工程师到现场处理故障。服务器数据恢复工程师到达现场后发现有一台机柜未开机,经过沟通得知机房天花板渗水导致这台机柜上层的两台服务器存储设备受到影响,其中一台检修后可以正常工作,但是最
    的头像 发表于 01-22 17:38 1182次阅读
    【<b class='flag-5'>服务器</b>数据恢复】<b class='flag-5'>服务器</b>“泡水”硬盘掉线,数据竟这样恢复

    伏策略控制服务器关键性能指标:入门必懂的核心参数

    伏策略控制服务器性能指标体系围绕“实时性、可靠性、适配性、处理能力、经济性”五大核心需求构建,其中最具代表性的指标可归纳为五类,它们共同构成了服务器
    的头像 发表于 01-08 11:48 745次阅读

    服务器数据恢复—硬盘离线致raid5阵列崩溃,数据恢复大揭秘

    公司的一台服务器中有一组数块硬盘组建的raid5阵列。 服务器中有一块硬盘由于未知原因离线,服务器崩溃,存储重要数据的D分区无法识别。 服务器管理员重启
    的头像 发表于 11-04 15:32 431次阅读

    公司退出中国服务器芯片市场!

    电子发烧友网综合报道, 10 月 17 日,据路透社报道, 全球第三大存储芯片制造商 科技 已正式停止向中国境内数据中心提供服务器芯片。 知情人士透露,此次断供直接关联 2023 年中国政府针对
    的头像 发表于 10-18 00:52 4854次阅读

    “小机房用大UPS浪费?”优比施这款支持梯度配置的机型适合多少台服务器

    服务器
    上海优比施电子科技有限公司
    发布于 :2025年09月30日 09:36:19

    服务器数据恢复—RAIDZ多块硬盘离线导致服务器崩溃的数据恢复案例

    服务器数据恢复环境&故障: 一台服务器有32块硬盘,采用Windows操作系统。 服务器在正常运行的时候突然变得不可用。没有异常断电、进水、异常操作、机房不稳定等外部因素。服务器
    的头像 发表于 09-18 12:29 1137次阅读
    <b class='flag-5'>服务器</b>数据恢复—RAIDZ多块硬盘离线导致<b class='flag-5'>服务器</b>崩溃的数据恢复案例

    服务器数据恢复—服务器上的卷被误删数据如何恢复?

    工作人员不慎将一台服务器上的卷误删除,服务器上有一组raid5阵列。需要恢复误删除的数据。
    的头像 发表于 08-14 11:33 1170次阅读
    <b class='flag-5'>服务器</b>数据恢复—<b class='flag-5'>服务器</b>上的卷被误删数据如何恢复?

    LMG2656 650V、230mΩ GaN 半桥,集成驱动、保护和电流检测数据手册

    该LMG2656是650V 230mΩ GaN功率FET半桥。该LMG2656通过在6mm x 8mm QFN封装中集成半桥功率FET、栅极驱动、自举FET和高侧栅极驱动电平转换,简化
    的头像 发表于 08-06 16:40 1356次阅读
    LMG2656 650V、<b class='flag-5'>230m</b>Ω GaN 半桥,集成驱动<b class='flag-5'>器</b>、保护和电流检测数据手册

    服务器数据恢复—硬盘离线导致raid上层的卷无法挂载的数据恢复案例

    服务器数据恢复环境&故障: 某公司一台服务器上有一组由24块FC硬盘组建的raid。 服务器出现故障,无法正常工作。 经过初步检测,管理员发现导致服务器故障的原因是raid中有两
    的头像 发表于 07-29 13:00 778次阅读

    K230开发板如何用Micropython把视频推流到远程RTSP服务器

    打算使用K230开发类似安防摄像头的应用,可以通过互联网远程查看开发板摄像头拍摄的视频,需要把开发板摄像头获取的视频推流到远程的RTSP服务器上,但开发文档中提供的Micropython示例是开发板
    发表于 06-20 06:49