0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

美光科技助力高性能计算新前沿

Micron美光科技 来源:Micron美光科技 2026-04-13 16:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

将圆周率 (π) 计算至小数点后 314 万亿位究竟需要什么?

StorageReview 成功将圆周率 (π) 计算至小数点后 314 万亿位,刷新世界纪录,但其目标绝非仅仅为了开创记录。这是一项有意设计的极端工作负载,旨在对现代服务器的存储系统进行极限压力测试,并回答一个很现实的问题:单个系统是否能持续数月不间断进行 PB 字节级别的 I/O 操作?

在一台 DellPowerEdgeR7725 服务器上连续计算了 110 多天后,该实验为上述问题给出了肯定的答案——前提是存储架构必须能够提供持续的性能和一致性,而不仅仅是短时间的峰值性能。

测试概览

I/O 马拉松:持续三个多月的高强度混合读/写压力

单台服务器配备超过 2.1 PB 的可用闪存容量

适用于长时间运行的高性能计算 (HPC) 和 AI 作业的关键要点:只有一致性才能确保长期运行后得出结果

为了构建所需的存储架构,StorageReview 搭建了一套包含40 块美光 6550 ION SSD的存储系统,每一块 SSD 均为 E3.S 外形规格,可用容量为 60TB。理解该大规模存储系统(无论是 SSD 数量还是总容量)背后的“原因”,对于理解该纪录在现实当中的意义至关重要。

为何该任务需要超过 2 PB 的闪存容量?

要计算位数如此之长的圆周率,重点不在于存储最终结果。与计算过程所需的中间数据相比,最终结果本身所需的存储空间相当小。

由于最后得出的圆周率高达 314 万亿位,该测试所用的应用程序 y-cruncher 需要巨大的暂存空间,以便:

存放用于 FFT 密集型数学运算的大型临时数组

频繁进行全面状态检查,以确保持续数周的工作不会前功尽弃

存放验证数据,确保在长达数月的运行过程中数据准确一致

存放计算过程中使用的多精度中间值

为满足这些要求,StorageReview 在系统中配置了超过 2.1 PB 的可用闪存容量。

40 块美光 SSD 中的 34 块被分配给 y-cruncher,作为暂存空间,形成高带宽工作层

剩余的 6 块SSD 配置为 RAID10 系统,用于存储最终计算结果

峰值时,该工作负载需要多达 1.43 PiB 的存储空间,单个检查点占用的存储空间高达数百 TB。该容量并非过度配置;而是为了安全、高效地完成计算所必需的容量。

圆周率计算的特点:持续的 I/O 操作

该测试并非一次旨在展示峰值性能的短时间基准测试。圆周率计算任务对存储系统持续施加压力,长达三个多月,期间完全没有停机或恢复的机会。

该工作负载呈现出先进高性能计算和 AI 环境所共有的特征:

持续高带宽读写操作

长时间持续高强度写入操作

要求性能可预测,对突然出现的大量延迟容忍度极低

操作风险——存储故障可能导致数周的工作成果付诸东流

在整个运行期间,该系统始终保持在线状态,从未因任何故障而需要恢复运行。

这一点至关重要,因为许多生产工作负载的失败并非源于峰值性能不足,而是源于系统随时间推移而产生的不稳定或不一致。长时间运行的作业会放大存储堆栈中的微小问题。

单服务器架构中的高密度 NVMe

长期以来,具有上述特征的工作负载通常会促使团队采用分布式存储系统或多节点集群,以获得足够的容量和聚合 I/O。

然而,StorageReview 仅使用单台服务器机箱就完成了全部计算。

通过在一台 DellPowerEdgeR7725 服务器中部署 40 块大容量 NVMe SSD,该系统实现了:

无需外部存储阵列即可拥有 PB 级容量

总带宽足以支撑长达数月的计算

一种简化的运行模型,组件和故障域更少

2ba38a9a-348a-11f1-90a1-92fbcf53809c.png

这里的关键不在于每个工作负载都需要在一台服务器上配备数十个硬盘。相反,该测试凸显了现代高密度 NVMe 存储如何改变人们在系统架构上的权衡取舍。某些情况下,过去需要采用横向扩展方案来处理的工作负载,现在可以通过纵向扩展方案来解决。

与现代 HPC 和 AI 工作负载的相关性

尽管该工作负载较为特殊,但在运行过程中观察到的存储行为与某些实际生产环境中的需求高度吻合,这些环境包括:

大规模 AI 训练:经常需要生成 TB 级别的检查点数据,且存储性能会直接影响训练时间

推理管道和特征存储库:可预测的延迟比峰值吞吐量更为重要

科学模拟与建模:任务可能运行数周或数月,重启成本高昂

高级分析管道:大型工作数据集必须靠近计算所在位置

在上述每种情况下,存储的一致性以及随时间推移的耐久性都会直接影响任务的完成、系统利用率以及操作风险。

该记录中的关键技术要点

该测试的目的不仅仅是为了创造一个数学上的里程碑。它展示了当今以存储为中心的计算所涉及的若干现实情况:

PB 级暂存工作负载可完全在 NVMe 上运行

大容量 SSD 能承受极端 I/O 压力,不会出现性能骤降

如今的单节点架构能够处理以往仅能由集群处理的工作负载

性能的一致性和耐久性与原始带宽同样重要

这些结论表明,存储系统日益重要,决定着先进计算工作负载的可行性和效率。

对数据中心战略与基础设施规划的影响

该测试不仅达成了一个技术里程碑,更凸显了存储技术如何日益深刻地影响着现代数据中心的运营成效和架构选择。

对企业和 IT 部门领导者而言,最重要的关注点并非峰值吞吐量,而是大规模运行时可预测的性能。长期运行的工作负载,无论是 AI 训练、大规模分析还是科学计算,都会放大效率低下问题和故障所造成的后果。当存储成为瓶颈时,昂贵的计算资源便会闲置,成本随之攀升,并导致交付延宕。

该测试表明,大容量 NVMe 能够在较长时间内持续为计算提供数据,可消除存储瓶颈,减少意外情况,降低运营风险。

规划基础设施升级时的考虑因素

当团队在规划针对 AI 及其他数据密集型工作负载的升级时,以下几项评估标准变得越来越重要:

持续的吞吐量而非突发性能
短时间的基准测试很难代表实际工作负载。在混合读写负载下持续数月的一致性,比在几分钟内达到的峰值数据更为重要。

每台服务器的性能密度
将 PB 级容量和 I/O 整合到单一系统中的能力,对功耗、空间、网络以及管理开销都会产生影响。

延迟可预测性与尾部行为
平均性能并不能全面反映运行情况。异常的延迟可能会导致流程停滞、检查点推迟,进而导致任务失败。

在稳定负载下的耐久性和可靠性
长时间运行的任务会暴露出在短时间测试中无法发现的问题。随着利用率趋于稳定,存储系统必须始终保持足够高的性能和数据完整性。

简化运营
减少对外部存储架构或大型集群的依赖,可缩小故障的影响范围,并简化部署和扩展。

根据数据中心战略选择存储方案

从该测试中,我们可以获得的一个更广泛的启示是:现代 NVMe 存储让我们能够重新思考如何降低复杂性。在某些场景下,通过在更少的节点上采用更高的存储密度来实现纵向扩展,可以消除横向扩展的需求。这有助于实现:

更少的服务器和互连设备

单位工作量的功耗和散热需求更低

简化的自动化与生命周期管理

更快的部署和恢复时间

这并非意味着不再需要分布式架构,只是为基础设施团队提供了更多切实可行的设计方案。

随着 AI 和分析工作负载的规模不断扩大,持续时间不断加长,存储相关决策将产生越来越大的影响,受影响的方面不仅包括性能,还包括成本效益、韧性以及组织响应速度。

总结

314 万亿位圆周率的计算容不得丝毫差错。该系统在持续负载之下连续运行了 110 多天,按照常理,应该能暴露出其在性能、耐久性或可靠性方面的问题。

然而,没有出现任何问题。

相反,测试结果表明,美光大容量 NVMe SSD 能够提供可持续的性能、运行稳定性和性能密度,其表现足以显著影响基础设施的设计选择。

本文探讨的主题并非圆周率,而是:当存储系统专为支持超大规模、长期运行的数据密集型工作负载而设计时,能够实现哪些可能,且不会出现任何问题。

本文作者

Mike Serrano

数据中心营销策略和内容负责人

Prasidha Prabhu

产品市场营销高级经理

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储
    +关注

    关注

    13

    文章

    4879

    浏览量

    90251
  • SSD
    SSD
    +关注

    关注

    21

    文章

    3147

    浏览量

    122588
  • 美光科技
    +关注

    关注

    1

    文章

    228

    浏览量

    24503

原文标题:美光®助力高性能计算新前沿

文章出处:【微信号:gh_195c6bf0b140,微信公众号:Micron美光科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    高性能计算需求激增,海主板在其中扮演什么角色?

    当AI大模型训练、基因测序、气候模拟等前沿领域进入算力攻坚期,高性能计算已从“科研利器”升级为数字经济的核心生产力,需求呈指数级激增。
    的头像 发表于 04-10 14:07 123次阅读
    <b class='flag-5'>高性能</b><b class='flag-5'>计算</b>需求激增,海<b class='flag-5'>光</b>主板在其中扮演什么角色?

    计算入门指南:发展、原理与应用

    去年,曦智科技正式将计算模拟器 LTSimulator 部署上云,并同步推出了计算开发者社区。   以此为起点,我们很高兴在“曦智研究院”的全新栏目中,持续分享
    的头像 发表于 02-12 14:17 850次阅读
    <b class='flag-5'>光</b><b class='flag-5'>计算</b>入门指南:发展、原理与应用

    科技揭示端侧AI未来发展的五大关键

    和 NPU 等计算单元至关重要,但 AI 工作负载往往在计算资源耗尽之前就会遭遇内存墙。我们的业界前沿内存和存储解决方案专为满足这些严苛的端侧数据需求而设计,可保障性能、效率与可靠性
    的头像 发表于 01-30 15:36 705次阅读

    科技全新3610 NVMe SSD重磅发布

    科技股份有限公司(纳斯达克股票代码:MU)今日宣布推出 3610 NVMe SSD,这是业界首款面向客户端计算的 PCIe 5.0
    的头像 发表于 01-08 17:20 2131次阅读

    科技与联想车计算引领车载存储新篇章

    解决方案,联想的强大异构计算能力结合的先进存储技术,双方在彼此优势上深化协作,共同应对汽车产业升级带来的技术挑战。
    的头像 发表于 09-28 16:45 4901次阅读

    【产品介绍】Altair HPCWorks高性能计算管理平台(HPC平台)

    AltairHPCWorksAltair高性能计算平台最大限度地利用复杂的计算资源,并简化计算密集型任务的工作流程管理,包括人工智能、建模和仿真,以及可视化应用。强大的
    的头像 发表于 09-18 17:56 970次阅读
    【产品介绍】Altair HPCWorks<b class='flag-5'>高性能</b><b class='flag-5'>计算</b>管理平台(HPC平台)

    科技荣获2025年度大学生喜爱的雇主品牌

    与顶尖高校紧密合作、赋能青年人才成长的生动注脚。从清华学子的前沿探访到西安交大的深度实践,正以实际行动践行着对人才培养的承诺。
    的头像 发表于 08-14 10:08 1235次阅读

    睿海光电800G模块助力全球AI基建升级

    ,覆盖数据中心、智算中心、云计算等核心领域。 一、技术实力:引领800G模块架构革新,深度布局单模光纤PSM8技术 在800G短距传输方案中,传统多模光纤因传输距离受限(不足100m),已被主流厂商
    发表于 08-13 19:05

    高性能计算集群在AI领域的应用前景

    随着人工智能技术的飞速发展,高性能计算集群(HPC)在AI领域的应用前景日益受到关注。HPC提供的计算能力与AI的智能分析能力相结合,为解决复杂问题和推动科学研究提供了新的动力。1、HPC与AI
    的头像 发表于 06-23 13:07 1414次阅读
    <b class='flag-5'>高性能</b><b class='flag-5'>计算</b>集群在AI领域的应用前景

    使用树莓派构建 Slurm 高性能计算集群:分步指南!

    在这篇文章中,我将分享我尝试使用树莓派构建Slurm高性能计算集群的经历。一段时间前,我开始使用这个集群作为测试平台,来创建一个更大的、支持GPU计算高性能
    的头像 发表于 06-17 16:27 1939次阅读
    使用树莓派构建 Slurm <b class='flag-5'>高性能</b><b class='flag-5'>计算</b>集群:分步指南!

    安森美PowerTrench MOSFET助力伏逆变器设计

    随着全球对可再生能源需求的快速增长,伏系统的效率与可靠性成为行业关注的焦点。安森美(onsemi)提供多种MOSFET方案,助力伏逆变器厂商实现更高性能、更紧凑的系统设计。
    的头像 发表于 05-30 10:30 1087次阅读

    为 Motorola 最新款 Razr 60 Ultra 注入 AI 创新动能

    强大的翻盖手机 Motorola Razr 60 Ultra 采用高性能、高能效的 LPDDR5X 内存以及先进的 UFS 4.0 解决方案。该款智能手机搭载 Motorola 基于大型语言模型的 AI
    发表于 05-27 15:01 1107次阅读

    科技推出两款全新高性能固态硬盘

    在近日开幕的2025台北国际电脑展(Computex 2025)上,科技股份有限公司(纳斯达克股票代码:MU)宣布推出两款全新的高性能固态硬盘(SSD)——Crucial英睿达T710 PCIe
    的头像 发表于 05-27 14:18 1583次阅读

    高性能计算面临的芯片挑战

    解决的难题或大型问题。过去40年来,这项技术助力科学和工程领域取得了重大发现。如今,高性能计算正处于一个转折点,政府、研究人员和科技行业今天的选择可能会影响
    的头像 发表于 05-27 11:08 1217次阅读
    <b class='flag-5'>高性能</b><b class='flag-5'>计算</b>面临的芯片挑战

    中科曙光助力中国商飞高性能计算平台落地

    近日,中国商飞上海航空工业(集团)有限公司(以下简称“上航公司”)国产高性能计算平台建成落地。该平台由中科曙光依托“超智融合”技术打造,并融合仿真计算、数据分析与模拟训练能力,以自主可控技术为支撑,为国产大飞机研发注入强劲算力动
    的头像 发表于 05-13 18:01 1147次阅读