0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从MLPerf Storage v2.0看存储系统如何选择

戴尔企业级解决方案 来源:戴尔企业级解决方案 2025-10-28 16:49 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在当下数智化浪潮中,数据中心架构正经历深度重塑。从GPU集群到网络带宽,从电力负载到能效管理,每一项设计都在被重新定义。

近日,IT媒体《Datacenter Knowledge》发布报道指出,MLPerf基准测试正在成为全球智能基础设施评估与数据中心设计的重要依据。

为何这么说?我们一起来看

MLPerf:智算时代的共同性能语言

随着机器学习和智能应用日渐普及,如何衡量智能训练在不同硬件与软件环境下的表现,成为了数据中心设计中的核心议题。

在这一背景下,MLPerf(Machine Learning Performance)作为全球机器学习性能标准应运而生,自2018年推出以来,MLPerf Training基准测试迅速成为衡量智能训练性能的核心工具,帮助数据中心专业人士基于真实数据做出基础设施决策,从而契合不断演进的工作负载需求。

MLPerf由MLCommons.org维护,成员包括戴尔科技集团、Meta、Google、NVIDIA、Intel、Microsoft等125家企业与研究机构。其核心使命,是让智能系统的性能比较“既公平,又有意义”。

RISC芯片先驱,MLCommons负责人David Patterson指出,智能训练已成为一种“超级计算问题”,而评估的标准必须兼顾多架构、多软件栈与多场景。

因此,MLPerf Training通过统一任务、数据集与精度目标,为各类系统提供了可重复、可验证的对比基础。

正如《Datacenter Knowledge》所说:“MLPerf已不仅是性能测试工具,更成为数据中心架构师的决策指南。”

从MLPerf Storage v2.0看存储系统如何选择

在MLPerf Training成为衡量计算性能的重要参考之后,业界也开始意识到,智能训练不仅是算力的挑战,更是存储系统能力的试金石。

尤其在训练规模快速扩张的今天,如何支撑长时间、高频次、分布式的训练任务,存储系统正逐步走向台前,承担起保障训练稳定性的重要职责。但评估智能训练性能,仅关注速度已远远不够。

例如,在MLCommons发布的MLPerf Storage v1.0基准测试中,主要考察的是存储系统在智能训练中是否具备足够的吞吐能力和低延迟性能,以支撑高速智能训练,避免“算力等存力”的性能浪费。

而在最新发布的MLPerf Storage v2.0基准测试中,则聚焦于训练过程中的系统可靠性与中断恢复能力,并首次引入了“Checkpointing(检查点保存)”,模拟因硬件故障导致训练中断时,存储系统在保存与恢复训练进度中的响应速度和稳定性。

这是因为随着训练规模越大来越大,训练持续时间也越来越长,而如果没有高效的检查点机制,训练可能需要反复回滚,大量算力与能耗将被浪费,自然会阻碍企业智能训练的进程。

因此从MLPerf Storage v1.0到v2.0的变化可以看出,智能训练对存储系统的要求,已经从单纯的“快”向“稳”与“可恢复”转变。

吞吐率和延迟依然重要,但系统的持续写入能力、并发处理能力与故障恢复能力,正逐渐成为判断一套存储系统是否“能扛住训练”的关键指标。

那么问题来了,企业应如何选择能真正支撑智能训练的存储系统?

戴尔PowerScale稳住算力,撑起智算未来

在存储系统的性能、稳定性、可扩展性成为智能训练核心考量的当下,戴尔PowerScale凭借面向大规模并行任务设计的架构,已被广泛部署于智能训练与HPC环境中,尤其适配检查点密集型场景。

点击图片了解产品信息

咨询客服还可了解更多优惠活动

首先,从架构来看,PowerScale的核心是一个由OneFS软件驱动的智能架构,专用于管理分布式环境中的非结构化数据。

具体来说,包含以下三个基础层:

客户端访问层

网络文件系统的这一关键组成部分可确保从各种客户端和工作负载对非结构化数据的无缝访问。客户端访问层使用高速以太网连接并支持多种协议,例如网络文件系统(NFS)、服务器消息块(SMB)和Hadoop分布式文件系统(HDFS),简化并统一了不同工作负载的文件访问。

该层采用NVIDIA GPU Direct Storage、远程直接内存访问(RDMA)等前沿技术,为智能应用在GPU内存与存储设备之间直接数据传输提供了便利。它还通过智能负载均衡策略优化性能和可用性,同时利用多租户控制确保安全性和量身定制的服务级别。

OneFS文件呈现层

该层统一了整个集群的数据访问,让用户不再为数据的物理位置而烦恼。OneFS无缝集成了卷管理、数据保护和分层功能,简化了各类存储的大型数据卷管理。

凭借高可用性且可连续无中断运行的特点,该层助力用户轻松实现升级、扩展和迁移,为其提供一个可适配各种需求的智能、高效文件系统。

PowerScale计算和存储集群层:

作为骨干层,该层提供节点和节点间的网络元素,实现可扩展且高可用性的文件集群。从处理基础容量和计算任务的经济型小型集群,到可容纳PB级数据的大型配置,PowerScale都能在不增加任何管理负担的情况下,轻松扩展和自动平衡集群。

其次,PowerScale是业界率先通过NVIDIA DGX SuperPOD认证的企业级文件存储解决方案,这表明其拥有强大的数据吞吐和并发能力,确保GPU在训练和微调过程中始终保持“满负荷”状态,实现算力投资的最大化回报。

第三,PowerScale能够高效处理大规模顺序写入,即使在高频、高并发的检查点写入场景下,也能保持线性带宽输出,从而最大限度降低计算回滚带来的时间与成本损失。

第四,PowerScale的架构支持无中断扩展与升级。无论是增加节点以提升容量和性能,还是应用最新的软件特性,都无需中断现有训练任务,满足企业不断发展的需求。

这一特性对于NVIDIA DGX SuperPOD等持续运行的训练集群尤为关键。用户既能保持训练连续性,又能享受PowerScale技术的迭代进步。

结 语

随着MLPerf在智能计算领域的广泛应用,它不仅成为衡量训练性能的关键工具,也为数据中心架构设计提供了统一、量化的参考标准。

作为面向高并发训练场景构建的企业级文件存储系统,PowerScale凭借出色的数据吞吐、恢复能力和架构可扩展性,成为支撑新一代智能基础设施的可靠选择。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 戴尔
    +关注

    关注

    5

    文章

    688

    浏览量

    41424
  • 数据中心
    +关注

    关注

    16

    文章

    5515

    浏览量

    74649
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136233

原文标题:MLPerf 基准测试指导数据中心设计决策?

文章出处:【微信号:戴尔企业级解决方案,微信公众号:戴尔企业级解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    智子科技发布数字营销策略大模型智小虎V2.0

    11月28日,2025(第十三届)数字营销峰会暨CAAC数字营销专业委员会十周年庆典及第17届虎啸奖启动仪式在北京举行。在本次大会上,由智子科技、南京大学、虎啸奖三方联合打造的“智小虎”V2.0正式发布。
    的头像 发表于 12-05 16:54 821次阅读

    项目效率翻倍!迅为RK3568 V2.0硬件接口升级,开发流程再提速

    项目效率翻倍!迅为RK3568 V2.0硬件接口升级,开发流程再提速
    的头像 发表于 10-29 10:53 217次阅读
    项目效率翻倍!迅为RK3568 <b class='flag-5'>V2.0</b>硬件接口升级,开发流程再提速

    嵌入式入门必看!迅为RK3568 V2.0升级,新手也能轻松玩转

    嵌入式入门必看!迅为RK3568 V2.0升级,新手也能轻松玩转
    的头像 发表于 10-28 13:26 186次阅读
    嵌入式入门必看!迅为RK3568 <b class='flag-5'>V2.0</b>升级,新手也能轻松玩转

    华为推出人工智能气象预报模型V2.0版本

    华为全联接大会2025期间,在气象海洋论坛上,华为联合重庆市气象局、云辑数科发布“天资·12h”人工智能气象预报模型(V2.0),助力成渝地区气象灾害精准防御、城市安全运行与高质量发展。
    的头像 发表于 09-20 14:34 1676次阅读

    使用env v2.0执行scons --dist产生缺失依赖报错怎么解决?

    使用env v2.0版本的工具到rt-thread &gt; v5.1.0版本的bsp中使用scons指令,会出现缺失packages依赖的报错,并提示更新pkgs,但是更新也会产生
    发表于 09-11 08:28

    请问是否可以将 Nu-Link2-Me V1.0 的固件升级到 V2.0

    可与 Crossworks for ARM IDE 配合使用。 以下是我在比较两块板以找出它不起作用的原因时发现的差异。NuMaker-M433 连接了 Nu-Link2-Me V2.0
    发表于 08-18 08:09

    登顶!华为OceanStor A系列存储再登MLPerf全球性能之巅

    2025年8月5日,全球权威AI性能评测组织公布最新MLPerf® Storage v2.0基准测试结果,华为OceanStor A系列存储联合济南超级计算技术研究院(简称“JNIST
    的头像 发表于 08-07 14:02 595次阅读

    西部数据通过 MLPerfâ Storage V2 测试结果,验证其真实场景下的AI存储性能

    。西部数据(NASDAQ: WDC)近日公布其 MLPerf® Storage V2 测试结果,验证了旗下 OpenFlex™ Data24 4000 系列 NVMe-oF™ 存储平台
    发表于 08-05 18:15 674次阅读

    Ceph分布式存储系统解析

    在当今数据爆炸的时代,企业对存储系统的需求日益增长,传统的集中式存储已经无法满足大规模数据处理的要求。分布式存储系统应运而生,而Ceph作为开源分布式存储系统的佼佼者,以其高可用性、高
    的头像 发表于 07-14 11:15 713次阅读

    智嵌云V2.0获软件著作权登记,赋能行业数字化升级

    深圳智嵌物联网电子技术有限公司,自主研发的智嵌云V2.0,成功斩获国家版权局颁发的软件著作权登记证书。这一成果不仅是该公司在技术创新与知识产权保护领域的重大突破,更为相关行业的数字化转型注入了强劲动能,同时也标志着 “智嵌云” V
    的头像 发表于 06-27 15:32 442次阅读
    智嵌云<b class='flag-5'>V2.0</b>获软件著作权登记,赋能行业数字化升级

    WTS-100(V2.0 GNSS) 无线定位系统(GNSS) 彩页

    产品概述:WTS-100(V2.0 GNSS)是一款采用国产新兴窄带高并发TurMass物联网通讯技术回传信息的无线定位系统系统通过GNSS定位终端接收来自多颗卫星的信号来确定目标位置,具备定位
    发表于 01-17 10:59 0次下载

    电脑云存储系统,电脑云存储系统的教程,个人云电脑是什么以及怎么连接

    变成了亲情的纽带,跨越千里解决家人难题,让老人也能享受科技便利,不再为电脑故障烦恼。接下来和大家一起探索电脑云存储系统的教程。    电脑云存储系统的教程:    以搭建基于OwnCloud的云存储为例,先准备一台闲置电脑,安装
    的头像 发表于 12-31 13:57 723次阅读
    电脑云<b class='flag-5'>存储系统</b>,电脑云<b class='flag-5'>存储系统</b>的教程,个人云电脑是什么以及怎么连接

    IBM Storage - 支持AI应用场景的数据存储软硬件解决方案

    为了解决数据和工作负载在各地分散的现状,需要实现对存储在分布式文件和对象存储系统中的大量非结构化数据的高速访问。IBM Storage利用人工智能(AI)、机器学习(ML)和高级分析手段,对数据
    的头像 发表于 12-30 15:00 859次阅读
    IBM <b class='flag-5'>Storage</b> - 支持AI应用场景的数据<b class='flag-5'>存储</b>软硬件解决方案

    如何配置 RAID 5 存储系统

    配置 RAID 5 存储系统是一个涉及硬件和软件设置的过程。以下是配置 RAID 5 存储系统的一般步骤,以及一些注意事项。请注意,具体步骤可能会因不同的硬件和操作系统而有所不同。 1. 准备硬件
    的头像 发表于 12-27 17:02 3230次阅读

    ANSVG-G-A混合动态滤波补偿装置使用说明书 V2.0

    电子发烧友网站提供《ANSVG-G-A混合动态滤波补偿装置使用说明书 V2.0 .pdf》资料免费下载
    发表于 12-16 14:08 0次下载