0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

影响存储系统性能的因素

Micron美光科技 来源:Micron美光科技 2024-11-18 10:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

数据是各种现代企业的生命线,而数据存储、访问与管理策略对企业的生产力、盈利能力以及竞争力会产生显著影响。随着人工智能AI)的兴起,各行各业都在经历变革,企业不得不重新思考如何利用数据来加速创新和增长。然而,AI训练和推理对数据管理和存储提出了独特的挑战,因为它们需要处理庞大的数据,同时要求高性能、可扩展性和高可用性。

存储系统的性能各异,受多种因素影响。在这篇博客文章中,我们将探讨影响存储系统在AI领域的表现的几大因素,并重点分析所选用的基础存储介质将如何影响这些性能因素。

AI工作负载的关键属性

AI工作负载具有数据密集和计算密集的双重特性,这意味着它们需要高速、低延迟地处理大量数据。存储在支持AI工作负载高效且有效地访问、摄取、处理和存储数据方面发挥着关键作用。典型AI工作负载对存储要求产生影响的几个关键属性包括:

·数据多样性:AI工作负载需要从多个来源访问数据,数据格式包括结构化、非结构化和半结构化,同时这些数据位于不同的位置(如本地、云端或边缘设备)。存储解决方案需要确保在不同环境和平台之间实现快速且可靠的数据访问和传输。

·数据速度:AI工作负载需要实时或近实时地处理数据。存储解决方案需要确保在数据摄取、处理和分析过程中,实现高吞吐量、低延迟,以及稳定一致的性能。

·数据量:由于AI模型越来越复杂、准确性越来越高,GPU集群计算能力不断增长,其存储解决方案也需要提供灵活且可扩展的容量和性能。

·数据可靠性和可用性:AI工作负载必须确保数据的完整性、安全性以及非常高的可用性,尤其是在与大型GPU集群相连时,这些集群不能容忍数据访问发生中断,因此相应的要求也越高。

影响存储系统性能的因素

存储系统性能并非单一指标,而是多个因素的组合,取决于数据、应用程序和数据中心基础设施的特性和要求。其中包括以下几大重要因素:

·吞吐量:从存储系统到网络或主机,以及从网络或主机到存储系统的数据传输速率。提高吞吐量可以改善系统性能,方法是增加带宽以及减少数据流中的拥塞和瓶颈。吞吐量通常受网络宽带或存储介质速度的影响。

·延迟:存储系统对读写请求的响应时间。低延迟可以改善性能,方法是减少GPU空闲时间以及提高系统对用户输入的响应能力。机械设备(如HDD)的延迟本质上要远高于固态设备(SSD)。

·可扩展性:存储系统对数据量、数据速度和数据多样性的适应能力。高可扩展性是确保存储系统能够随着业务需求和目标实现增长和演进的关键。在增加系统能够存储和管理的数据量方面,面临的严苛挑战是维持性能扩展,同时不触及瓶颈或存储设备的限制。

·复原力:存储系统在遭遇故障、错误或灾难时维护数据完整性和可用性的能力。更高的可靠性可以通过降低数据损坏、丢失以及恢复的频率和影响来提高性能。

其他存储介质

在数据中心应用中,机械硬盘(HDD)和固态硬盘(SSD)是两种主要的持久存储设备。HDD是机械设备,通过旋转的磁盘盘片(表面涂有一层磁性材料)来存储数据,而SSD通过固态闪存芯片来存储数据。几十年来,HDD一直都是主导的存储设备。HDD的每位成本很低,同时具有长期断电耐用性,但是在速度和可靠性方面不及SSD。SSD具有高吞吐量、低延迟、高可靠性,以及更密集的封装选项等特点。

随着技术的不断进步和计算需求的日益增加,HDD的机械性质确实让其在性能上无法与SDD比肩。系统设计可以采用以下几种方法来提升基于HDD的存储系统的有效性能,例如将热数据和冷数据混合存放(让热数据从冷数据中借用性能),在多个HDD磁盘中并行共享数据(提高吞吐量但不降低延迟),在HDD中预留冗余容量(本质上是针对IO进行预置,而不是增加容量),以及为延迟异常的请求或操作添加SSD缓存层。从成本效益的角度来看,这些系统级解决方案的能力只能在有限的范围内扩展。实际应用需要怎样的性能水平,这些解决方案就需要进行相应扩展,才能满足性能要求。对于目前的许多AI 工作负载而言,基于HDD的系统在性能可扩展性和功率效率方面存在不足。

基于SSD的大容量存储系统可以提供一种更为简洁且可扩展性更强的解决方案,并且它们正在迅速发展,在许多以GPU为中心的大型数据中心中,已成为高性能AI数据湖的存储介质。单从驱动器层面来看,SSD(基于每位成本)的成本要高于HDD。而从系统层面整体来看,如果考虑到以下改进,则与HDD相比,使用SSD构建的系统运营成本要低一些:

·更高的吞吐量

·延迟降低100倍以上

·每PB字节所需的服务器和机架数量更少

·可靠性更高,使用寿命更长

·在给定的性能水平下,能源效率更高

未来几年,SSD的容量有望突破120TB。随着容量的增加以及SSD与HDD之间价格差距的缩小,对于需要高于平均性能或在大数据集上需要极低延迟的其他工作负载(比如视频剪辑和医疗成像诊断)来说,这些SSD将是具有吸引力的替代方案。

结论

存储性能是运行AI工作负载的系统的一个重要设计标准。该性能会影响系统性能、可扩展性、数据可用性以及整体系统成本和功率要求。因此,了解不同存储方案的特性与优势,并针对AI需求选择合适的存储解决方案至关重要。选择合适的存储解决方案,助您优化AI工作负载,实现AI目标。

本文作者

Currie Munce

美光存储部门高级技术顾问和战略专家

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    42209

    浏览量

    303209
  • 存储系统
    +关注

    关注

    2

    文章

    441

    浏览量

    41987
  • 工作负载
    +关注

    关注

    0

    文章

    17

    浏览量

    2136

原文标题:为什么存储系统的性能对AI工作负载至关重要?

文章出处:【微信号:gh_195c6bf0b140,微信公众号:Micron美光科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    高端磁带库存储系统功率MOSFET选型方案——高效、可靠与智能电源管理设计指南

    在数据存储需求爆炸式增长与数据中心绿色化转型的双重驱动下,高端磁带库存储系统作为冷热数据分层存储的核心设施,其电源与电机驱动系统的可靠性、能效及功率密度直接决定了数据中心的运营成本与数
    的头像 发表于 04-16 10:39 296次阅读
    高端磁带库<b class='flag-5'>存储系统</b>功率MOSFET选型方案——高效、可靠与智能电源管理设计指南

    高端容灾存储系统功率链路设计实战:效率、可靠性与热管理的平衡之道

    在数据中心朝着高密度、高可用与绿色节能不断演进的今天,其内部存储系统的供电与电机驱动链路已不再是简单的能量转换单元,而是直接决定了数据存取性能系统可靠性(RAS)与总体拥有成本(TCO)的核心
    的头像 发表于 04-09 09:35 196次阅读
    高端容灾<b class='flag-5'>存储系统</b>功率链路设计实战:效率、可靠性与热管理的平衡之道

    星载存储架构演进:天硕XMC固态硬盘如何实现航天存储的可控性提升

    星载存储系统的单点失效并非源于单一器件,而是数据路径在多层机制叠加下的系统性风险。本文从航天工程实践出发,结合天硕航天存储等行业路径,解析航天级SSD固态硬盘如何通过分层容错与系统协同
    的头像 发表于 03-30 15:19 497次阅读

    Linux系统性能调试工具—strace

    今天给大家分享一个linux内核自带的调试工具,该工具可用于查看和定位系统问题,进程运行过程探索,进行进程监控,对每个系统调用都可以监测,有助于我们优化系统性能
    的头像 发表于 01-30 17:03 2121次阅读
    Linux<b class='flag-5'>系统性能</b>调试工具—strace

    Linux系统性能优化与调试的思路​

    在开发过程中,对系统性能的要求越来越高,在求职的过程中很多岗位不单单是要求驱动开发或者系统开发,会解决系统性能瓶颈问题,往往是加分项,有些公司特别是大厂都会把性能优化单独划分一个岗位。
    的头像 发表于 01-30 16:58 797次阅读
    Linux<b class='flag-5'>系统性能</b>优化与调试的思路​

    深度解读Linux系统性能瓶颈定位策略

    在实际生产环境中,系统性能问题往往来得突然又难以定位。某天下午,你可能会接到告警:电商平台响应时间从平时的200ms突然飙升到2秒,用户投诉激增,运营团队焦急万分。这时候,如何快速准确地找到性能瓶颈,就成了运维工程师的核心能力。
    的头像 发表于 01-26 17:42 1096次阅读

    戴尔科技蝉联全球服务器市场与外部存储系统行业份额第一

    近日,知名研究机构IDC公布的2025年第三季度《全球服务器季度追踪报告》和《全球企业存储季度追踪报告》显示,戴尔科技集团再次双双位列榜首,蝉联全球服务器市场与外部存储系统行业份额第一。
    的头像 发表于 01-21 16:04 785次阅读
    戴尔科技蝉联全球服务器市场与外部<b class='flag-5'>存储系统</b>行业份额第一

    全球前四!京东云云海AI存储跻身IO500高性能存储榜单

    存储技术,云海AI存储不采用 PMEM 硬件,具备更强通用性的同时也实现了更低存储成本。 IO500是全球高性能计算HPC领域最权威、最具影响力的
    的头像 发表于 11-27 14:51 503次阅读
    全球前四!京东云云海AI<b class='flag-5'>存储</b>跻身IO500高<b class='flag-5'>性能</b><b class='flag-5'>存储</b>榜单

    集装箱储能系统标准解析系列(二)|IEC TS 62933-3-1电能存储系统的规划和性能评估

    IEC TS 62933-3-1电能存储(EES)系统 第3-1部分:电能存储系统的规划和性能评估
    的头像 发表于 11-25 15:30 849次阅读
    集装箱储能<b class='flag-5'>系统</b>标准解析系列(二)|IEC TS 62933-3-1电能<b class='flag-5'>存储系统</b>的规划和<b class='flag-5'>性能</b>评估

    Linux系统性能优化技巧

    经过10年一线运维经验,我发现大多数工程师只掌握了Linux优化的冰山一角。今天分享的这些秘技,能让你的系统性能提升200%以上!
    的头像 发表于 08-27 14:34 1241次阅读

    曙光存储支持西湖大学高性能计算中心部署完成全新存储系统

    近日,曙光存储支持西湖大学高性能计算中心部署完成全新存储系统,为AI研发、科学计算和信息化平台等提供存力支持。性能实测显示,该系统单节点带宽
    的头像 发表于 08-25 11:48 1567次阅读

    NAS存储系统断电风险大?UPS电源守护数据安全刻不容缓

    在数字化时代,企业数据已成为最宝贵的资产。NAS存储系统作为企业数据存储的核心设备,一旦遭遇意外断电,轻则导致数据丢失,重则造成设备损坏,给企业带来难以估量的损失。作为专业UPS电源厂家,优比施
    的头像 发表于 08-25 10:13 1271次阅读
    NAS<b class='flag-5'>存储系统</b>断电风险大?UPS电源守护数据安全刻不容缓

    Linux系统性能调优方案

    关键要点预览:本文将深入解析Linux系统性能瓶颈的根本原因,提供可直接落地的调优方案,让你的系统性能提升30-50%!
    的头像 发表于 08-06 17:49 1166次阅读

    Ceph分布式存储系统解析

    在当今数据爆炸的时代,企业对存储系统的需求日益增长,传统的集中式存储已经无法满足大规模数据处理的要求。分布式存储系统应运而生,而Ceph作为开源分布式存储系统的佼佼者,以其高可用性、高
    的头像 发表于 07-14 11:15 1353次阅读

    升降速曲线对直线电机系统性能影响的研究

    速曲线对直线电机系统性能影响的研究.pdf【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,删除内容!
    发表于 06-17 08:48