电子发烧友网 > 存储技术 > 正文

GPU存储性能怎样去获得

2020年03月18日 16:30 次阅读

支持AI人工智能和ML机器学习部署的数据中心依靠基于图形处理单元(GPU)的服务器为其计算密集型架构提供支持。到2024年,在多个行业中,GPU使用量的增长将使GPU服务器的复合年增长率超过31%。这意味着将有更多的系统架构师承担承担相应的职责,以确保GPU系统具有最高的性能和成本效益。

GPU存储性能怎样去获得

然而,为这些基于GPU的AI / ML工作负载优化存储并非易事。存储系统必须高速处理海量数据,与此同时需要注意以下两个挑战:

1)服务器利用率。GPU服务器对于训练大型AI / ML数据集所需的矩阵乘法和卷积非常高效。但是,GPU服务器的成本是典型CPU服务器的3倍。为了保持ROI,IT员工需要让GPU使用率足够饱和。但不幸的是,很多部署经验表明GPU仅有30%的使用率。

2)GPU存储瓶颈。ML训练数据集通常远远超过GPU的本地RAM容量,从而产生了一个I / O瓶颈,分析人员将其称为GPU存储瓶颈。AI和ML系统最终要等待访问存储资源,这是因为它们庞大的数据阻碍了及时访问,从而影响了性能。

为了解决这个问题,NVMe闪存固态硬盘逐渐取代了标准闪存固态硬盘,成为Al / ML存储的首选。NVMe支持大规模的IO并行性,性能约为同类SATA SSD的6倍,并且延迟降低了10倍,并且具有更高的电源效率。正如GPU推动了高性能计算的发展一样,NVMe闪存在降低延迟的同时,实现了更高的存储性能、带宽和吞吐量。NVMe闪存解决方案可以使AI和ML数据集加载到应用程序的速度更快,并且可以避免GPU匮乏。

此外,NVMe Over Fabrics可以虚拟化整个高速网络上的Nvme资源,通过NVMeoF技术可以更好的适用于AI和ML的存储架构。NVMeoF使GPU可以直接访问NVMe的弹性池,因此可以使用本地闪存性能来访问所有资源。它使AI数据科学家和HPC研究人员可以向应用程序提供更多数据,以便他们更快地获得更好的结果。

要获得最佳的GPU存储性能,就需要根据业务目标对基础架构进行微调。这里有四种方法可供考虑。

1.有效扩展GPU存储容量

例如,某存储公司为不需要运行自己的AI堆栈的组织提供了AI即服务解决方案。因此,这家公司需要最大的ROI和可扩展性。特别是对多租户的需求,这意味着为满足各种工作负载和客户端的性能要求,基础架构必须随时准备就绪。

该基础架构团队在部署其第一个GPU服务器系统的早期就了解到,本地GPU服务器的存储容量将太有限,只有4TB的本地存储,而客户的工作量则需要10到100 TB的数据。该团队研究了外部存储选项,并注意到,使用传统阵列它们将获得更多的容量,但性能最终会阻碍AI工作负载,因为应用程序需要将数据移入和移出GPU系统,从而中断工作流程并影响系统效率。

最终这家公司通过使用软件定义存储在快速的RDMA网络上合并NVMe闪存(一种将数据集加载速度提高10倍的方法),最终可以实现更高的GPU容量利用率,消除了GPU瓶颈并提高了ROI,因此现有的GPU变得更加充分利用。(注:参考lnstaDeep)

2.大规模调整性能

AI部署的快速增长和ML训练数据集的大小增加了计算基础架构的负担,STFC(The Science and Technology Facilities Council )则是这种典型的代表。尽管STFC已添加了高端GPU服务器以提供更高的计算支持,但STFC缺乏在数百个Researchers 中扩展资源所需的企业级存储功能。

通过在具有RDMA功能的高速网络(例如Infiniband或融合以太网(RoCE)v2上的RDMA)上实现NVMe-over-Fabrics协议,大型AI / ML用户组(例如STFC)可以虚拟化NVMe SSD在各种服务器上未使用的存储资源池,因此它们的性能就像在本地一样。通过这样做,可以在一个小时内完成机器学习培训任务,而以前则需要三到四天。即使具有复杂的模型训练任务,GPU存储也不再是瓶颈。

3.在并行文件系统下使用NVMe池化存储

当AI和ML应用程序涉及从许多GPU服务器访问大量小文件时,作为存储基础架构就必须部署并行分布式文件系统。并行文件系统还使存储更容易实现大多数AI / ML使用所需的高吞吐量和低延迟。在并行文件系统下具有快速、灵活的池化NVMe存储,可以改善对元数据的处理,从而实现更高的读取性能和更低的延迟,从而提高GPU服务器的利用率。

例如,一家超大型技术提供商最近推出了一种AI解决方案,用于预估保险公司使用的车辆碰撞场景。为了开发应用程序背后的AI逻辑,应用程序工作流涉及培训模型,方法是摄取多达2000万个小文件数据集,其中每个文件大小在150-700 KB之间。数据提取通常每8小时以100万个文件的速度或者每个客户端每秒最多35,000个文件进行。

通过在并行分布式文件系统下使用池化NVMe存储方法,该技术提供商消除了它遇到的存储瓶颈,并将存储性能提高了3-4倍。

4.检查特定于GPU的“高速公路”

新的数据中心架构正在以统一的方式提高服务器、网络和存储的性能。一种类似的方法于2019年秋季首次亮相,它将来自多个供应商的基础架构元素与GPU优化的网络和存储进行集成,以在GPU内存和存储之间打开直接的数据通道,从而完全绕开CPU。这使数据能够在GPU、存储和网络设备提供的“开放高速公路”上进行传输,从而实现了对NVMe企业级卓越性能的无障碍访问。

总结

AI和ML的创新步伐迅捷,这意味着当今的部署依赖及关键技术在一年前可能是不存在的,在明年也可能被新技术取代。现在精通微调GPU存储性能的IT团队已经意识到它们之前的许多新选择,可以实现最佳的系统利用率和ROI,从而为其组织带来竞争优势。

责任编辑:ct

下载发烧友APP

打造属于您的人脉电子圈

关注电子发烧友微信

有趣有料的资讯及技术干货

关注发烧友课堂

锁定最新课程活动及技术直播

电子发烧友观察

一线报道 · 深度观察 · 最新资讯
收藏 人收藏
分享:

评论

相关推荐

康佳全方位产品线规划展示,开启半导体发展战略

康佳集团全面开启半导体发展战略,于3月18日举办2020康佳存储产品线上发布会,展示了全方位的产品线....
发表于 2020-03-19 15:30 51次阅读
康佳全方位产品线规划展示,开启半导体发展战略

安培GPU发布计划或延期至Q4季度

如果没有疫情危机肆虐,再过几天我们可能就要看到NVIDIA正式宣布下一代GPU“安培”(ampere....
发表于 2020-03-19 10:42 114次阅读
安培GPU发布计划或延期至Q4季度

IDC报告显示数据从本地存储转向云端明显

近日,IDC发布了《全球企业存储系统季度跟踪报告》,报告显示,2019年第四季度全球企业外部OEM存....
发表于 2020-03-18 17:02 318次阅读
IDC报告显示数据从本地存储转向云端明显

NAND闪存价格会不会受到疫情的影响

PC和移动设备销量下降,这可能很快会成为影响因素,并释放NAND闪存。
发表于 2020-03-18 16:39 22次阅读
NAND闪存价格会不会受到疫情的影响

物联网正在如何改变农业领域

物联网驱动的农业可以帮助农民生产比传统农业更多的优质食品,以满足全球不断增长的食品需求和营养需求。
发表于 2020-03-18 15:39 20次阅读
物联网正在如何改变农业领域

Vulkan光线追踪技术,实现跨平台和跨系统

Vulkan推进组织Khronos Group今晚宣布Vulkan的光线追踪技术,这将是业界第一个跨....
发表于 2020-03-18 15:28 111次阅读
Vulkan光线追踪技术,实现跨平台和跨系统

国内存储市场增长迅速 浪潮存储市场份额居中国前列

国际数据公司(IDC)日前发布2019年第四季度中国存储市场调查数据,本季度中国外部存储市场整体销售....
发表于 2020-03-18 15:13 101次阅读
国内存储市场增长迅速 浪潮存储市场份额居中国前列

生物DNA存储技术的创新,存储技术的新境界

美国微软公司最近和华盛顿大学的研究人员在进行着关于生物存储的相关研究,希望能够通过生物的DNA来实现....
发表于 2020-03-18 10:58 16次阅读
生物DNA存储技术的创新,存储技术的新境界

对于嵌入式存储交换技术,如何提高它的可靠性

嵌入式存储交换技术还是比较常用的,于是我研究了一下如何增加嵌入式存储交换技术的可靠性,在这里拿出来和....
发表于 2020-03-17 11:18 39次阅读
对于嵌入式存储交换技术,如何提高它的可靠性

大数据时代经济学有什么创新

随着信息技术快速发展,人们获取、存储、分析数据的能力不断增强,全球数据呈现爆发式增长、海量集聚的特点....
发表于 2020-03-16 15:04 52次阅读
大数据时代经济学有什么创新

为什么物联网的潜力还没有挖掘出来

利用人工智能和其他传感器数据进行处理,有助于纠正错误和不完整的数据,从而提高物联网效用。
发表于 2020-03-16 11:49 105次阅读
为什么物联网的潜力还没有挖掘出来

2540, 2541配置参数问题

1. -DHOST_CONFIG=PERIPHERAL_CFG+CENTRAL_CFG  这个配置参数, 是否表明...
发表于 2020-03-16 10:56 76次阅读
2540, 2541配置参数问题

AI时代的存储准备充足吗

多个AI计算节点需要共享访问数据。由于AI架构需要使用到大规模的计算集群(GPU服务器),集群中的服....
发表于 2020-03-16 09:04 28次阅读
AI时代的存储准备充足吗

GF、Everspin合作良好 STT-MRAM...

GlobalFoundries、Everspin联合宣布,双方已经达成新的合作,将利用GF 12LP....
发表于 2020-03-16 08:42 39次阅读
GF、Everspin合作良好 STT-MRAM...

详解定时执行存储过程

定时执行存储过程
发表于 2020-03-16 07:11 17次阅读
详解定时执行存储过程

更智能的存储会带给自动驾驶怎样的好处

自动驾驶汽车安全性与可靠性的核心目标是防止人身伤害和财产损坏。事故在什么时候发生,由谁来承担事故责任....
发表于 2020-03-15 19:52 21次阅读
更智能的存储会带给自动驾驶怎样的好处

PowerVR GPU架构的性能优化建议

最近在看移动GPU优化的时候对TiledBased GPU有一些疑惑,特别是常说的Alpha-Ble....
发表于 2020-03-15 17:24 195次阅读
PowerVR GPU架构的性能优化建议

GPU图形渲染流水线的两个部分主要工作

该阶段的输入是 顶点数据(Vertex Data) 数据,比如以数组的形式传递 3 个 3D 坐标用....
发表于 2020-03-15 17:19 225次阅读
GPU图形渲染流水线的两个部分主要工作

操作系统的分页存储基本概念

非连续分配允许一个程序分散地装入到不相邻的内存分区中,根据分区的大小是否固定分为分页存储管理方式和分....
发表于 2020-03-15 16:36 159次阅读
操作系统的分页存储基本概念

存储服务器的出现 对存储市场产生了严重的打击

存储服务器的出现无疑是对存储市场的严重打击,抢占了大量的存储份额。在当今的it环境中,存储将被替换吗....
发表于 2020-03-14 14:58 394次阅读
存储服务器的出现 对存储市场产生了严重的打击

云数据存储服务需要注意什么问题

云数据存储服务有着各种形式、规模和成本范围。
发表于 2020-03-14 14:45 35次阅读
云数据存储服务需要注意什么问题

光学大数据存储具备怎样的优势

光存储的最显著特性就是绿色节能。存储容量一旦突破,就解决了顾敏一开始提到的能源问题。
发表于 2020-03-14 14:41 335次阅读
光学大数据存储具备怎样的优势

如何在供应链当中巧妙的应用物联网技术

物联网目前已经开始渗透到人们富有成效的工作和生活中。
发表于 2020-03-14 13:42 41次阅读
如何在供应链当中巧妙的应用物联网技术

中潜股份拟收购大唐存储超过80%的股权 将有利于...

中潜股份公布,公司于2020年3月12日与合肥高新大唐产业投资合伙企业(有限合伙)(“合肥大唐投资”....
发表于 2020-03-14 11:10 496次阅读
中潜股份拟收购大唐存储超过80%的股权 将有利于...

Windows 10 2004添加了GPU温度指...

任务管理器仍然是Windows 10中最常用的应用程序之一,它的出现是有充分的理由,因为它使用户可以....
发表于 2020-03-14 10:06 316次阅读
Windows 10 2004添加了GPU温度指...

GPU-Z发布2.30.0正式版更新 新增支持G...

TechPowerUp出品的显卡必备神软GPU-Z刚刚发布了最新的2.30.0正式版,更新内容非常丰....
发表于 2020-03-14 09:36 157次阅读
GPU-Z发布2.30.0正式版更新 新增支持G...

AMD今年CPU与GPU两开花 足以让AMD的业...

最近今天,全球经济大环境突变,就连身经百战的巴菲特也表态“活了89岁也没见过这样的情况”。不过对AM....
发表于 2020-03-14 09:08 469次阅读
AMD今年CPU与GPU两开花 足以让AMD的业...

在选择GPU服务器时需要注意哪些方面

目前,GPU服务器主要应用于科学计算、视频编解码等不同场景领域。它可以为应用提供非凡的加速计算能力,....
发表于 2020-03-13 17:25 561次阅读
在选择GPU服务器时需要注意哪些方面

极速5G需要什么来支持

在此其中,也许对于每一位使用5G的消费者来说,速度快是最直观的感受;同样对于每一个依托于5G的行业创....
发表于 2020-03-13 17:05 81次阅读
极速5G需要什么来支持

Unity 3D优化三个的注意方面

Unity优化是一个很大的概念,我们优化时需要注意三个方面:CPU优化,GPU优化,内存优化。
发表于 2020-03-13 16:47 334次阅读
Unity 3D优化三个的注意方面

计算机视觉的损失函数是什么?

损失函数在模型的性能中起着关键作用。选择正确的损失函数可以帮助你的模型学习如何将注意力集中在数据中的....
发表于 2020-03-13 16:30 423次阅读
计算机视觉的损失函数是什么?

中潜股份谋求持大唐存储超80%控股权,致力存储芯...

公告显示,标的公司大唐存储100%股权的估值约为人民币2.7亿元,大唐存储专注于存储控制芯片设计研发....
发表于 2020-03-13 15:39 537次阅读
中潜股份谋求持大唐存储超80%控股权,致力存储芯...

你最喜欢的游戏体验背后有何秘密力量

自1972年游戏系统出现以来那些真正成功的游戏系统,其核心部分都拥有强大的技术,从而为同时代的开发人....
发表于 2020-03-13 10:28 340次阅读
你最喜欢的游戏体验背后有何秘密力量

多功能设备532-60伸缩臂叉装,专为畜牧业设计

JCB—全球伸缩臂叉装车发明者和品牌领导者,在2019 Agritechnica展上发布一款专为畜牧....
发表于 2020-03-12 16:27 365次阅读
多功能设备532-60伸缩臂叉装,专为畜牧业设计

实验楼群建筑能耗监测系统的功能特点及设计

本项目属于群楼模式,针对其具体的位置,在每栋建筑设置一套采集设备,完成数据的集采。采集器和系统后台之....
发表于 2020-03-12 16:21 386次阅读
实验楼群建筑能耗监测系统的功能特点及设计

美光推出整合芯片uMCP5 内存和存储带宽比上代...

美光宣布,已经成功试产了全球第一个将LPDDR5 DRAM内存颗粒、96层堆叠3D NAND闪存颗粒....
发表于 2020-03-12 15:04 55次阅读
美光推出整合芯片uMCP5 内存和存储带宽比上代...

2020年的存储备份注重往哪里发展

存储和数据备份行业分析师表示,随着数据在边缘和容器中的增长,这些领域需要对备份产品给予更多关注。
发表于 2020-03-12 14:53 49次阅读
2020年的存储备份注重往哪里发展

数据备份策略怎样去制定

记录数据备份和恢复策略非常重要。企业需要更多工具开发其他IT策略。
发表于 2020-03-12 14:46 58次阅读
数据备份策略怎样去制定

Intel核显虽然性能相对不强 但占领着全球绝大...

Intel核显虽然性能相对不强,但凭借处理器老大的提携,占领着全球绝大部分GPU市场,而驱动团队也是....
发表于 2020-03-12 13:49 336次阅读
Intel核显虽然性能相对不强 但占领着全球绝大...

曝游戏用的安培GPU使用的竟还是三星10nm工艺...

3月底的GTC大会上已经改成只发新闻稿了,最大的悬念就是会不会有7nm安培(Ampere)GPU了。
发表于 2020-03-12 11:44 381次阅读
曝游戏用的安培GPU使用的竟还是三星10nm工艺...

NVIDIA宣布收购SwiftStack 将增强...

NVIDIA宣布已经与SwiftStack达成最终协议,将其收入旗下。该公司主要开发对象存储软件,面....
发表于 2020-03-12 10:17 306次阅读
NVIDIA宣布收购SwiftStack 将增强...

AMD 7nm桌面锐龙APU上市,GPU频率大幅...

很多追求高性价比的主流用户对于AMD APU平台都非常在意和期待,但由于种种原因,APU的架构和技术....
发表于 2020-03-11 23:20 471次阅读
AMD 7nm桌面锐龙APU上市,GPU频率大幅...

美光新款LPDDR5 uMCP5封装可实现优化中...

内存和存储解决方案领先供应商 Micron Technology, Inc.(美光科技股份有限公司,....
发表于 2020-03-11 16:51 394次阅读
美光新款LPDDR5 uMCP5封装可实现优化中...

AMD下一代RDNA3架构或将采用5nm工艺,官...

上周的财务分析师大会上,AMD干货满满,宣布了5nm Zen4架构,同时还推出了新一代的RDNA2架....
发表于 2020-03-11 15:23 463次阅读
AMD下一代RDNA3架构或将采用5nm工艺,官...

定制U盘哪里选?哈尼司存储等你来

如今人们用电脑办公越来越常见了,而且有时候图片、视频等数据传输还需要用到U盘,这样会更加方便。不过最....
发表于 2020-03-11 08:41 258次阅读
定制U盘哪里选?哈尼司存储等你来

AMD Infinity Fabric总线升级,...

在AMD的财务分析日上,AMD 透露将会升级其Infinity Fabric总线,不仅支持CPU-C....
发表于 2020-03-09 15:02 385次阅读
AMD Infinity Fabric总线升级,...

AMD Infinity Fabric升级后可支...

在AMD的财务分析日上,AMD 透露将会升级其Infinity Fabric总线,不仅支持CPU-C....
发表于 2020-03-09 14:24 524次阅读
AMD Infinity Fabric升级后可支...

基于嵌入式C语言开发中的异常堆栈错误追踪机制的设...

对于嵌入式软件来说,尽量节省内存资源、降低程序代码量是十分重要的。因此,将程序中所有错误、异常情况都....
发表于 2020-03-09 10:35 82次阅读
基于嵌入式C语言开发中的异常堆栈错误追踪机制的设...

请问如何在C(TestApp_Peripheral_ppc440_0)中进行模拟与Hyperterminal模拟?

你好。 请问如何在C(TestApp_Peripheral_ppc440_0)中确定加载/存储数据到/从协处理器进行模拟与Hyperterminal...
发表于 2020-03-09 09:47 52次阅读
请问如何在C(TestApp_Peripheral_ppc440_0)中进行模拟与Hyperterminal模拟?

RDNA 3和Navi 3X蓄势待发,AMD的G...

按照传统,AMD今天向金融分析师公布了GPU发展的线路图。线路图中不仅包含了去年夏天发布的Radeo....
发表于 2020-03-08 20:01 322次阅读
RDNA 3和Navi 3X蓄势待发,AMD的G...

传Intel将扩大外包,明年或用上台积电6nm

在半导体工艺上,Intel的10nm已经量产,但是官方也表态其产能不会跟22nm、14nm那样大,这....
发表于 2020-03-08 13:56 645次阅读
传Intel将扩大外包,明年或用上台积电6nm

索尼的PS5和微软的Xbox Series X都...

换句话说,PS5和Xbox Series X将如期在今年圣诞节之前上市。但是,高管们也没有留下任何余....
发表于 2020-03-08 12:30 460次阅读
索尼的PS5和微软的Xbox Series X都...

浪潮存储是怎么靠技术创新制胜的?

一波波新技术浪潮的到来,让数据的重要性不断上升,业界正重新审视其背后的新存储之变。
发表于 2020-03-07 15:42 228次阅读
浪潮存储是怎么靠技术创新制胜的?

入门级存储也可以开创大局面

在很多人看来,入门级存储是中高端存储的低配版,适合中小企业使用。但是通过对Hitachi Vanta....
发表于 2020-03-07 15:36 222次阅读
入门级存储也可以开创大局面

英伟达收购数据存储和管理公司SwiftStack

另外,英伟达希望客户使用已有的存储系统:“我们会部署我们的AI堆栈(AI Stack)并将其指向客户....
发表于 2020-03-07 15:35 258次阅读
英伟达收购数据存储和管理公司SwiftStack

区块链中的每个用例都可以解决吗

一个基于区块链的社交媒体平台可以防止任何人审查别人的言论。
发表于 2020-03-07 14:25 127次阅读
区块链中的每个用例都可以解决吗

AMD针对数据中心工作负载优化推出全新GPU 架...

为满足数据中心的需求,该公司计划在今年晚些时候正式推出 AMD CDNA 架构。
发表于 2020-03-07 09:44 205次阅读
AMD针对数据中心工作负载优化推出全新GPU 架...

AMD公布GPU发展的线路图

按照传统,AMD今天向金融分析师公布了GPU发展的线路图。线路图中不仅包含了去年夏天发布的Radeo....
发表于 2020-03-06 14:59 392次阅读
AMD公布GPU发展的线路图

Chromium版Edge浏览器出现窗口突然变黑

据Softpedia的报道,最近Microsoft Edge中出现的一个问题会导致所有浏览器窗口突然....
发表于 2020-03-06 14:30 414次阅读
Chromium版Edge浏览器出现窗口突然变黑

AMD苏姿丰宣布采用RDNA2构架能效比将获大幅...

北京时间3月6日凌晨,AMD CEO 苏姿丰在AMD财务分析师大会上宣布,采用下一代的RDNA2构架....
发表于 2020-03-06 11:30 560次阅读
AMD苏姿丰宣布采用RDNA2构架能效比将获大幅...

在PanGu Board上运行Qt应用实战

PanGu Board开发板是西安湃兔核科技基于STM32MP1系列处理器设计的SoC开发板,提供了HDMI、以太网、LC...
发表于 2019-12-10 11:30 2658次阅读
在PanGu Board上运行Qt应用实战

华为的GPU Turbo技术你知道是什么吗?

华为GPU Turbo揭秘,吓人的技术,原来只是神经网络...
发表于 2019-11-11 06:24 652次阅读
华为的GPU Turbo技术你知道是什么吗?

NVIDIA 在首个AI推理基准测试中大放异彩

Turing GPU、Xavier芯片系统在MLPerf基准测试中展现了巨大优势 加利福尼亚州圣克拉拉市 —— 2019年11月6日 —...
发表于 2019-11-08 19:44 451次阅读
NVIDIA 在首个AI推理基准测试中大放异彩

分布式存储方案的主要特点是什么?

接口与外设在一个视频监控系统中,选择什么样的存储解决方案直接决定了整个系统的系统架构以及系统的性能和稳定程度,...
发表于 2019-11-08 07:24 402次阅读
分布式存储方案的主要特点是什么?

请问机器中十进制数257按字符形式存储表示多少?

十进制数257按字符形式存储时,机器中表示为多少? A)  323537H B)  020507H C) &n...
发表于 2019-11-08 04:35 244次阅读
请问机器中十进制数257按字符形式存储表示多少?

如何加快慢指针数学?

typedef struct{int32_t.[101];float value[101];}lut_key_vals;typedef struct{lut_key_vals.[3];float celsius[...
发表于 2019-11-06 10:33 196次阅读
如何加快慢指针数学?

为什么基于GPU的二维数组加法灰色的那行会出现报错?

这是基于GPU的二维数组加法。。。然24行,就是灰色的那行,报错too few arguments in function call,但是明明形参...
发表于 2019-11-05 22:15 240次阅读
为什么基于GPU的二维数组加法灰色的那行会出现报错?