获得GPU存储性能的方法有哪些

资料大小: 0.07 MB

所需积分: 1

下载次数:

用户评论: 0条评论,查看

上传日期: 2020-04-02

上 传 者: 十次方他上传的所有资料

资料介绍

标签:

  支持AI人工智能和ML机器学习部署的数据中心依靠基于图形处理单元(GPU)的服务器为其计算密集型架构提供支持。到2024年,在多个行业中,GPU使用量的增长将使GPU服务器的复合年增长率超过31%。这意味着将有更多的系统架构师承担承担相应的职责,以确保GPU系统具有最高的性能和成本效益。

  然而,为这些基于GPU的AI / ML工作负载优化存储并非易事。存储系统必须高速处理海量数据,与此同时需要注意以下两个挑战:

  1)服务器利用率。GPU服务器对于训练大型AI / ML数据集所需的矩阵乘法和卷积非常高效。但是,GPU服务器的成本是典型CPU服务器的3倍。为了保持ROI,IT员工需要让GPU使用率足够饱和。但不幸的是,很多部署经验表明GPU仅有30%的使用率。

  2)GPU存储瓶颈。ML训练数据集通常远远超过GPU的本地RAM容量,从而产生了一个I / O瓶颈,分析人员将其称为GPU存储瓶颈。AI和ML系统最终要等待访问存储资源,这是因为它们庞大的数据阻碍了及时访问,从而影响了性能。

  为了解决这个问题,NVMe闪存固态硬盘逐渐取代了标准闪存固态硬盘,成为Al / ML存储的首选。NVMe支持大规模的IO并行性,性能约为同类SATA SSD的6倍,并且延迟降低了10倍,并且具有更高的电源效率。正如GPU推动了高性能超级计算机的发展一样,NVMe闪存在降低延迟的同时,实现了更高的存储性能、带宽和吞吐量。NVMe闪存解决方案可以使AI和ML数据集加载到应用程序的速度更快,并且可以避免GPU匮乏。

  此外,NVMe Over Fabrics可以虚拟化整个高速网络上的Nvme资源,通过NVMeoF技术可以更好的适用于AI和ML的存储架构。NVMeoF使GPU可以直接访问NVMe的弹性池,因此可以使用本地闪存性能来访问所有资源。它使AI数据科学家和HPC研究人员可以向应用程序提供更多数据,以便他们更快地获得更好的结果。

  要获得最佳的GPU存储性能,就需要根据业务目标对基础架构进行微调。这里有四种方法可供考虑。
 

下载地址

获得GPU存储性能的方法有哪些下载

用户评论

查看全部 条评论

发表评论请先 , 还没有账号?免费注册

发表评论

用户评论
技术交流、我要发言! 发表评论可获取积分! 请遵守相关规定。
上传电子资料