数据中心依靠服务器为其计算密集型架构提供支持-电子发烧友网

（文章来源：教育新闻网）

支持AI和ML部署的数据中心依靠基于图形处理单元(GPU)的服务器为其计算密集型架构提供支持。在多个行业中，到2024年，GPU使用量的增长将落后于GPU服务器预计超过31%的复合年增长率。这意味着将承担更多的系统架构师的职责，以确保GPU系统具有最高的性能和成本效益。

然而，为这些基于GPU的AI / ML工作负载优化存储并非易事。存储系统必须高速处理海量数据，同时应对两个挑战：

服务器利用率1)。GPU服务器对于训练大型AI / ML数据集所需的矩阵乘法和卷积非常高效。但是，GPU服务器的成本是典型CPU服务器的3倍。为了保持ROI，IT员工需要保持GPU繁忙。不幸的是，丰富的部署经验表明GPU仅以30%的容量使用。

该2)。ML训练数据集通常远远超过GPU的本地RAM容量，从而创建了一个I / O瓶颈，分析人员将其称为GPU存储瓶颈。AI和ML系统最终要等待访问存储资源，这是因为它们的庞大规模阻碍了及时访问，从而影响了性能。为了解决这个问题，NVMe闪存固态硬盘逐渐取代了标准闪存固态硬盘，成为Al / ML存储的首选。

NVMe支持大规模的IO并行性，性能约为同类SATA SSD的6倍，并且延迟降低了10倍，并且具有更高的电源效率。正如GPU推动了高性能计算的发展一样，NVMe闪存在降低延迟的同时，实现了更高的存储性能，带宽和IO / s。NVMe闪存解决方案可以将AI和ML数据集加载到应用程序的速度更快，并且可以避免GPU匮乏。

此外，可通过高速网络虚拟化NVMe资源的基于光纤的NVMe(NVMeoF)启用了特别适用于AI和ML的存储架构。NVMeoF使GPU可以直接访问NVMe的弹性池，因此可以使用本地闪存性能来访问所有资源。它使AI数据科学家和HPC研究人员可以向应用程序提供更多数据，以便他们更快地获得更好的结果。

要获得最佳的GPU存储性能，就需要根据业务目标对基础架构进行微调。这里有四种方法可供考虑：

有效扩展GPU存储容量1)例如，InstaDeep为可能不需要或不需要运行自己的AI堆栈的组织提供了AI即服务解决方案。因此，InstaDeep需要最大的ROI和可扩展性。特别是，对多租户的需求意味着基础架构必须随时准备就绪，以满足各种工作负载和客户端的性能要求。

InstaDeep基础架构团队在部署其第一个GPU服务器系统的早期就了解到，本地GPU服务器的存储容量将太有限，只有4TB的本地存储，而客户的工作量则需要10到100 TB的TB。该团队研究了外部存储选项，并注意到，使用传统阵列它们将获得更多的容量，但性能最终会阻碍AI工作负载，因为应用程序需要将数据移入和移出GPU系统，从而中断工作流程并影响系统效率。

通过使用软件定义的存储在快速的RDMA网络上合并NVMe闪存(一种将数据集加载速度提高10倍的方法)，InstaDeep可以实现更高的GPU容量利用率，消除了GPU瓶颈并提高了ROI，因为现有的GPU变得更加完整利用。
（责任编辑：fqj）

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

服务器

服务器

+关注

关注
12

文章
8099

浏览量
82485
数据中心

数据中心

+关注

关注
15

文章
4175

浏览量
69927

鸿蒙原生应用开发-ArkTS语言基础类库多线程I/O密集型任务开发

使用异步并发可以解决单次I/O任务阻塞的问题，但是如果遇到I/O密集型任务，同样会阻塞线程中其它任务的执行，这时需要使用多线程并发能力来进行解决。 I/O密集型任务的性能重点通常不在于CPU的处理

发表于 03-21 14:57

韩国大带宽服务器的数据中心位置

很多用户会选择韩国大宽带服务器，那么韩国大带宽服务器的数据中心位置在哪，rak小编为您整理发布韩国大带宽服务器的数据中心位置。

发表于 03-15 10:47 •166次阅读

什么是FPGA？带你初步揭开它的面纱

？首先，随着人工智能、大数据等web服务的规模指数级增长，通用处理器（CPU）的性能提升遇到了瓶颈。而FPGA的可编程属性使其成为加速常见计算任务的理想选择。例如，在云

发表于 02-21 16:10

澜起科技津逮服务器平台为数据中心带来卓越的安全与性能

津逮®服务器平台，一款由澜起科技精心打造的云计算数据中心解决方案，旨在为关键领域提供卓越的数据运算安全性和稳定性。该平台集成了津逮®CPU和混合安全内存模组（HSDIMM®）两大核心组

发表于 01-31 11:43 •484次阅读

数据中心服务器功率一般多大数据中心服务器操作系统三大类包括

可以达到几千瓦到几十千瓦的范围，而大型数据中心的服务器功率则可以达到数百千瓦甚至数兆瓦的级别。 数据中心服务器操作系统三大类包括： Windows Server系列操作系统：Windows Server系列是由微软开发的

发表于 01-25 10:10 •647次阅读

IDc数据中心需要哪些产品

IDC数据中心是一个专门提供服务器和网络设备的租用、托管和管理服务的场所。它通常由大型的硬件设施和专业的技术团队组成，可以为企业和机构提供高

发表于 01-16 17:40 •560次阅读

超聚变获TÜV南德全球首个数据中心服务器智能认证标志

数据中心服务器智能化深圳2024年1月15日 /美通社/ -- 1月15日，TÜV南德意志集团（以下简称"TÜV南德"）为超聚变数字技术有限公司（以下简称"超聚变"）的数据中心液冷整机柜服务器产品

发表于 01-15 20:58 •257次阅读

超聚变获TÜV南德全球首个<b class='flag-5'>数据中心服务器</b>智能认证标志

《数据处理器：DPU编程入门》读书笔记

。以DPU为技术代表的新算力架构，正在重新定义数据中心和云原生技术的基础架构。 DPU的出现，是随着数据中心的高速发展，通信能力和

发表于 12-21 10:47

HarmonyOS CPU与I/O密集型任务开发指导

一、CPU密集型任务开发指导 CPU密集型任务是指需要占用系统资源处理大量计算能力的任务，需要长时间运行，这段时间会阻塞线程其它事件的处理，不适宜放在主线程进行。例如图像处理、视频编码、数据

发表于 09-26 16:29

400G光模块在数据中心的应用

从数据中心网络架构来看，基于现有的100G的方案，满足相同规模数据中心的无阻塞网络吞吐，需要添加更多的端口需要更多的机架空间用于服务器和交换机，且需要更多的

发表于 09-26 14:58 •269次阅读

数据中心服务器安全白皮书

电子发烧友网站提供《数据中心服务器安全白皮书.pdf》资料免费下载

发表于 08-23 09:25 •0次下载

SIGGRAPH 2023 | NVIDIA 与全球数据中心系统制造商大力推动 AI 与工业数字化的发展

OVX 服务器采用全新 NVIDIA GPU 以加速训练和推理以及图形密集型工作负载，将通过戴尔科技、慧与、联想、超微等公司提供。洛杉矶 — SIGGRAPH — 太平洋时间 2023

发表于 08-09 19:10 •281次阅读

如何使用Alexa语音服务集成在受约束的物联网设备上设置语音命令

的内存密集型和计算密集型任务卸载到亚马逊管理的云服务中。将这些任务卸载到云中，允许基于带片上存储器的微控制

发表于 08-02 12:53

恒讯科技分享：俄罗斯服务器数据中心的市场概况

普及率为76%（1.0877亿互联网用户）。下面，小编给大家分享一下俄罗斯服务器数据中心的市场概况。一、数据中心和电信经济俄罗斯国内生产总值超过1.33万亿美元，数字经济贡献2.8%，俄罗斯

发表于 06-08 16:49 •662次阅读

12V不够用了，数据中心48V电源架构正在走向台前！

就数据中心而言，人工智能（AI）、机器学习和深度学习的加入使机架功率迅速飙升了两倍，达到20千瓦范围；超级计算机服务器机架现在接近100千瓦或更高。随着计算环境越来越

发表于 04-28 14:21 •2222次阅读

搜索历史

数据中心依靠服务器为其计算密集型架构提供支持

评论

鸿蒙原生应用开发-ArkTS语言基础类库多线程I/O密集型任务开发

韩国大带宽服务器的数据中心位置

什么是FPGA？带你初步揭开它的面纱

澜起科技津逮服务器平台为数据中心带来卓越的安全与性能

数据中心服务器功率一般多大数据中心服务器操作系统三大类包括

IDc数据中心需要哪些产品

超聚变获TÜV南德全球首个数据中心服务器智能认证标志

《数据处理器：DPU编程入门》读书笔记

HarmonyOS CPU与I/O密集型任务开发指导

400G光模块在数据中心的应用

数据中心服务器安全白皮书

SIGGRAPH 2023 | NVIDIA 与全球数据中心系统制造商大力推动 AI 与工业数字化的发展

如何使用Alexa语音服务集成在受约束的物联网设备上设置语音命令

恒讯科技分享：俄罗斯服务器数据中心的市场概况

12V不够用了，数据中心48V电源架构正在走向台前！