0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据中心依靠服务器为其计算密集型架构提供支持

独爱72H 来源:教育新闻网 作者:教育新闻网 2020-04-28 17:04 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

(文章来源:教育新闻网)

支持AI和ML部署的数据中心依靠基于图形处理单元(GPU)的服务器为其计算密集型架构提供支持。在多个行业中,到2024年,GPU使用量的增长将落后于GPU服务器预计超过31%的复合年增长率。这意味着将承担更多的系统架构师的职责,以确保GPU系统具有最高的性能和成本效益。

然而,为这些基于GPU的AI / ML工作负载优化存储并非易事。存储系统必须高速处理海量数据,同时应对两个挑战:

服务器利用率1)。GPU服务器对于训练大型AI / ML数据集所需的矩阵乘法和卷积非常高效。但是,GPU服务器的成本是典型CPU服务器的3倍。为了保持ROI,IT员工需要保持GPU繁忙。不幸的是,丰富的部署经验表明GPU仅以30%的容量使用。

该2)。ML训练数据集通常远远超过GPU的本地RAM容量,从而创建了一个I / O瓶颈,分析人员将其称为GPU存储瓶颈。AI和ML系统最终要等待访问存储资源,这是因为它们的庞大规模阻碍了及时访问,从而影响了性能。为了解决这个问题,NVMe闪存固态硬盘逐渐取代了标准闪存固态硬盘,成为Al / ML存储的首选。

NVMe支持大规模的IO并行性,性能约为同类SATA SSD的6倍,并且延迟降低了10倍,并且具有更高的电源效率。正如GPU推动了高性能计算的发展一样,NVMe闪存在降低延迟的同时,实现了更高的存储性能,带宽和IO / s。NVMe闪存解决方案可以将AI和ML数据集加载到应用程序的速度更快,并且可以避免GPU匮乏。

此外,可通过高速网络虚拟化NVMe资源的基于光纤的NVMe(NVMeoF)启用了特别适用于AI和ML的存储架构。NVMeoF使GPU可以直接访问NVMe的弹性池,因此可以使用本地闪存性能来访问所有资源。它使AI数据科学家和HPC研究人员可以向应用程序提供更多数据,以便他们更快地获得更好的结果。

要获得最佳的GPU存储性能,就需要根据业务目标对基础架构进行微调。这里有四种方法可供考虑:

有效扩展GPU存储容量1)例如,InstaDeep为可能不需要或不需要运行自己的AI堆栈的组织提供了AI即服务解决方案。因此,InstaDeep需要最大的ROI和可扩展性。特别是,对多租户的需求意味着基础架构必须随时准备就绪,以满足各种工作负载和客户端的性能要求。

InstaDeep基础架构团队在部署其第一个GPU服务器系统的早期就了解到,本地GPU服务器的存储容量将太有限,只有4TB的本地存储,而客户的工作量则需要10到100 TB的TB。该团队研究了外部存储选项,并注意到,使用传统阵列它们将获得更多的容量,但性能最终会阻碍AI工作负载,因为应用程序需要将数据移入和移出GPU系统,从而中断工作流程并影响系统效率。

通过使用软件定义的存储在快速的RDMA网络上合并NVMe闪存(一种将数据集加载速度提高10倍的方法),InstaDeep可以实现更高的GPU容量利用率,消除了GPU瓶颈并提高了ROI,因为现有的GPU变得更加完整利用。
(责任编辑:fqj)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 服务器
    +关注

    关注

    14

    文章

    10415

    浏览量

    91815
  • 数据中心
    +关注

    关注

    18

    文章

    5822

    浏览量

    75229
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    服务器主板导热胶:数据中心高负载散热方案 |铬锐特实业

    铬锐特实业|东莞厂家|探讨服务器主板导热胶在数据中心高负载场景下的关键作用,可降低CPU GPU温度10-15℃,提升系统稳定性35%,助力AI服务器实现50kW+机柜功耗密度,是绿色高密度
    的头像 发表于 03-14 00:25 301次阅读
    <b class='flag-5'>服务器</b>主板导热胶:<b class='flag-5'>数据中心</b>高负载散热方案 |铬锐特实业

    1分钟带你了解数据中心供电架构 #电子元器件 #数据中心 #供电架构

    数据中心
    沛城芯动力
    发布于 :2026年02月03日 15:39:04

    什么是企业云服务器-云计算

    地扩展和管理IT基础设施。华纳云的企业云服务器基于虚拟化技术,在云环境中运行多个虚拟服务器实例,企业提供灵活的资源分配和管理。 华纳云的
    的头像 发表于 12-29 17:57 1208次阅读

    Arm架构计算平台驱动融合AI数据中心变革

    的意义远不止于一个统计数字,更重要的是它们构成了融合人工智能 (AI) 数据中心这一新型基础设施的计算核心。从云原生服务到最具挑战性的 AI 工作负载,超大规模云
    的头像 发表于 12-15 14:51 754次阅读

    SuperX发布最新XN9160-B300 AI服务器,Blackwell Ultra 比 Blackwell计算能力增加了 50%

    )和高性能计算(HPC)等工作负载对可扩展、高性能计算日益增长的需求。系统专为极致性能而设计,集成了先进的网络功能、可扩展的架构和高能效设计,关键任务
    的头像 发表于 10-07 21:36 727次阅读
    SuperX发布最新XN9160-B300 AI<b class='flag-5'>服务器</b>,Blackwell Ultra 比 Blackwell<b class='flag-5'>计算</b>能力增加了 50%

    提升AI数据服务器交换机性能与效率的关键:永铭电容的应用

    YMIN永铭电容应用AI数据中心服务器·交换机随着AI技术的快速发展,数据中心服务器的性能需求不断增加。作为AI服务器基础架构中的重要组成
    的头像 发表于 09-01 10:04 577次阅读
    提升AI<b class='flag-5'>数据服务器</b>交换机性能与效率的关键:永铭电容的应用

    赋能人工智能未来:ADI宣布支持800 VDC数据中心架构

    , Inc. (ADI)推出创新解决方案,数据中心下一代800 VDC架构提供有力支持。该系列解决方案包含高可靠性热插拔与一级电源产品,旨
    的头像 发表于 08-28 21:18 1298次阅读
    赋能人工智能未来:ADI宣布<b class='flag-5'>支持</b>800 VDC<b class='flag-5'>数据中心</b><b class='flag-5'>架构</b>

    数据中心液冷服务器该配什么样的 UPS 不间断电源?

    在当今数字化飞速发展的时代,数据中心就像是整个数字世界的心脏,承载着海量的数据存储与处理任务。而液冷服务器作为数据中心的核心设备之一,因其高效的散热性能,正越来越广泛地被应用。不过,要
    的头像 发表于 08-21 11:01 1158次阅读
    <b class='flag-5'>数据中心</b>液冷<b class='flag-5'>服务器</b>该配什么样的 UPS 不间断电源?

    PCIe协议分析仪在数据中心中有何作用?

    数据中心的整体可靠性。以下是核心作用及具体应用场景的详细分析:一、性能优化:突破带宽瓶颈,提升计算效率 链路带宽利用率分析 场景:在AI训练集群中,GPU通过PCIe与CPU交换数据
    发表于 07-29 15:02

    中型数据中心应用平台与差分晶体振荡参数对照中型数据中心应用平台与差分晶体振荡参数对照

    中型数据中心对高频、低抖动、宽温与多电压晶振的需求日益提升,FCO系列差分晶体振荡凭借丰富封装、输出逻辑选择与优异相位抖动性能,网络、存储、服务器与边缘系统
    发表于 07-10 14:11

    中型数据中心中的差分晶体振荡应用与匹配方案

    同步模块等。 2. 高校/科研机构智能计算中心 应用背景: 服务于AI训练、大数据建模与图像处理的科研计算平台,要求高速网络与大容量数据同步
    发表于 07-01 16:33

    数据服务器数据中心需求激增——精确功率测量的重要意义

    本文深度解析数据中心爆发式增长下的能效管理难题,详解ZES ZIMMER LMG600系列功率分析仪在服务器电源测试(80 PLUS钛金认证)、SPECpower基准评估、高效变压损耗测量等关键场景的应用,
    的头像 发表于 06-27 14:22 910次阅读

    I/O密集型任务开发指导

    使用异步并发可以解决单次I/O任务阻塞的问题,但是如果遇到I/O密集型任务,同样会阻塞线程中其它任务的执行,这时需要使用多线程并发能力来进行解决。 I/O密集型任务的性能重点通常不在于CPU的处理
    发表于 06-19 07:19

    CPU密集型任务开发指导

    CPU密集型任务是指需要占用系统资源处理大量计算能力的任务,需要长时间运行,这段时间会阻塞线程其它事件的处理,不适宜放在主线程进行。例如图像处理、视频编码、数据分析等。 基于多线程并发机制处理CPU
    发表于 06-19 06:05

    小型数据中心晶振选型关键参数全解

    小型数据中心的定义与应用 小型数据中心通常是中小型企业、边缘计算、物联网(IoT)设备及其他特定业务需求提供
    发表于 06-11 13:37