0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

存储与GPU性能皆已成倍增长,IO表现为何迟迟不见好转?

E4Life 来源:电子发烧友原创 作者:Leland 2021-07-09 17:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

存储与GPU性能皆已成倍增长,IO表现为何迟迟不见好转?

伴随着HPC、自动驾驶深度学习VR/AR需求的不断增加,IO性能也在逐步凸显瓶颈,尤其是GPU与存储之间的读写。处理器速度已经从KHz进化至了GHz,VRAM从KB进化至了GB,IO速度也从KB/s进化至了GB/s,然而GB/s的大幅度改善从直观角度来看依然像是MB/s。

比如在有线连接的VR应用中,图形需要经过电脑进行处理,再经有线传输显示在VR屏幕上,这就引发了高延迟和长读取时间等问题。这不禁让人开始遐想,在CPU、GPU和存储都已经革新换代的情况下,我们是否真正有效地应用了硬件性能?为此微软和英伟达都提出了直接存储的概念来改善IO的现状。

微软:Windows上的DirectStorage

微软在不久前的Windows 11发布会上重点提到了DirectStorage技术,这是一个最初为主机设计的DirectX API,如今微软也将把这一技术带到PC上。

在当前NVMe SSD和PCIe技术的演进下,存储带宽远超旧式的硬盘存储技术,过去10MB每秒的速度已经达到数GB每秒。但PC上的图形工作量也在逐步进化,数据量的增加对于读取提出了更高的要求。过去大量数据的读取只需要少量的IO请求,但如今的图形渲染会将材质等资源分成小块,只有在场景提出要求时载入所需的部分,如此一来虽然提高了效率,却引入了更多IO请求。

当前的GPU资源读取流程 / 微软

而目前的存储API并没有对大量IO请求作出优化,因此拖累了NVMe,使得读写瓶颈愈发明显。即便采用高端的PC硬件,也无法饱和利用存储带宽优势。除此之外,这些数据往往需要经过压缩传输下一个环节,传入内存后,还要CPU进行一部分解压工作,最后再传入GPU显存里,这样一来每个节点都存在效率损失。

而DirectStorage采用了全新的路径,从存储读取的数据传给内存后,直接传给GPU显存。而GPU对于这些数据的解压速度远快于CPU,所以极大地优化了IO性能。

英伟达:RTX IO和Magnum IO GPUDirect Storage

英伟达在RTX 30系列显卡上引入了RTX IO,面向消费市场,提升游戏场景下的读取速度。英伟达称RTX IO将与微软的DirectStorage结合,与传统硬盘下的存储API相比,可将IO性能提高百倍。过去需要数十个CPU内核的工作全部交由RTX GPU来处理。

值得一提的是,英伟达的RTX IO虽然也用到了微软的DirectStorage,但该技术并没有将数据传输到内存,而是直接由SSD转向GPU。微软一名图形开发者在GSL 2021大会上表示,未来DirectStorage的目标也是绕过系统内存。

GDS技术 / 英伟达

除了消费市场外,英伟达在HPC市场也推出了对应的直接存储技术,Magnum IO GPUDirect Storage(GDS)。GDS技术同样是一个绕过CPU的技术,与消费级GPU不同,HPC场景下往往要用到多块GPU,如此一来受IO延迟和CPU的影响更大。GDS在本地存储与GPU显存之间建立直接的数据通道,消除了CPU引入的延迟和读写瓶颈。

GDS与CPU传输至GPU读取性能对比 / 英伟达

在运用GDS后,带宽提升达到1.5倍,与传统CPU回弹缓冲的数据路径相比,CPU利用率也有2.8倍的提升。

目前英伟达已经将这一技术加入到其HGX AI超算中,DDN、VAST和WEKA三家公司已经开始了相关产品的量产,而IBM、美光等五家厂商也在积极引入这一技术。三星、铠侠、西数和戴尔等厂商也开始了GDS的早期集成与认证计划。

小结

直接存储技术进一步放大了GPU厂商与存储厂商的优势,目前HPC市场前景巨大,英伟达在相关业务上的盈利已经让其看到了商机。不仅是GPU,英伟达采用Arm架构的Grace CPU同样引入了NVLink这样的数据传输改善方案。在这样的性能改善下,即便存储方案不同,英伟达的GPU也很可能成为HPC应用的首选。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6719

    浏览量

    107354
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134464
  • HPC
    HPC
    +关注

    关注

    0

    文章

    342

    浏览量

    24825
  • 英伟达
    +关注

    关注

    23

    文章

    4040

    浏览量

    97674
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    智能终端持续复苏,存储芯片全面增长可期

    电子发烧友网报道(文/黄晶晶)2024年国内上市存储芯片厂商的业绩情况相继公布,各家厂商呈现大幅增长、扭亏为盈或处于亏损的状况,表现不一。由于今年以来,DeepSeek对AI推理的应用落地起到了极大
    的头像 发表于 02-17 09:14 1998次阅读

    福田欧辉客车销量实现翻倍增长的核心密码

    2025年中国大中客市场竞争白热化,福田欧辉客车凭借一份震撼行业的成绩单强势突围:10月单月销量同比暴涨179%,新能源车型增长289%,出口增长158%,前10月销量持续领跑细分赛道,全年销量剑指1.1万辆,实现翻倍增长。这
    的头像 发表于 12-02 16:56 582次阅读

    全球前四!京东云云海AI存储跻身IO500高性能存储榜单

    存储技术,云海AI存储不采用 PMEM 硬件,具备更强通用性的同时也实现了更低存储成本。 IO500是全球高性能计算HPC领域最权威、最具影
    的头像 发表于 11-27 14:51 205次阅读
    全球前四!京东云云海AI<b class='flag-5'>存储</b>跻身<b class='flag-5'>IO</b>500高<b class='flag-5'>性能</b><b class='flag-5'>存储</b>榜单

    如何实现高效的RoCE网卡状态采集与监控?

    当下大规模AI训练成为常态,RoCEv2凭借高性能、低延迟与低CPU开销的优势,已成为构建智算中心的优先选择。然而,RoCE对网络无损的严苛要求,配置不当会放大拥塞,如 PFC、ECN、Buffer滞留等引发的高延迟、性能下降等
    的头像 发表于 10-29 11:54 905次阅读
    如何实现高效的RoCE网卡状态采集与监控?

    霄云科技银河存储:重构AI时代的存储新范式

    在人工智能与高性能计算需求呈指数级增长的今天,数据存储的效率与可靠性已成为算力释放的关键支撑。上海霄云信息科技有限公司正式推出全新一代AI存储
    的头像 发表于 08-21 10:36 739次阅读
    霄云科技银河<b class='flag-5'>存储</b>:重构AI时代的<b class='flag-5'>存储</b>新范式

    芯朋微电子PN7885系列60A超大电流E-Fuse介绍

    随着人工智能(AI)浪潮的到来,数据中心迎来前所未有的变革。服务器的功率需求激增,超高的功率对供电系统的需求成倍增长,板上电源越来越多。防止输入端涌入的电流使系统过载变得至关重要,否则高昂的停机成本变得不可接受!
    的头像 发表于 07-10 14:50 997次阅读
    芯朋微电子PN7885系列60A超大电流E-Fuse介绍

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】+NVlink技术从应用到原理

    前言 【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」书中的芯片知识是比较接近当前的顶尖芯片水平的,同时包含了芯片架构的基础知识,但该部分知识比较晦涩难懂,或许是由于我一直从事的事芯片
    发表于 06-18 19:31

    硅光第六篇:多波长计

    现有光纤网络及其基础设施的基础上,数据传输容量成倍增长成为可能。特别是在WDM(波分复用)与DWDM的应用场景中,针对光源、光模块以及光收发器等领域的产品,进行波长
    的头像 发表于 03-24 09:43 641次阅读
    硅光第六篇:多波长计

    ​为什么GPU性能效率比峰值性能更关键

    在评估GPU性能时,通常首先考察三个指标:图形工作负载的纹理率(GPixel/s)、浮点运算次数(FLOPS)以及它们能处理计算和AI工作负载的每秒8-bittera运算次数(TOPS)。这些关键
    的头像 发表于 03-13 08:34 715次阅读
    ​为什么<b class='flag-5'>GPU</b><b class='flag-5'>性能</b>效率比峰值<b class='flag-5'>性能</b>更关键

    GPU加速计算平台的优势

    传统的CPU虽然在日常计算任务中表现出色,但在面对大规模并行计算需求时,其性能往往捉襟见肘。而GPU加速计算平台凭借其独特的优势,吸引了行业内人士的广泛关注和应用。下面,AI部落小编为大家分享
    的头像 发表于 02-23 16:16 758次阅读

    NVIDIA Spectrum-X网络平台助力提升AI存储性能

    AI 工厂依靠的不仅仅是计算网。当然,连接 GPU 的东西向网络对于 AI 应用的性能至关重要,而连接高速存储阵列的存储网也不容忽视。存储
    的头像 发表于 02-15 11:01 1185次阅读

    GPU 性能原理拆解

    「迷思」是指经由人们口口相传,但又难以证明证伪的现象。由于GPU硬件实现、驱动实现是一个黑盒,我们只能通过厂商提供的API、经过抽象的架构来了解并猜测其原理。因此坊间流传着各种关于与GPU打交道
    的头像 发表于 02-08 14:29 1001次阅读
    <b class='flag-5'>GPU</b> <b class='flag-5'>性能</b>原理拆解

    GPU云计算服务怎么样

    在当今数字化快速发展的时代,高性能计算需求日益增长。为满足这些需求,GPU云计算服务应运而生。那么,GPU云计算服务怎么样呢?接下来,AI部落小编带您了解。
    的头像 发表于 02-05 15:01 682次阅读

    2024年GPU出货量增长显著,超越CPU

    近日,根据知名市场研究机构Jon Peddie Research(JPR)最新发布的报告,2024年全球GPU(包括集成显卡和独立显卡)市场呈现出强劲的增长态势。报告显示,该年度GPU总出货量实现了
    的头像 发表于 01-17 14:12 825次阅读

    电子倍增CCD图像传感器(EM-CCD)

    的区域(存储区域)被完全遮蔽以消除光子被检测到。检测区域中的信号被传输到存储区域,然后通过称为碰撞电离的过程在倍增寄存器中相乘。 EM-CCD 的优点是 CCD 中的信号电荷在倍增寄存
    的头像 发表于 01-09 06:27 881次阅读
    电子<b class='flag-5'>倍增</b>CCD图像传感器(EM-CCD)