0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

存储与GPU性能皆已成倍增长,IO表现为何迟迟不见好转?

E4Life 来源:电子发烧友原创 作者:Leland 2021-07-09 17:10 次阅读
存储与GPU性能皆已成倍增长,IO表现为何迟迟不见好转?

伴随着HPC、自动驾驶深度学习VR/AR需求的不断增加,IO性能也在逐步凸显瓶颈,尤其是GPU与存储之间的读写。处理器速度已经从KHz进化至了GHz,VRAM从KB进化至了GB,IO速度也从KB/s进化至了GB/s,然而GB/s的大幅度改善从直观角度来看依然像是MB/s。

比如在有线连接的VR应用中,图形需要经过电脑进行处理,再经有线传输显示在VR屏幕上,这就引发了高延迟和长读取时间等问题。这不禁让人开始遐想,在CPU、GPU和存储都已经革新换代的情况下,我们是否真正有效地应用了硬件性能?为此微软和英伟达都提出了直接存储的概念来改善IO的现状。

微软:Windows上的DirectStorage

微软在不久前的Windows 11发布会上重点提到了DirectStorage技术,这是一个最初为主机设计的DirectX API,如今微软也将把这一技术带到PC上。

在当前NVMe SSD和PCIe技术的演进下,存储带宽远超旧式的硬盘存储技术,过去10MB每秒的速度已经达到数GB每秒。但PC上的图形工作量也在逐步进化,数据量的增加对于读取提出了更高的要求。过去大量数据的读取只需要少量的IO请求,但如今的图形渲染会将材质等资源分成小块,只有在场景提出要求时载入所需的部分,如此一来虽然提高了效率,却引入了更多IO请求。

当前的GPU资源读取流程 / 微软

而目前的存储API并没有对大量IO请求作出优化,因此拖累了NVMe,使得读写瓶颈愈发明显。即便采用高端的PC硬件,也无法饱和利用存储带宽优势。除此之外,这些数据往往需要经过压缩传输下一个环节,传入内存后,还要CPU进行一部分解压工作,最后再传入GPU显存里,这样一来每个节点都存在效率损失。

而DirectStorage采用了全新的路径,从存储读取的数据传给内存后,直接传给GPU显存。而GPU对于这些数据的解压速度远快于CPU,所以极大地优化了IO性能。

英伟达:RTX IO和Magnum IO GPUDirect Storage

英伟达在RTX 30系列显卡上引入了RTX IO,面向消费市场,提升游戏场景下的读取速度。英伟达称RTX IO将与微软的DirectStorage结合,与传统硬盘下的存储API相比,可将IO性能提高百倍。过去需要数十个CPU内核的工作全部交由RTX GPU来处理。

值得一提的是,英伟达的RTX IO虽然也用到了微软的DirectStorage,但该技术并没有将数据传输到内存,而是直接由SSD转向GPU。微软一名图形开发者在GSL 2021大会上表示,未来DirectStorage的目标也是绕过系统内存。

GDS技术 / 英伟达

除了消费市场外,英伟达在HPC市场也推出了对应的直接存储技术,Magnum IO GPUDirect Storage(GDS)。GDS技术同样是一个绕过CPU的技术,与消费级GPU不同,HPC场景下往往要用到多块GPU,如此一来受IO延迟和CPU的影响更大。GDS在本地存储与GPU显存之间建立直接的数据通道,消除了CPU引入的延迟和读写瓶颈。

GDS与CPU传输至GPU读取性能对比 / 英伟达

在运用GDS后,带宽提升达到1.5倍,与传统CPU回弹缓冲的数据路径相比,CPU利用率也有2.8倍的提升。

目前英伟达已经将这一技术加入到其HGX AI超算中,DDN、VAST和WEKA三家公司已经开始了相关产品的量产,而IBM、美光等五家厂商也在积极引入这一技术。三星、铠侠、西数和戴尔等厂商也开始了GDS的早期集成与认证计划。

小结

直接存储技术进一步放大了GPU厂商与存储厂商的优势,目前HPC市场前景巨大,英伟达在相关业务上的盈利已经让其看到了商机。不仅是GPU,英伟达采用Arm架构的Grace CPU同样引入了NVLink这样的数据传输改善方案。在这样的性能改善下,即便存储方案不同,英伟达的GPU也很可能成为HPC应用的首选。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6232

    浏览量

    103075
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4410

    浏览量

    126635
  • HPC
    HPC
    +关注

    关注

    0

    文章

    279

    浏览量

    23418
  • 英伟达
    +关注

    关注

    22

    文章

    3316

    浏览量

    87714
收藏 人收藏

    评论

    相关推荐

    CXL技术:全面升级数据中心架构

    作为全球最大数据产生国之一,随着数据规模的成倍增长,中国对更高性能数据中心的需求日益迫切。根据IDC Global DataSphere对每年数据产生量的预测,全球数据量的复合年增长率(CAGR
    发表于 04-17 16:32 71次阅读

    如何去提高EtherCAT IO性能呢?

    进行EtherCAT IO性能优化涉及多个方面,包括硬件选择、网络配置、软件优化和应用程序设计。
    的头像 发表于 03-07 09:28 143次阅读

    英飞凌推出高密度功率模块,为AI数据中心提供基准性能,降低总体拥有成本

      【 2024 年 3 月 1 日, 德国慕尼黑和加利福尼亚州长滩 讯】 人工智能(AI)正推动全球数据生成量成倍增长,促使支持这一数据增长的芯片对能源的需求日益增加。英飞凌科技股份公司近日推出
    发表于 03-05 13:52 599次阅读
    英飞凌推出高密度功率模块,为AI数据中心提供基准<b class='flag-5'>性能</b>,降低总体拥有成本

    鸿蒙这么大声势,为何迟迟不见岗位?最新数据来了

    对鸿蒙下一阶段的发展更具信心。 鸿蒙人才供需 报告中的数据显示,春节后第一周,鸿蒙相关职位数同比增长163%,投递人数同比增长349%,即分别增至去年同期的2.6倍、4.5倍,涨势突出。 这背后是自去年
    发表于 02-29 20:53

    南芯科技:逆势增长,模拟芯片市场逐步回暖

    具体表现为,南芯科技在2023年第一季度至第三季度的营收均呈现环比增长态势,分别达到11.78%、31.19%和45.52%;归母净利润方面亦表现优异,连续两季度实现环比增长,增幅分别
    的头像 发表于 02-18 14:00 452次阅读

    华为P70系列广角摄像头升级,出货量预计增长100%至120%

    早前郭明錤预测过,华为将于2024年上半年发布全新品牌P70系列,其中包含P70、P70 Pro与P70 Pro Art三款产品。同时,负责供应高品质镜头的大立光与舜宇光学厂商(前者占比较大)将会在该系列手机销售淡季间受益匪浅,因为出货量将成倍增长
    的头像 发表于 01-05 13:34 718次阅读

    电压倍增器电路原理图

    这是一个电压倍增电路。该电路采用倍增器原理来倍增电压。该电路具有一些优点,例如低电流供应、光电倍增管和阴极射线管所需的有吸引力的高电压。除此之外,该电路价格便宜。
    的头像 发表于 12-14 14:35 650次阅读
    电压<b class='flag-5'>倍增</b>器电路原理图

    后摩尔时代,3D封装成为重要发展方向

    半导体集成电路代表科技发展的前沿,是信息化、数字化、智能化和算力的基石,随着芯片产业的迅速发展,芯片间数据交换也在成倍增长,传统的芯片封装方式已经不能满足巨大的数据量处理需求。
    发表于 12-01 11:16 287次阅读
    后摩尔时代,3D封装成为重要发展方向

    2024年存储市场向上,国产模组厂商蓄势待发

    预判。   存储市场怎样走?   对于内存市场,集邦咨询资深研究副总经理吴雅婷女士指出,回首2023年,因需求不断的衰退,且未见好转的迹象,存储器上下游都面临库存去化的压力。全球通货膨胀、国际冲突仍持续蔓延,使得市场需求能见度低
    的头像 发表于 11-17 17:23 1075次阅读

    Banana Pi为何选择rk3588开发与Jetson Nano引脚兼容的嵌入式产品

    功能和更大灵活性的需求也不断增长。因此,我们的公司决定采用RK3588芯片来开发一款全新的产品,以实现与Jetson Nano引脚的兼容性,同时提供更多性能和功能。 为何选择RK3588: 卓越的
    发表于 11-02 12:30

    重磅上线:《2023固态电池行业研究报告》

    我国固态电池行业仍然处于发展初期的阶段,整体市场正在快速发展。据公开数据显示,2021年末,中国固态电池市场出货量达1.5GWh左右,到2022年,固态电池市场出货总量进一步上升至3GWh,比上年同期实现了成倍增长
    的头像 发表于 09-10 09:23 857次阅读
    重磅上线:《2023固态电池行业研究报告》

    Mali GPU性能分析工具

    本文档描述了马里GPU性能分析工具2.2版中的已知勘误表。 这是一个贯穿整个产品生命周期的工作文档,因此,随着新信息的发现,其内容可能会被修改。 本文中包含的信息是ARM有限公司的财产,对错误或遗漏
    发表于 09-05 07:08

    PyTorch IO DataPipes可用性、性能和功能

    数据,并将数据输入GPU,用于高输送量和低潜伏度的培训模式。 我们在此为皮托尔奇推出新的S3 IO DataPipes(S3 IO DataPipes),s3 文件列表器和s3 文件加载器为了提高记忆
    的头像 发表于 09-04 16:22 279次阅读
    PyTorch <b class='flag-5'>IO</b> DataPipes可用性、<b class='flag-5'>性能</b>和功能

    现代异步存储访问API探索:libaio、io_uring和SPDK

    最近的高性能存储设备暴露了现有软件栈的低效,因而催生了对I/O栈的改进。Linux内核的最新API是io_uring。作者提供了第一个针对io_uring的深度研究,并且和libaio
    的头像 发表于 06-27 10:54 470次阅读
    现代异步<b class='flag-5'>存储</b>访问API探索:libaio、<b class='flag-5'>io</b>_uring和SPDK

    登顶!华为OceanStor Pacific存储达成IO500榜单全球第一

    日前,国际最权威的存储性能排行榜—— IO500 最新榜单正式公布,以 华为 OceanStor Pacific 分布式存储 为核心底座的 Cheeloo-1 系统,以超越了历史最佳纪
    的头像 发表于 05-26 13:15 514次阅读