0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

FPGA与GPU计算存储加速对比

刘杰 来源:zrl12123456 作者:zrl12123456 2022-08-02 08:03 次阅读

硬件制造商正在将加速方法应用于计算存储,这是专门设计用于包含内嵌计算元素的存储。这种方法已经被证明可以为分析和 AI 应用提供优异的性能。使用或者不使用机器学习辅助的分析以及验证,都可以借助计算存储器件进行加速。这些器件提供了一个关键的优势,使得成本高昂的计算被卸载到存储器件上,而不必在服务器 CPU 上完成。与标准的存储/CPU 方法相比,通过计算存储获得的优势包括:

1. 借助应用专用编程定制可编程硬件,获得更高性能

2. 将计算任务从服务器卸载到存储器件,释放 CPU 资源

3. 数据与计算共址,降低数据传输需求

这种新颖的方法前景光明。不过,您应根据具体用例评估这种方法,考量性能、成本、功耗和易用性。性价比和单位功耗性能在选择加速硬件评估时,占据主要比率。在本文中,我们将研讨单位功耗性能。

计算存储功耗比较

在这个场景中,我们将比较以 CSV 数据读取用例为主的三种工具:英伟达 GPUDirect 存储 和RAPIDS存储,以及基于赛灵思技术的三星 SmartSSD 存储。CSV 读取在计算密集型流水线中起着重要的作用(参见图 1)。

在下文中,我们将性能定义成 CSV 的处理速率,或处理“带宽”。我们先快速回顾一下三种系统的运行方式。

英伟达 GPUDirect 存储

端到端满足分析和 AI 需求

将 GPU 用作计算单元,紧贴基于 NVMe 的存储器件布局 (GPUDirect)

使用 CUDA 进行编程 (RAPIDS)

英伟达用其 CSV 数据读取技术衡量相对于标准 SSD 的性能提升。结果如图 1 所示。使用 1 到 8 个加速器时,对应的吞吐量是 4 到 23GB/s。

三星 SmartSSD 驱动器

将赛灵思 FPGA 用作计算单元

与存储逻辑内嵌驻留在同一个内部 PCIe 互联上

通过编程在存储平台上开展运算

赛灵思数据分析解决方案合作伙伴 Bigstream 与三星合作,为 Apache Spark 设计加速器,包括用于 CSV 和 Parquet 处理的 IP。SmartSSD 的测试使用单机模式的 CSV 解析引擎,以便开展比较。结果如图 2 所示,使用 1 到 12 个加速器时,对应的吞吐量是 4 到 23GB/s,同时也给出英伟达的结果(使用 1 到 8 个加速器)。请注意,本讨论中的所有结果都按 x 轴上的加速器数量进行参数化。

这些结果令人振奋,但在选择您的解决方案时,请务必将功耗情况纳入考虑。

图 2:SmartSSD 驱动器的 CSV 解析性能结果

单位功耗性能比较

图 3 显示了将功耗考虑在内后的分析结果。它们代表单位功耗达到的性能水平,根据上述讨论中引用的相关材料,给出了以下假设:

Tesla V100 GPU:最大功耗 200 瓦

SmartSSD 驱动器 FPGA:最大功耗 30 瓦

图 3:CSV 解析的每瓦功耗带宽比较

在这个场景下,计算表明,在全部使用 8 个加速器的情况下,SmartSSD 的单位功耗性能比 GPUDirect Storage 高 25 倍。

最终思考

计算存储的优势在于能增强数据分析和 AI 应用的性能。然而,要让这种方法具备可实际部署的能力和实用性,就必须在评估时将功耗纳入考虑。

针对用于 CSV 数据解析的两种不同的计算存储方法,我们已经提出按功耗参数化的吞吐量性能曲线。结果显示,在使用相似数量的加速器进行比较时,SmartSSD 驱动器的单位功耗性能优于 GPUDirect存储方法。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1602

    文章

    21317

    浏览量

    593152
  • 驱动器
    +关注

    关注

    51

    文章

    7307

    浏览量

    142935
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4417

    浏览量

    126668
收藏 人收藏

    评论

    相关推荐

    fpgagpu的区别

    FPGA(现场可编程门阵列)和GPU(图形处理器)在多个方面存在显著的区别。
    的头像 发表于 03-27 14:23 255次阅读

    FPGA在深度学习应用中或将取代GPU

    现场可编程门阵列 (FPGA) 解决了 GPU 在运行深度学习模型时面临的许多问题 在过去的十年里,人工智能的再一次兴起使显卡行业受益匪浅。英伟达 (Nvidia) 和 AMD 等公司的股价也大幅
    发表于 03-21 15:19

    FPGA、ASIC、GPU谁是最合适的AI芯片?

    CPU、GPU遵循的是冯·诺依曼体系结构,指令要经过存储、译码、执行等步骤,共享内存在使用时,要经历仲裁和缓存。 而FPGA和ASIC并不是冯·诺依曼架构(是哈佛架构)。以FPGA
    发表于 01-06 11:20 565次阅读
    <b class='flag-5'>FPGA</b>、ASIC、<b class='flag-5'>GPU</b>谁是最合适的AI芯片?

    FPGAGPU的区别

    FPGA(现场可编程门阵列)和GPU(图形处理器)是两种常见的硬件加速器,用于提高计算和处理速度。尽管它们在很多方面都有重叠,但在架构、设计和应用上存在许多区别。在本文中,我们将详细探
    的头像 发表于 12-25 15:28 941次阅读

    177倍加速!NVIDIA最新开源 | GPU加速各种SDF建图!

    但最近,NVIDIA和ETHZ就联合提出了nvblox,是一个使用GPU加速SDF建图的库。计算速度非常快,相较CPU计算TSDF甚至快了177倍。更重要的是,因为所有数据都已经
    的头像 发表于 11-09 16:46 553次阅读
    177倍<b class='flag-5'>加速</b>!NVIDIA最新开源 | <b class='flag-5'>GPU</b><b class='flag-5'>加速</b>各种SDF建图!

    FPGA和CPU、GPU有什么区别?为什么越来越重要?

    ,在数据中心高性能计算及 AI 训练中,CPU 这一“主角”的重要性下降,而以往的“配角们”,即 GPUFPGA、TPU、DPU 等的加速器的重要性在上升。 图3:MLP网络本质
    发表于 11-09 14:09

    Oracle 云基础设施提供新的 NVIDIA GPU 加速计算实例

    生成式 AI 和大语言模型(LLM)不断推动突破性创新,训练和推理对算力的需求也随之急剧上升。 这些现代生成式 AI 应用需要全栈加速计算,首先要有能够快速、准确处理大量工作负载的先进基础设施
    的头像 发表于 09-25 20:40 283次阅读
    Oracle 云基础设施提供新的 NVIDIA <b class='flag-5'>GPU</b> <b class='flag-5'>加速</b><b class='flag-5'>计算</b>实例

    加速大数据和计算存储应用

    电子发烧友网站提供《加速大数据和计算存储应用.pdf》资料免费下载
    发表于 09-15 15:05 0次下载
    <b class='flag-5'>加速</b>大数据和<b class='flag-5'>计算</b><b class='flag-5'>存储</b>应用

    GPUFPGA的工作原理及其区别

      GPUFPGA都是现代计算机技术中的高性能计算设备,具有不同的特点和应用场景。本文将详细介绍GPU
    的头像 发表于 08-06 16:50 1538次阅读

    智能网卡简介及其在高性能计算中的作用

    和整合的阵列中。worker 表示负责在 SmartNIC 架构中执行特定任务或操作的计算组件或实体。这些工作线程包括 CPU 内核、GPU 或其他专门分配用于处理网络、卸载和加速功能的处理单元
    发表于 07-28 10:10

    FPGA 编程:原理概述

    还很宽。从根本上讲,GPU 和 CPU 类似,因为它们有固定的硬件,而且使用软件指令运行。一条指令可处理 1000 个以上的数据,因此它们适用于图形加速、高性能计算、视频处理以及某些形式的机器学习等特定
    发表于 06-28 18:18

    HPC应用如何使用GPU加速计算

    CPU(中央处理器)和GPU(图形处理器)是两种不同的处理器类型,主要的区别在于它们的设计目标和应用场景。
    的头像 发表于 06-21 15:38 1695次阅读

    基于 FPGA 的目标检测网络加速电路设计

    (FPGA)来构建硬件加速电路,来提升计算CNN的性能。 其中 ASIC 具备高性能、低功耗等特点,但 ASIC 的设计周期长,制造成本高,而 GPU 的并行度高,
    发表于 06-20 19:45

    基于FPGA的深度学习CNN加速器设计方案

    因为CNN的特有计算模式,通用处理器对于CNN实现效率并不高,不能满足性能要求。 因此,近来已经提出了基于FPGAGPU甚至ASIC设计的各种加速器来提高CNN设计的性能。
    发表于 06-14 16:03 1612次阅读
    基于<b class='flag-5'>FPGA</b>的深度学习CNN<b class='flag-5'>加速</b>器设计方案

    数据中心加速芯片需求大爆发,FPGA正领跑市场

    在传统数据中心部署方案中,计算和数据处理都是由CPU完成,存储和网络资源也是围绕CPU进行部署。然而,由于人工智能和物联网市场的爆发,云端数据量呈指数级增长,CPU便成为系统规模和效率提升的瓶颈,GPU
    的头像 发表于 05-20 11:37 1389次阅读
    数据中心<b class='flag-5'>加速</b>芯片需求大爆发,<b class='flag-5'>FPGA</b>正领跑市场