0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

FPGA与GPU计算存储加速对比

刘杰 来源:zrl12123456 作者:zrl12123456 2022-08-02 08:03 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

硬件制造商正在将加速方法应用于计算存储,这是专门设计用于包含内嵌计算元素的存储。这种方法已经被证明可以为分析和 AI 应用提供优异的性能。使用或者不使用机器学习辅助的分析以及验证,都可以借助计算存储器件进行加速。这些器件提供了一个关键的优势,使得成本高昂的计算被卸载到存储器件上,而不必在服务器 CPU 上完成。与标准的存储/CPU 方法相比,通过计算存储获得的优势包括:

1. 借助应用专用编程定制可编程硬件,获得更高性能

2. 将计算任务从服务器卸载到存储器件,释放 CPU 资源

3. 数据与计算共址,降低数据传输需求

这种新颖的方法前景光明。不过,您应根据具体用例评估这种方法,考量性能、成本、功耗和易用性。性价比和单位功耗性能在选择加速硬件评估时,占据主要比率。在本文中,我们将研讨单位功耗性能。

计算存储功耗比较

在这个场景中,我们将比较以 CSV 数据读取用例为主的三种工具:英伟达 GPUDirect 存储 和RAPIDS存储,以及基于赛灵思技术的三星 SmartSSD 存储。CSV 读取在计算密集型流水线中起着重要的作用(参见图 1)。

在下文中,我们将性能定义成 CSV 的处理速率,或处理“带宽”。我们先快速回顾一下三种系统的运行方式。

英伟达 GPUDirect 存储

端到端满足分析和 AI 需求

将 GPU 用作计算单元,紧贴基于 NVMe 的存储器件布局 (GPUDirect)

使用 CUDA 进行编程 (RAPIDS)

英伟达用其 CSV 数据读取技术衡量相对于标准 SSD 的性能提升。结果如图 1 所示。使用 1 到 8 个加速器时,对应的吞吐量是 4 到 23GB/s。

三星 SmartSSD 驱动器

将赛灵思 FPGA 用作计算单元

与存储逻辑内嵌驻留在同一个内部 PCIe 互联上

通过编程在存储平台上开展运算

赛灵思数据分析解决方案合作伙伴 Bigstream 与三星合作,为 Apache Spark 设计加速器,包括用于 CSV 和 Parquet 处理的 IP。SmartSSD 的测试使用单机模式的 CSV 解析引擎,以便开展比较。结果如图 2 所示,使用 1 到 12 个加速器时,对应的吞吐量是 4 到 23GB/s,同时也给出英伟达的结果(使用 1 到 8 个加速器)。请注意,本讨论中的所有结果都按 x 轴上的加速器数量进行参数化。

这些结果令人振奋,但在选择您的解决方案时,请务必将功耗情况纳入考虑。

图 2:SmartSSD 驱动器的 CSV 解析性能结果

单位功耗性能比较

图 3 显示了将功耗考虑在内后的分析结果。它们代表单位功耗达到的性能水平,根据上述讨论中引用的相关材料,给出了以下假设:

Tesla V100 GPU:最大功耗 200 瓦

SmartSSD 驱动器 FPGA:最大功耗 30 瓦

图 3:CSV 解析的每瓦功耗带宽比较

在这个场景下,计算表明,在全部使用 8 个加速器的情况下,SmartSSD 的单位功耗性能比 GPUDirect Storage 高 25 倍。

最终思考

计算存储的优势在于能增强数据分析和 AI 应用的性能。然而,要让这种方法具备可实际部署的能力和实用性,就必须在评估时将功耗纳入考虑。

针对用于 CSV 数据解析的两种不同的计算存储方法,我们已经提出按功耗参数化的吞吐量性能曲线。结果显示,在使用相似数量的加速器进行比较时,SmartSSD 驱动器的单位功耗性能优于 GPUDirect存储方法。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1655

    文章

    22282

    浏览量

    630078
  • 驱动器
    +关注

    关注

    54

    文章

    9012

    浏览量

    153293
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134423
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    FPGAGPU加速的视觉SLAM系统中特征检测器研究

    (Nvidia Jetson Orin与AMD Versal)上最佳GPU加速方案(FAST、Harris、SuperPoint)与对应FPGA加速方案的性能,得出全新结论。
    的头像 发表于 10-31 09:30 295次阅读
    <b class='flag-5'>FPGA</b>和<b class='flag-5'>GPU</b><b class='flag-5'>加速</b>的视觉SLAM系统中特征检测器研究

    PCIe协议分析仪能测试哪些设备?

    ) 测试场景:验证CPU与PCIe设备(如GPUFPGA)之间的数据流,优化任务调度和数据流。 应用价值:在异构计算环境中平衡计算资源,减少数据传输瓶颈。 二、
    发表于 07-25 14:09

    AMD FPGA异步模式与同步模式的对比

    本文讲述了AMD UltraScale /UltraScale+ FPGA 原生模式下,异步模式与同步模式的对比及其对时钟设置的影响。
    的头像 发表于 07-07 13:47 1420次阅读

    FPGA+AI王炸组合如何重塑未来世界:看看DeepSeek东方神秘力量如何预测......

    ...... 2) AI超算革命:FPGA集群功耗比GPU降低62%;混合精度计算效率提升5.8倍...... 3) 6G通信突破:软件无线电实现Sub-6GHz/毫米波全频段覆盖;Massive MIMO波束
    发表于 03-03 11:21

    GPU加速计算平台的优势

    传统的CPU虽然在日常计算任务中表现出色,但在面对大规模并行计算需求时,其性能往往捉襟见肘。而GPU加速计算平台凭借其独特的优势,吸引了行业
    的头像 发表于 02-23 16:16 754次阅读

    当我问DeepSeek AI爆发时代的FPGA是否重要?答案是......

    并行架构使其在处理深度学习中的矩阵运算、卷积运算等任务时,效率远高于传统的CPU和GPU。例如,在图像识别任务中,FPGA可以通过并行处理多个卷积核,显著加速特征提取过程。 • 低延迟与高吞吐量
    发表于 02-19 13:55

    GPU 加速计算:突破传统算力瓶颈的利刃

    在数字化时代,数据呈爆炸式增长,传统的算力已难以满足复杂计算任务的需求。无论是人工智能的深度学习、大数据的分析处理,还是科学研究中的模拟计算,都对算力提出了极高的要求。而云 GPU 加速
    的头像 发表于 02-17 10:36 513次阅读

    GPU计算服务怎么样

    在当今数字化快速发展的时代,高性能计算需求日益增长。为满足这些需求,GPU计算服务应运而生。那么,GPU计算服务怎么样呢?接下来,AI部
    的头像 发表于 02-05 15:01 676次阅读

    利用NVIDIA DPF引领DPU加速计算的未来

    DPU 的强大功能,并优化 GPU 加速计算平台。作为一种编排框架和实施蓝图,DPF 使开发者、服务提供商和企业能够无缝构建 BlueField 加速的云原生软件平台。
    的头像 发表于 01-24 09:29 1261次阅读
    利用NVIDIA DPF引领DPU<b class='flag-5'>加速</b>云<b class='flag-5'>计算</b>的未来

    FPGA+GPU+CPU国产化人工智能平台

    平台采用国产化FPGA+GPU+CPU构建嵌入式多核异构智算终端,可形成FPGA+GPUFPGA+CPU、CPU+FPGA等组合模式,形成低功耗、高可扩展性的硬件系统,结合使用场景灵
    的头像 发表于 01-07 16:42 1733次阅读
    <b class='flag-5'>FPGA+GPU</b>+CPU国产化人工智能平台

    ASIC和GPU的原理和优势

    芯片”。 准确来说,除了它俩,计算芯片还包括大家更熟悉的CPU,以及FPGA。 行业里,通常会把半导体芯片分为数字芯片和模拟芯片。其中,数字芯片的市场规模占比较大,达到70%左右。 数字芯片,还可以进一步细分,分为:逻辑芯片、存储
    的头像 发表于 01-06 13:58 3041次阅读
    ASIC和<b class='flag-5'>GPU</b>的原理和优势

    GPU加速云服务器怎么用的

    GPU加速云服务器是将GPU硬件与云计算服务相结合,通过云服务提供商的平台,用户可以根据需求灵活租用带有GPU资源的虚拟机实例。那么,
    的头像 发表于 12-26 11:58 846次阅读

    《CST Studio Suite 2024 GPU加速计算指南》

    许可证模型的加速令牌或SIMULIA统一许可证模型的SimUnit令牌或积分授权。 4. GPU计算的启用 - 交互式模拟:通过加速对话框启用,打开求解器对话框,点击“
    发表于 12-16 14:25

    助力AIoT应用:在米尔FPGA开发板上实现Tiny YOLO V4

    学习如何在 MYIR 的 ZU3EG FPGA 开发板上部署 Tiny YOLO v4,对比 FPGAGPU、CPU 的性能,助力 AIoT 边缘
    发表于 12-06 17:18