0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

FPGA与GPU计算存储单位功耗性能

算法与数据结构 来源:Xilinx赛灵思 作者:Xilinx 2021-08-13 17:45 次阅读

为了提升计算基础设施的性能,并紧跟数据分析与 AI 不断攀升的需求,众多企业将硬件加速视为主要的解决方案。在大多数情况下,先进的可编程硬件(主要是指 GPUFPGA)是加速的主要方式。通过使用这种先进的硬件,企业正在赢得计算优势;然而,对于编程难度,他们仍然存在合理的担忧。

硬件制造商正在将加速方法应用于计算存储,这是专门设计用于包含内嵌计算元素的存储。这种方法已经被证明可以为分析和 AI 应用提供优异的性能。使用或者不使用机器学习辅助的分析以及验证,都可以借助计算存储器件进行加速。这些器件提供了一个关键的优势,使得成本高昂的计算被卸载到存储器件上,而不必在服务器 CPU 上完成。与标准的存储/CPU 方法相比,通过计算存储获得的优势包括:

1

借助应用专用编程定制可编程硬件,获得更高性能

2

将计算任务从服务器卸载到存储器件,释放 CPU 资源

3

数据与计算共址,降低数据传输需求

这种新颖的方法前景光明。不过,您应根据具体用例评估这种方法,考量性能、成本、功耗和易用性。性价比和单位功耗性能在选择加速硬件评估时,占据主要比率。在本文中,我们将研讨单位功耗性能。

计算存储功耗比较

在这个场景中,我们将比较以 CSV 数据读取用例为主的三种工具:英伟达 GPUDirect 存储 和RAPIDS存储,以及基于赛灵思技术的三星 SmartSSD 存储。CSV 读取在计算密集型流水线中起着重要的作用。

在下文中,我们将性能定义成 CSV 的处理速率,或处理“带宽”。我们先快速回顾一下三种系统的运行方式。

英伟达 GPUDirect 存储

端到端满足分析和 AI 需求

将 GPU 用作计算单元,紧贴基于 NVMe 的存储器件布局 (GPUDirect)

使用 CUDA 进行编程 (RAPIDS)

英伟达用其 CSV 数据读取技术衡量相对于标准 SSD 的性能提升。结果如图 1 所示。使用 1 到 8 个加速器时,对应的吞吐量是 4 到 23GB/s。

三星 SmartSSD 驱动器

将赛灵思 FPGA 用作计算单元

与存储逻辑内嵌驻留在同一个内部 PCIe 互联上

通过编程在存储平台上开展运算

赛灵思数据分析解决方案合作伙伴 Bigstream 与三星合作,为 Apache Spark 设计加速器,包括用于 CSV 和 Parquet 处理的 IP。SmartSSD 的测试使用单机模式的 CSV 解析引擎,以便开展比较。结果如图 2 所示,使用 1 到 12 个加速器时,对应的吞吐量是 4 到 23GB/s,同时也给出英伟达的结果(使用 1 到 8 个加速器)。请注意,本讨论中的所有结果都按 x 轴上的加速器数量进行参数化。

这些结果令人振奋,但在选择您的解决方案时,请务必将功耗情况纳入考虑。

单位功耗性能比较

图 3 显示了将功耗考虑在内后的分析结果。它们代表单位功耗达到的性能水平,根据上述讨论中引用的相关材料,给出了以下假设:

Tesla V100 GPU:最大功耗 200 瓦

SmartSSD 驱动器 FPGA:最大功耗 30 瓦

在这个场景下,计算表明,在全部使用 8 个加速器的情况下,SmartSSD 的单位功耗性能比 GPUDirect Storage 高 25 倍。

最 终 思 考

计算存储的优势在于能增强数据分析和 AI 应用的性能。然而,要让这种方法具备可实际部署的能力和实用性,就必须在评估时将功耗纳入考虑。

针对用于 CSV 数据解析的两种不同的计算存储方法,我们已经提出按功耗参数化的吞吐量性能曲线。结果显示,在使用相似数量的加速器进行比较时,SmartSSD 驱动器的单位功耗性能优于 GPUDirect存储方法。

GPUDirect 是英伟达通过 NVIDIA DGX-2 应用平台提供的研究系统。

三星 SmartSSD 驱动器是一种可部署的量产型 PCIe 可插拔平台,现在已经通过赛灵思及分销商供货。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1590

    文章

    21136

    浏览量

    591878
  • 驱动器
    +关注

    关注

    51

    文章

    7198

    浏览量

    142523
  • 三星电子
    +关注

    关注

    34

    文章

    15567

    浏览量

    180028
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4305

    浏览量

    126218

原文标题:FPGA 与 GPU 计算存储加速对比

文章出处:【微信号:TheAlgorithm,微信公众号:算法与数据结构】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    到底什么是ASIC和FPGA

    和架构的角度,ASIC和FPGA性能和成本,肯定是优于CPU和GPU的。 CPU、GPU遵循的是冯·诺依曼体系结构,指令要经过存储
    发表于 01-23 19:08

    FPGA、ASIC、GPU谁是最合适的AI芯片?

    CPU、GPU遵循的是冯·诺依曼体系结构,指令要经过存储、译码、执行等步骤,共享内存在使用时,要经历仲裁和缓存。 而FPGA和ASIC并不是冯·诺依曼架构(是哈佛架构)。以FPGA
    发表于 01-06 11:20 427次阅读
    <b class='flag-5'>FPGA</b>、ASIC、<b class='flag-5'>GPU</b>谁是最合适的AI芯片?

    FPGAGPU的区别

    FPGA(现场可编程门阵列)和GPU(图形处理器)是两种常见的硬件加速器,用于提高计算和处理速度。尽管它们在很多方面都有重叠,但在架构、设计和应用上存在许多区别。在本文中,我们将详细探讨FPG
    的头像 发表于 12-25 15:28 662次阅读

    fpga配置flash怎么用来存储数据

    FPGA(现场可编程门阵列)是一种高度灵活的硬件设备,可以根据特定的需求进行重新配置。FPGA通常用于处理大量数据和实时计算。然而,FPGA通常并没有内置大容量的数据
    的头像 发表于 12-15 15:42 537次阅读

    FPGA和CPU、GPU有什么区别?为什么越来越重要?

    ,在数据中心高性能计算及 AI 训练中,CPU 这一“主角”的重要性下降,而以往的“配角们”,即 GPUFPGA、TPU、DPU 等的加速器的重要性在上升。 图3:MLP网络本质
    发表于 11-09 14:09

    【昉·星光 2 高性能RISC-V单板计算机体验】星光 2 功耗测评

    处理和智能视觉计算,还能满足多种边缘视觉实时处理需求。 功耗如何?进面进行测评: 采用GPIO,2,4 作为5V电源输入:接入键盘鼠标,HDMI驱动27寸显示屏。 视频动态功耗:开机电流稍微
    发表于 09-28 10:34

    基于FPGA计算的理论与实践

    简单的存储器,任何可能有五个或六个输入的布尔组合函数可以在每个逻辑块中实现。通用路由结构允许任意布线,因此可以以期望的方式连接逻辑元件。 由于这种通用性和灵活性,FPGA可以实现非常复杂的电路。目前
    发表于 09-21 06:04

    Mali GPU性能分析工具

    本文档描述了马里GPU性能分析工具2.2版中的已知勘误表。 这是一个贯穿整个产品生命周期的工作文档,因此,随着新信息的发现,其内容可能会被修改。 本文中包含的信息是ARM有限公司的财产,对错误或遗漏
    发表于 09-05 07:08

    天玑9300最新消息 联发科天玑9300采用Arm最新旗舰GPU G720功耗性能再硬卷

    天玑9300最新消息 联发科天玑9300采用Arm最新旗舰GPU G720功耗性能再硬卷 使用台积电4nm制程的联发科新一代旗舰芯片天玑9300最新消息被爆料了一些出来。 联发科新一代旗舰芯片
    的头像 发表于 09-01 15:18 1393次阅读

    Eideticom NoLoad计算存储解决方案解读

    NoLoad 计算存储设备与英特尔 Agilex FPGA 及英特尔 至强 处理器相结合,可为要求严苛的存储计算工作负载带来出色
    的头像 发表于 08-24 14:03 357次阅读
    Eideticom NoLoad<b class='flag-5'>计算</b><b class='flag-5'>存储</b>解决方案解读

    FPGA在高性能计算中的优势及其用例都有哪些?

    近年来,现场可编程门阵列 (FPGA) 因其可定制性、并行处理和低延迟而成为高性能计算 (HPC) 的可行技术。
    发表于 08-21 09:05 467次阅读
    <b class='flag-5'>FPGA</b>在高<b class='flag-5'>性能</b><b class='flag-5'>计算</b>中的优势及其用例都有哪些?

    GPUFPGA的工作原理及其区别

      GPUFPGA都是现代计算机技术中的高性能计算设备,具有不同的特点和应用场景。本文将详细介绍GPU
    的头像 发表于 08-06 16:50 1310次阅读

    智能网卡简介及其在高性能计算中的作用

    最先进的人工智能模型在不到五年的时间内经历了超过 5,000 倍的规模扩展。这些 AI 模型严重依赖复杂的计算和大量内存来实现高性能深度神经网络 (DNN)。只有使用 CPU、GPU 或专用芯片等
    发表于 07-28 10:10

    FPGA上优化实现复数浮点计算

    基于FPGA的浮点处理。本文的重点是FPGA及其浮点性能和设计流程,以及OpenCL的使用,这是高性能浮点计算前沿的编程语言。 各种处理平台
    的头像 发表于 06-10 10:15 365次阅读
    在<b class='flag-5'>FPGA</b>上优化实现复数浮点<b class='flag-5'>计算</b>

    如何使用iMX8mmini提高GPU性能

    我正在使用 iMX8mmini 并尝试提高 GPU 性能。使用下面的命令我发现当前 GPU 以 500 MHz 的频率运行。根据数据表或设备树节点,GPU 以 800 MHz 的标称频
    发表于 04-18 07:17