FPGA与GPU计算存储单位功耗性能-电子发烧友网

为了提升计算基础设施的性能，并紧跟数据分析与 AI 不断攀升的需求，众多企业将硬件加速视为主要的解决方案。在大多数情况下，先进的可编程硬件（主要是指 GPU 和 FPGA）是加速的主要方式。通过使用这种先进的硬件，企业正在赢得计算优势；然而，对于编程难度，他们仍然存在合理的担忧。

硬件制造商正在将加速方法应用于计算存储，这是专门设计用于包含内嵌计算元素的存储。这种方法已经被证明可以为分析和 AI 应用提供优异的性能。使用或者不使用机器学习辅助的分析以及验证，都可以借助计算存储器件进行加速。这些器件提供了一个关键的优势，使得成本高昂的计算被卸载到存储器件上，而不必在服务器 CPU 上完成。与标准的存储/CPU 方法相比，通过计算存储获得的优势包括：

借助应用专用编程定制可编程硬件，获得更高性能

将计算任务从服务器卸载到存储器件，释放 CPU 资源

数据与计算共址，降低数据传输需求

这种新颖的方法前景光明。不过，您应根据具体用例评估这种方法，考量性能、成本、功耗和易用性。性价比和单位功耗性能在选择加速硬件评估时，占据主要比率。在本文中，我们将研讨单位功耗性能。

计算存储功耗比较

在这个场景中，我们将比较以 CSV 数据读取用例为主的三种工具：英伟达 GPUDirect 存储和RAPIDS存储，以及基于赛灵思技术的三星 SmartSSD 存储。CSV 读取在计算密集型流水线中起着重要的作用。

在下文中，我们将性能定义成 CSV 的处理速率，或处理“带宽”。我们先快速回顾一下三种系统的运行方式。

英伟达 GPUDirect 存储

端到端满足分析和 AI 需求

将 GPU 用作计算单元，紧贴基于 NVMe 的存储器件布局 (GPUDirect)

使用 CUDA 进行编程 (RAPIDS)

英伟达用其 CSV 数据读取技术衡量相对于标准 SSD 的性能提升。结果如图 1 所示。使用 1 到 8 个加速器时，对应的吞吐量是 4 到 23GB/s。

三星 SmartSSD 驱动器

将赛灵思 FPGA 用作计算单元

与存储逻辑内嵌驻留在同一个内部 PCIe 互联上

通过编程在存储平台上开展运算

赛灵思数据分析解决方案合作伙伴 Bigstream 与三星合作，为 Apache Spark 设计加速器，包括用于 CSV 和 Parquet 处理的 IP。SmartSSD 的测试使用单机模式的 CSV 解析引擎，以便开展比较。结果如图 2 所示，使用 1 到 12 个加速器时，对应的吞吐量是 4 到 23GB/s，同时也给出英伟达的结果（使用 1 到 8 个加速器）。请注意，本讨论中的所有结果都按 x 轴上的加速器数量进行参数化。

这些结果令人振奋，但在选择您的解决方案时，请务必将功耗情况纳入考虑。

单位功耗性能比较

图 3 显示了将功耗考虑在内后的分析结果。它们代表单位功耗达到的性能水平，根据上述讨论中引用的相关材料，给出了以下假设：

Tesla V100 GPU：最大功耗 200 瓦

SmartSSD 驱动器 FPGA：最大功耗 30 瓦

在这个场景下，计算表明，在全部使用 8 个加速器的情况下，SmartSSD 的单位功耗性能比 GPUDirect Storage 高 25 倍。

最终思考

计算存储的优势在于能增强数据分析和 AI 应用的性能。然而，要让这种方法具备可实际部署的能力和实用性，就必须在评估时将功耗纳入考虑。

针对用于 CSV 数据解析的两种不同的计算存储方法，我们已经提出按功耗参数化的吞吐量性能曲线。结果显示，在使用相似数量的加速器进行比较时，SmartSSD 驱动器的单位功耗性能优于 GPUDirect存储方法。

GPUDirect 是英伟达通过 NVIDIA DGX-2 应用平台提供的研究系统。

三星 SmartSSD 驱动器是一种可部署的量产型 PCIe 可插拔平台，现在已经通过赛灵思及分销商供货。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

FPGA

FPGA

+关注

关注
1602

文章
21309

浏览量
593133
驱动器

驱动器

+关注

关注
51

文章
7305

浏览量
142928
三星电子

三星电子

+关注

关注
34

文章
15603

浏览量
180115
gpu

gpu

+关注

关注
27

文章
4415

浏览量
126665

原文标题：FPGA 与 GPU 计算存储加速对比

文章出处：【微信号：TheAlgorithm，微信公众号：算法与数据结构】欢迎添加关注！文章转载请注明出处。

fpga和gpu的区别

FPGA（现场可编程门阵列）和GPU（图形处理器）在多个方面存在显著的区别。

发表于 03-27 14:23 •251次阅读

FPGA在深度学习应用中或将取代GPU

，并在运算速度和吞吐量方面提供了更高的性能。它们的使用寿命也更长，大约是 GPU 的 2-5 倍，并且对恶劣环境和其它特殊环境因素有更强的适应性。有一些公司已经在他们的人工智能产品中使用了 FPGA

发表于 03-21 15:19

到底什么是ASIC和FPGA？

和架构的角度，ASIC和FPGA的性能和成本，肯定是优于CPU和GPU的。 CPU、GPU遵循的是冯·诺依曼体系结构，指令要经过存储

发表于 01-23 19:08

FPGA、ASIC、GPU谁是最合适的AI芯片？

CPU、GPU遵循的是冯·诺依曼体系结构，指令要经过存储、译码、执行等步骤，共享内存在使用时，要经历仲裁和缓存。而FPGA和ASIC并不是冯·诺依曼架构（是哈佛架构）。以FPGA

发表于 01-06 11:20 •565次阅读

FPGA与GPU的区别

FPGA（现场可编程门阵列）和GPU（图形处理器）是两种常见的硬件加速器，用于提高计算和处理速度。尽管它们在很多方面都有重叠，但在架构、设计和应用上存在许多区别。在本文中，我们将详细探讨FPG

发表于 12-25 15:28 •940次阅读

fpga配置flash怎么用来存储数据

FPGA（现场可编程门阵列）是一种高度灵活的硬件设备，可以根据特定的需求进行重新配置。FPGA通常用于处理大量数据和实时计算。然而，FPGA通常并没有内置大容量的数据

发表于 12-15 15:42 •757次阅读

FPGA和CPU、GPU有什么区别？为什么越来越重要？

，在数据中心高性能计算及 AI 训练中，CPU 这一“主角”的重要性下降，而以往的“配角们”，即 GPU、FPGA、TPU、DPU 等的加速器的重要性在上升。图3：MLP网络本质

发表于 11-09 14:09

【昉·星光 2 高性能RISC-V单板计算机体验】星光 2 功耗测评

处理和智能视觉计算，还能满足多种边缘视觉实时处理需求。功耗如何？进面进行测评：采用GPIO，2,4 作为5V电源输入：接入键盘鼠标，HDMI驱动27寸显示屏。视频动态功耗：开机电流稍微

发表于 09-28 10:34

Mali GPU性能分析工具

本文档描述了马里GPU性能分析工具2.2版中的已知勘误表。这是一个贯穿整个产品生命周期的工作文档，因此，随着新信息的发现，其内容可能会被修改。本文中包含的信息是ARM有限公司的财产，对错误或遗漏

发表于 09-05 07:08

天玑9300最新消息　联发科天玑9300采用Arm最新旗舰GPU G720功耗性能再硬卷

天玑9300最新消息联发科天玑9300采用Arm最新旗舰GPU G720功耗性能再硬卷使用台积电4nm制程的联发科新一代旗舰芯片天玑9300最新消息被爆料了一些出来。联发科新一代旗舰芯片

发表于 09-01 15:18 •1506次阅读

Eideticom NoLoad计算存储解决方案解读

NoLoad 计算存储设备与英特尔 Agilex FPGA 及英特尔至强处理器相结合，可为要求严苛的存储和计算工作负载带来出色

发表于 08-24 14:03 •398次阅读

FPGA在高性能计算中的优势及其用例都有哪些？

近年来，现场可编程门阵列 (FPGA) 因其可定制性、并行处理和低延迟而成为高性能计算 (HPC) 的可行技术。

发表于 08-21 09:05 •496次阅读

GPU和FPGA的工作原理及其区别

　　GPU和FPGA都是现代计算机技术中的高性能计算设备，具有不同的特点和应用场景。本文将详细介绍GPU

发表于 08-06 16:50 •1535次阅读

智能网卡简介及其在高性能计算中的作用

最先进的人工智能模型在不到五年的时间内经历了超过 5，000 倍的规模扩展。这些 AI 模型严重依赖复杂的计算和大量内存来实现高性能深度神经网络（DNN）。只有使用 CPU、GPU 或专用芯片等

发表于 07-28 10:10

在FPGA上优化实现复数浮点计算

基于FPGA的浮点处理。本文的重点是FPGA及其浮点性能和设计流程，以及OpenCL的使用，这是高性能浮点计算前沿的编程语言。各种处理平台

发表于 06-10 10:15 •402次阅读