0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

VMware在vSphere上验证Alveo FPGA性能

星星科技指导员 来源:Xilinx 作者:Xilinx 2022-06-03 11:28 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

硬件加速器已经在数据中心变得司空见惯,大量新的工作负载已经成熟,可以利用 FPGA 加速的优势及其更高的计算效率。对机器学习 (ML) 的快速增长的兴趣正在推动在私有、公共和混合云数据中心环境中越来越多地采用 FPGA 加速器来加速这种计算密集型工作负载。作为促进 IT 基础架构向异构计算转型的一部分,我们最近与 VMware 合作在 vSphere上测试 FPGA 加速,VMware的云计算虚拟化平台。鉴于赛灵思 FPGA 越来越多地用于 ML 推理加速,我们将展示如何将赛灵思 FPGA 与 VMware vSphere 结合使用,以实现虚拟和裸机部署之间几乎相同的高吞吐量和低延迟 ML 推理性能。

自适应计算优势

FPGA 是自适应计算设备,可提供重新编程的灵活性以满足所需应用程序的不同处理和功能要求。这一特性将 FPGA 与 GPUASIC 等固定架构区分开来——更不用说定制 ASIC 飞涨的成本了。此外,与其他硬件加速器相比,FPGA 在实现高能效和低延迟方面也具有优势,这使得 FPGA 特别适用于 ML 推理任务。与 GPU 从根本上依赖大量并行处理内核来实现高吞吐量不同,FPGA 可以通过定制的硬件内核、数据流管道和互连同时实现 ML 推理的高吞吐量和低延迟。

在 vSphere 上使用 Xilinx FPGA 进行 ML 推理

VMware 在他们的实验室中使用 Xilinx Alveo U250 数据中心卡 进行测试。使用 Vitis AI中提供的 Docker 容器快速配置 ML 模型, Vitis AI是 Xilinx 统一开发堆栈,用于在 Xilinx 硬件平台上从 Edge 到 Cloud 进行 ML 推理。它由优化的工具、库、模型和示例组成。Vitis AI 支持主流框架,包括 Caffe 和 TensorFlow,以及能够执行各种深度学习任务的最新模型。此外,Vitis AI 是开源的,可以在 GitHub 上访问。

poYBAGKUOhaAWWRxAABjyRIuucA862.png

Vitis AI 软件堆栈

目前,Xilinx FPGA 可以通过 DirectPath I/O 模式(直通)在 vSphere 上启用。通过这种方式,我们的 FPGA 可以被运行在 VM 中的应用程序直接访问,绕过虚拟机管理程序层,从而最大限度地提高性能并最大限度地减少延迟。在 DirectPath I/O 模式下配置 FPGA 是一个简单的两步过程:首先,在主机级别启用 ESXi 上的设备,然后将设备添加到目标 VM。详细说明可在此 VMware 知识库文章中找到。请注意,如果您运行的是 vSphere 7,则不再需要重新引导主机。

高吞吐量、低延迟的机器学习推理性能

VMware 与 Xilinx 一起通过使用四个 CNN 模型运行推理来评估我们的 Alveo U250 加速卡在 DirectPath I/O 模式下的吞吐量和延迟性能:Inception_v1;初始_v2;资源网50;和 VGG16。这些模型的模型参数数量不同,因此具有不同的处理复杂性。

测试使用了配备两个 10 核 Intel Xeon Silver 4114 CPU 和 192 GB DDR4 内存的 Dell PowerEdge R740 服务器。我们使用了 ESXi 7.0 管理程序,并将每个模型的端到端性能结果与作为基准的裸机进行了比较。Ubuntu 16.04(内核 4.4.0-116)用作来宾操作系统和本机操作系统。此外,Vitis AI v1.1 和 Docker CE 19.03.4 用于整个测试。使用从 ImageNet2012 派生的 50k 图像数据集,为了进一步避免读取图像的磁盘瓶颈,创建了一个 RAM 磁盘并用于存储 50k 图像。

通过这些设置,虚拟和裸机测试之间的性能比较可以在以下两张图中查看,一张用于吞吐量,另一张用于延迟。y 轴是虚拟机和裸机之间的比率,y=1.0 表示虚拟机和裸机的性能相同。

pYYBAGKUOiGAZcb2AAA-wxzkd5U703.png

Xilinx Alveo U250 FPGA 机器学习推理的裸机和虚拟机吞吐量性能比较

pYYBAGKUOieAJctFAAA7mw1IcfU006.png

Xilinx Alveo U250 FPGA 机器学习推理的裸机和虚拟机延迟性能比较

测试验证了虚拟机和裸机之间的性能差距上限为 2%,无论是吞吐量还是延迟。这表明在虚拟环境中用于 ML 推理的 vSphere 上的 Alveo U250 的性能几乎与裸机基准相同。

云中的 FPGA 性能

FPGA 加速器在数据中心的采用正变得越来越普遍,并将继续增加以满足对异构计算和性能提升的日益增长的需求。我们很高兴与 VMware 合作,以确保客户能够充分利用 vSphere 平台上的 Xilinx FPGA 加速。我们的 Alveo U250 加速器在 vSphere for ML inference 上的测试成功地向客户展示了通过 DirectPath I/O 模式实现的接近原生的性能。审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1663

    文章

    22491

    浏览量

    638935
  • 数据中心
    +关注

    关注

    18

    文章

    5753

    浏览量

    75195
  • 机器学习
    +关注

    关注

    67

    文章

    8561

    浏览量

    137208
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    请教:6G 确定性通信原型验证FPGA+SDR 方案该怎么搭?

    平台选什么型号更适合做低时延空口验证? 原型验证阶段,最小可行验证系统应该包含哪些模块? 有没有类似确定性通信 / 硬实时通信的原型参考方案? 纯技术探讨,不涉及商业项目,希望做原型验证
    发表于 04-11 10:24

    选择AMD Alveo V80加速卡的五大理由

    AMD Alveo V80 加速卡专为需要实时加速的企业数据中心和云服务提供商而设计,它结合了可编程逻辑、片上高带宽内存( HBM )、高速网络核心以及网络直连接口,可实现实时性能Alveo
    的头像 发表于 04-10 14:59 261次阅读

    深入解析IGLOO2 FPGA与SmartFusion2 SoC FPGA性能、规格与应用考量

    深入解析IGLOO2 FPGA与SmartFusion2 SoC FPGA性能、规格与应用考量 在当今电子设计领域,FPGA(现场可编程门阵列)和SoC
    的头像 发表于 04-07 12:05 158次阅读

    深入解析IGLOO2 FPGA与SmartFusion2 SoC FPGA性能、特性与应用

    深入解析IGLOO2 FPGA与SmartFusion2 SoC FPGA性能、特性与应用 在当今电子科技飞速发展的时代,现场可编程门阵列(FPGA)和片
    的头像 发表于 04-07 11:55 188次阅读

    FPGA音频产品的应用案例

    FPGA(Field-Programmable Gate Array),现场可编程逻辑门阵列,它是一种电子设备,用于执行任何(数字)逻辑功能或数字电路的硬件实现。它是作为专用集成电路(ASIC)领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。
    的头像 发表于 03-19 10:30 2184次阅读
    <b class='flag-5'>FPGA</b><b class='flag-5'>在</b>音频产品<b class='flag-5'>上</b>的应用案例

    AMD Alveo MA35D加速器:开启大规模交互式流媒体新时代

    AMD Alveo MA35D加速器:开启大规模交互式流媒体新时代 在当今全球视频市场被直播主导的背景下,低延迟应用不断涌现,对基础设施和视频处理技术的成本结构及部署策略产生了深远影响。AMD推出
    的头像 发表于 12-15 14:35 544次阅读

    华为阿根廷完成拉美首次5G-A双路径性能验证

    日,华为阿根廷首都布宜诺斯艾利斯市,于实验室及商用站点,同时完成了Sub 3.5G 3CC CA,和毫米波+C-band CA两种5G-A eMBB场景的性能验证,分别达成了单用户
    的头像 发表于 11-14 16:33 1527次阅读

    如何使用FPGA实现SRIO通信协议

    本例程详细介绍了如何在FPGA实现Serial RapidIO(SRIO)通信协议,并通过Verilog语言进行编程设计。SRIO作为一种高速、低延迟的串行互连技术,性能计算和嵌
    的头像 发表于 11-12 14:38 6048次阅读
    如何使用<b class='flag-5'>FPGA</b>实现SRIO通信协议

    NVMe高速传输之摆脱XDMA设计43:如何验证

    仿真验证之后, 搭建硬件测试平台, 测试本IP实际应用环境中的功能与性能。本IP基于 Xilinx PCIe Integration Block 搭建, 常用的 PCIE 集成块版本有
    发表于 10-30 18:10

    如何利用Verilog HDLFPGA实现SRAM的读写测试

    本篇将详细介绍如何利用Verilog HDLFPGA实现SRAM的读写测试。SRAM是一种非易失性存储器,具有高速读取和写入的特点。FPGA
    的头像 发表于 10-22 17:21 4541次阅读
    如何利用Verilog HDL<b class='flag-5'>在</b><b class='flag-5'>FPGA</b><b class='flag-5'>上</b>实现SRAM的读写测试

    搭建自己的ubuntu系统之VMware Tools安装

    接下来安装VMware Tools,如果不安装该工具,Windows主机和虚拟机之间无法使用复制粘贴、文件拖拽。首先右击VMware导航栏的“虚拟机”,然后在下拉框中点击“安装
    发表于 09-25 09:45

    ubuntu系统安装之Vmware虚拟机安装

    Linux操作系统有很多版本,我们选择使用的是ubuntu18.04发行版。ubuntu是基于Debian派生的操作系统,兼容性极强,ubuntu的特点是界面友好,容易上手。本文中的介绍及开发均是
    发表于 09-22 16:27

    使用VerilogFPGA实现FOC电机控制系统

    自动驾驶、电动滑板车、无人机甚至工业自动化领域,高性能电机控制是不可或缺的核心技术。而如果你对硬件有足够的热情,你会发现:传统用 MCU 实现 FOC(Field-Oriented Control,磁场定向控制)也能“搬”到 FPGA
    的头像 发表于 08-21 15:27 5564次阅读
    使用Verilog<b class='flag-5'>在</b><b class='flag-5'>FPGA</b><b class='flag-5'>上</b>实现FOC电机控制系统

    降低adc不同PCB的噪声,如何做到接近AD4134验证板噪声水平?

    ,。多片AD4134布局到一整版PCB,且PCB存在FPGA和大量DC/DC,LDO。 374ksps采样率下,Nrms大约有1mvpp,(已采集过已知正弦波信号,波形特征正常)
    发表于 08-11 08:24

    FPGA EDA软件的位流验证

    位流验证,对于芯片研发是一个非常重要的测试手段,对于纯软件开发人员,最难理解的就是位流验证FPGA芯片研发中,位流验证是在做什么,在哪些
    的头像 发表于 04-25 09:42 2622次阅读
    <b class='flag-5'>FPGA</b> EDA软件的位流<b class='flag-5'>验证</b>