0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

赛灵思FPGA与VMware vSphere相结合实现高吞吐量、低时延ML推断性能

454398 来源:Xilinx赛灵思官微 作者:Xilinx赛灵思官微 2020-09-29 11:52 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

硬件加速器已在数据中心得到普遍使用,一系列新的工作负载已经能够成熟地发挥 FPGA 的加速优势及其更优异的计算效率。业界对机器学习 (ML) 的关注度不断提高,推动 FPGA 加速器在私有云、公有云、混合云数据中心环境中日益普及,从而为计算密集型工作负载加速。近期,在推动 IT 基础设施向异构计算转型的过程中,赛灵思与 VMware 展开协作,在 VMware 的云计算虚拟化平台vSphere上测试 FPGA 加速。由于赛灵思 FPGA 越来越广泛地应用于 ML 推断加速,本文将展示的是如何将赛灵思 FPGA 与 VMware vSphere 相结合,在虚拟部署和裸机部署上实现基本相同的高吞吐量、低时延 ML 推断性能。

“自适应计算”的优势
FPGA 是一种自适应计算器件,能够灵活地进行重新编程,从而满足目标应用不同的处理需求和功能要求。该特性使 FPGA 从 GPUASIC 等架构固定的器件中脱颖而出,更是远远优于成本不断飙升的的定制 ASIC。此外,与其他硬件加速器相比,FPGA 还具备高能效、低时延的优势,使 FPGA 特别适用于 ML 推断工作。与基本依靠大量并行处理核心实现高吞吐量的 GPU 不同的是,FPGA 通过定制化硬件内核、数据流流水线和互联,助力 ML 推断同时实现高吞吐量和低时延。

01. 在 vSphere 上使用 FPGA 开展 ML 推断

VMware 在其实验室中使用赛灵思 Alveo U250 数据中心卡进行测试。使用在Vitis AI中提供的 Docker 容器——为从边缘到云端的赛灵思硬件平台提供的 ML 推断统一开发栈,ML 模型可以迅速完成配置。该容器由经过优化的工具、库、模型和示例构成。Vitis AI 支持含 Caffe 和 TensorFlow 在内的主流框架以及能够执行多种深度学习任务的最新模型。此外,Vitis AI 是一种开源应用,可通过访问GitHub获取。

赛灵思FPGA与VMware vSphere相结合实现高吞吐量、低时延ML推断性能

图 1:Vitis AI 软件协议栈

目前,赛灵思 FPGA 通过 DirectPath I/O 模式(直通模式)能在 vSphere 上使用。在这种模式下,我们的 FPGA 能够由运行在虚拟机内部的应用直接访问,绕过程序管理层,从而最大化性能并最大限度降低时延。配置 DirectPath I/O 模式下的 FPGA 只需简单的两步流程:首先,在主机层面上启用 ESXi,然后将器件添加到目标虚拟机。详细操作方法参见 VMware KB 一文( https://kb.vmware.com/s/article/1010789 )。请注意,如果运行的是 vSphere 7,则不再需要重启主机。

02. 高吞吐量、低时延 ML 推断性能

通过与赛灵思合作,VMware 使用四个 CNN 模型执行推断任务,对我们的 Alveo U250 加速器卡在 DirectPath I/O 模式工作下的吞吐量和时延性能进行评估。这四个模型分别为Inception_v1、Inception_v2、Resnet50 和 VGG16。这些模型在模型参数数量上不尽相同,因而具备不同的处理复杂性。

测试在搭载两颗 10 核 Intel Xeon Silver 4114 CPU 和 192GB DDR4 存储器的 Dell PowerEdge R740 服务器上进行。我们使用 ESXi 7.0 虚拟机程序管理器,将每种模型的端到端性能结果与作为基线的裸机性能进行对比。Ubuntu 16.04(内核版本 4.4.0-116)用作客户端操作系统和本地操作系统。此外,在整个测试过程中将 Vitis AI v1.1 与 Docker CE 19.03.4 结合使用。同时使用源于 ImageNet2012 的 50k 图像数据集。为进一步避免图像读取过程中遭遇磁盘瓶颈,还创建了一个 RAM 磁盘用于存储 50k 图像。

完成这些设置后,虚拟测试和裸机测试之间的性能比较可从下面的两个图中进行观察。一个针对吞吐量,另一个针对时延。y 轴代表虚拟测试和裸机测试间的吞吐量性能比值。y=1.0 代表虚拟测试和裸机测试的吞吐量性能结果相同。

图 2:在 Alveo U250 FPGA 上运行 ML 推断时裸机测试和虚拟测试的吞吐量性能比较

图 3:在 Alveo U250 FPGA 上运行 ML 推断时裸机测试和虚拟测试的时延性能比较

测试证明,虚拟环境和裸机间在吞吐量和时延两方面的性能差距最大不超过 2%。这说明在虚拟环境中运行在 vSphere 上的 Alveo U250 的 ML 性能与作为基线的裸机性能极为相近。

03. 云端的 FPGA 性能

在数据中心中采用 FPGA 加速器已成为普遍现象,而且为满足对异构计算和性能提升的需求,FPGA 加速器的应用还将继续增长。我们非常高兴能够与 VMware 展开合作,共同确保客户能充分发挥运行在 vSphere 平台上的赛灵思 FPGA 加速的全部优势。我们在 vSphere 上对我们的 Alveo U250 加速器卡进行 ML 推断性能测试,成功地向客户证明了该器件在 DirectPath I/O 模式下能够实现接近裸机的性能。

编辑:hfy


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1655

    文章

    22283

    浏览量

    630278
  • 赛灵思
    +关注

    关注

    33

    文章

    1797

    浏览量

    133148
  • 云计算
    +关注

    关注

    39

    文章

    8003

    浏览量

    143100
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136233
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    数据吞吐量提升!面向下一代音频设备,蓝牙HDT、星闪、Wi-Fi、UWB同台竞技

    电子发烧友网报道(文/莫婷婷)音频设备数据吞吐量的提升是当前无线通信领域的一个重要发展趋势,蓝牙、Wi-Fi和UWB作为三种主要的无线通信技术,在这一趋势中扮演着关键角色。   数据吞吐量指的是在
    的头像 发表于 12-25 01:22 4222次阅读

    如何加速实时工作负载

    对于需要实时响应的数据中心工作负载,性能不仅是指原始吞吐量或处理能力。挑战在于:在保持吞吐量和能效的同时,实现确定性时
    的头像 发表于 09-10 15:36 501次阅读

    使用罗德与施瓦茨CMX500的吞吐量应用层测试方案

    5G NR(New Radio)吞吐量应用层测试是评估5G网络性能的一个重要方面,它主要关注的是在实际应用条件下,用户能够体验到的数据传输速率。这种测试通常包括了对下行链路和上行链路的吞吐量进行测量,以确保网络可以满足各种应用场
    的头像 发表于 09-02 13:56 7608次阅读
    使用罗德与施瓦茨CMX500的<b class='flag-5'>吞吐量</b>应用层测试方案

    TensorRT-LLM中的分离式服务

    在之前的技术博客中,我们介绍了延迟[1] 和吞吐[2] 场景的优化方法。对于生产部署,用户还关心在满足特定延迟约束的情况下,每个 GPU 的吞吐表现。本文将围绕“
    的头像 发表于 08-27 12:29 1379次阅读
    TensorRT-LLM中的分离式服务

    特方案 | FPGA 加持,友特图像采集卡高速预处理助力视觉系统运行提速增效

    图像预处理是图像处理关键中间环节,通过优化传感器到主机的数据传输处理为后续减负。其算法依托硬件执行,搭载 FPGA 的友特图像采集卡以高速运算和并行特性缩短处理时间、降低延迟并提升吞吐量,助力高速
    的头像 发表于 08-20 09:18 596次阅读
    友<b class='flag-5'>思</b>特方案 | <b class='flag-5'>FPGA</b> 加持,友<b class='flag-5'>思</b>特图像采集卡高速预处理助力视觉系统运行提速增效

    如何评估协议分析仪的性能指标?

    、Wireshark)生成测试报告。 实际场景验证:在目标网络中部署分析仪,监控72小时以上性能表现。 长期跟踪:每季度复测性能衰减情况(如硬件老化导致吞吐量下降)。 示例评估表: [td]指标权重测试方法目标值
    发表于 07-18 14:44

    u-blox发布首款车规级Wi-Fi 7模块RUBY-W2

    基于通技术公司Snapdragon汽车连接平台先进Wi-Fi 7技术,RUBY-W2支持更多并发用户连接,以吞吐量延迟实现车规级互联
    的头像 发表于 06-17 10:56 1677次阅读

    Altera SoC FPGA如何助力实现AI信道估计

    随着无线系统的持续演进,其能够支持更多的连接设备和更高的数据需求,同时无线信号链的效率和精度也变得至关重要。信号链中的基本要素之一是信道估计,即系统实时推断无线通信路径特性的过程。信道估计不准确会导致吞吐量下降、时增加并降低系
    的头像 发表于 06-14 14:54 1301次阅读

    CY7C65211 作为 SPI 从机模式工作时每秒的最大吞吐量是多少?

    CY7C65211 作为 SPI 从机模式工作时每秒的最大吞吐量是多少? 有实际的测试数据吗?
    发表于 05-27 07:38

    如何在Visual Studio 2022中运行FX3吞吐量基准测试工具?

    我正在尝试运行 John Hyde 的书“SuperSpeed by Design”中的 FX3 吞吐量基准测试工具。 但是,我面临一些困难,希望得到任何指导。 具体来说,我正在使用 Visual
    发表于 05-13 08:05

    FX3进行读或写操作时CS信号拉,在读或写完成后CS置,对吞吐量有没有影响?

    从尽可能提高吞吐量的角度看,在进行读或写操作时CS信号拉,在读或写完成后CS置,对吞吐量有没有影响,还是应该CS一直拉比较好。
    发表于 05-08 07:13

    国产EDA亿®接入DeepSeek

    国产EDA软件亿(eLinx)软件接入DeepSeek,为EDA行业注入变革性力量,开启FPGA应用开发的崭新篇章。通过集成DeepSeek插件,eLinx软件构建起连接FPGA
    的头像 发表于 02-21 17:26 1320次阅读
    国产EDA亿<b class='flag-5'>灵</b><b class='flag-5'>思</b>®接入DeepSeek

    吞吐量超高精度加工

    是一款工业超短脉冲 (USP) 激光器,可提供功率 (100 W) 绿光输出和始终如一的光束质量组合。因此它能够支持需要高吞吐量的要求严格的高精度材料加工应用。 高通量太阳能电池划片
    的头像 发表于 02-19 06:21 571次阅读
    <b class='flag-5'>高</b>通<b class='flag-5'>吞吐量</b>超高精度加工

    低温失效的原因,有没有别的方法或者一些见解?

    低温失效的原因,有没有别的方法或者一些见解。就是芯片工作温度在100°--40°区间,然后呢我们到了0°以下就不工作了,然后在低温的情况下监测了电流和电压都正常,频率也都正常,频率不是F
    发表于 12-30 16:28

    ADC芯片的采样率为100MSPS,位宽16位,那么吞吐量是多少?

    例如ADC芯片的采样率为100MSPS,位宽16位,那么吞吐量是多少? 用差分LVDS和FPGA相连,FPGA的时钟速率多少能够满足要求/?
    发表于 12-18 08:49