0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

VMware在vSphere上验证Alveo FPGA性能

星星科技指导员 来源:Xilinx 作者:Xilinx 2022-06-03 11:28 次阅读

硬件加速器已经在数据中心变得司空见惯,大量新的工作负载已经成熟,可以利用 FPGA 加速的优势及其更高的计算效率。对机器学习 (ML) 的快速增长的兴趣正在推动在私有、公共和混合云数据中心环境中越来越多地采用 FPGA 加速器来加速这种计算密集型工作负载。作为促进 IT 基础架构向异构计算转型的一部分,我们最近与 VMware 合作在 vSphere上测试 FPGA 加速,VMware的云计算虚拟化平台。鉴于赛灵思 FPGA 越来越多地用于 ML 推理加速,我们将展示如何将赛灵思 FPGA 与 VMware vSphere 结合使用,以实现虚拟和裸机部署之间几乎相同的高吞吐量和低延迟 ML 推理性能。

自适应计算优势

FPGA 是自适应计算设备,可提供重新编程的灵活性以满足所需应用程序的不同处理和功能要求。这一特性将 FPGA 与 GPUASIC 等固定架构区分开来——更不用说定制 ASIC 飞涨的成本了。此外,与其他硬件加速器相比,FPGA 在实现高能效和低延迟方面也具有优势,这使得 FPGA 特别适用于 ML 推理任务。与 GPU 从根本上依赖大量并行处理内核来实现高吞吐量不同,FPGA 可以通过定制的硬件内核、数据流管道和互连同时实现 ML 推理的高吞吐量和低延迟。

在 vSphere 上使用 Xilinx FPGA 进行 ML 推理

VMware 在他们的实验室中使用 Xilinx Alveo U250 数据中心卡 进行测试。使用 Vitis AI中提供的 Docker 容器快速配置 ML 模型, Vitis AI是 Xilinx 统一开发堆栈,用于在 Xilinx 硬件平台上从 Edge 到 Cloud 进行 ML 推理。它由优化的工具、库、模型和示例组成。Vitis AI 支持主流框架,包括 Caffe 和 TensorFlow,以及能够执行各种深度学习任务的最新模型。此外,Vitis AI 是开源的,可以在 GitHub 上访问。

poYBAGKUOhaAWWRxAABjyRIuucA862.png

Vitis AI 软件堆栈

目前,Xilinx FPGA 可以通过 DirectPath I/O 模式(直通)在 vSphere 上启用。通过这种方式,我们的 FPGA 可以被运行在 VM 中的应用程序直接访问,绕过虚拟机管理程序层,从而最大限度地提高性能并最大限度地减少延迟。在 DirectPath I/O 模式下配置 FPGA 是一个简单的两步过程:首先,在主机级别启用 ESXi 上的设备,然后将设备添加到目标 VM。详细说明可在此 VMware 知识库文章中找到。请注意,如果您运行的是 vSphere 7,则不再需要重新引导主机。

高吞吐量、低延迟的机器学习推理性能

VMware 与 Xilinx 一起通过使用四个 CNN 模型运行推理来评估我们的 Alveo U250 加速卡在 DirectPath I/O 模式下的吞吐量和延迟性能:Inception_v1;初始_v2;资源网50;和 VGG16。这些模型的模型参数数量不同,因此具有不同的处理复杂性。

测试使用了配备两个 10 核 Intel Xeon Silver 4114 CPU 和 192 GB DDR4 内存的 Dell PowerEdge R740 服务器。我们使用了 ESXi 7.0 管理程序,并将每个模型的端到端性能结果与作为基准的裸机进行了比较。Ubuntu 16.04(内核 4.4.0-116)用作来宾操作系统和本机操作系统。此外,Vitis AI v1.1 和 Docker CE 19.03.4 用于整个测试。使用从 ImageNet2012 派生的 50k 图像数据集,为了进一步避免读取图像的磁盘瓶颈,创建了一个 RAM 磁盘并用于存储 50k 图像。

通过这些设置,虚拟和裸机测试之间的性能比较可以在以下两张图中查看,一张用于吞吐量,另一张用于延迟。y 轴是虚拟机和裸机之间的比率,y=1.0 表示虚拟机和裸机的性能相同。

pYYBAGKUOiGAZcb2AAA-wxzkd5U703.png

Xilinx Alveo U250 FPGA 机器学习推理的裸机和虚拟机吞吐量性能比较

pYYBAGKUOieAJctFAAA7mw1IcfU006.png

Xilinx Alveo U250 FPGA 机器学习推理的裸机和虚拟机延迟性能比较

测试验证了虚拟机和裸机之间的性能差距上限为 2%,无论是吞吐量还是延迟。这表明在虚拟环境中用于 ML 推理的 vSphere 上的 Alveo U250 的性能几乎与裸机基准相同。

云中的 FPGA 性能

FPGA 加速器在数据中心的采用正变得越来越普遍,并将继续增加以满足对异构计算和性能提升的日益增长的需求。我们很高兴与 VMware 合作,以确保客户能够充分利用 vSphere 平台上的 Xilinx FPGA 加速。我们的 Alveo U250 加速器在 vSphere for ML inference 上的测试成功地向客户展示了通过 DirectPath I/O 模式实现的接近原生的性能。审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1602

    文章

    21320

    浏览量

    593183
  • 数据中心
    +关注

    关注

    15

    文章

    4187

    浏览量

    70007
  • 机器学习
    +关注

    关注

    66

    文章

    8122

    浏览量

    130557
收藏 人收藏

    评论

    相关推荐

    fpga原型验证流程

    FPGA原型验证流程是确保FPGA(现场可编程门阵列)设计正确性和功能性的关键步骤。它涵盖了从设计实现到功能验证的整个过程,是FPGA开发流
    的头像 发表于 03-15 15:05 372次阅读

    fpga验证和uvm验证的区别

    FPGA验证和UVM验证在芯片设计和验证过程中都扮演着重要的角色,但它们之间存在明显的区别。
    的头像 发表于 03-15 15:00 262次阅读

    什么是FPGA原型验证FPGA原型设计的好处是什么?

    FPGA原型设计是一种成熟的技术,用于通过将RTL移植到现场可编程门阵列(FPGA)来验证专门应用的集成电路(ASIC),专用标准产品(ASSP)和片上系统(SoC)的功能和性能
    发表于 01-12 16:13 382次阅读

    使用赛灵思Alveo加速器卡加速DNN

    电子发烧友网站提供《使用赛灵思Alveo加速器卡加速DNN.pdf》资料免费下载
    发表于 09-18 09:27 0次下载
    使用赛灵思<b class='flag-5'>Alveo</b>加速器卡加速DNN

    日立统一计算平台VMware vSphere Pro

    电子发烧友网站提供《日立统一计算平台VMware vSphere Pro.pdf》资料免费下载
    发表于 08-30 09:20 0次下载
    日立统一计算平台<b class='flag-5'>VMware</b> <b class='flag-5'>vSphere</b> Pro

    使用日立部署VMware vSphere虚拟存储平台IBM x3550 M4服务器和锦网络在可伸缩的环境中

    电子发烧友网站提供《使用日立部署VMware vSphere虚拟存储平台IBM x3550 M4服务器和锦网络在可伸缩的环境中.pdf》资料免费下载
    发表于 08-28 10:15 0次下载
    使用日立部署<b class='flag-5'>VMware</b> <b class='flag-5'>vSphere</b>虚拟存储平台IBM x3550 M4服务器和锦网络在可伸缩的环境中

    NetApp VMware和Broadcom验证架构设计

    电子发烧友网站提供《NetApp VMware和Broadcom验证架构设计.pdf》资料免费下载
    发表于 08-23 15:17 0次下载
    NetApp <b class='flag-5'>VMware</b>和Broadcom<b class='flag-5'>验证</b>架构设计

    七夕遇见 AI:观看黄仁勋在 VMware Explore 2023 的现场演讲

    可让您在混合平台上轻松灵活地运行业务应用程序。加入我们,了解 NVIDIA 和 VMware 如何帮助您的组织采用生成式 AI 并为您的企业带来机遇。 借助 BlueField DPU 上的 VMware vSphere 加速
    的头像 发表于 08-22 19:25 617次阅读
    七夕遇见 AI:观看黄仁勋在 <b class='flag-5'>VMware</b> Explore 2023 的现场演讲

    七夕遇见 AI:观看黄仁勋在 VMware Explore 2023 的现场演讲(互动有礼)

    可让您在混合平台上轻松灵活地运行业务应用程序。加入我们,了解 NVIDIA 和 VMware 如何帮助您的组织采用生成式 AI 并为您的企业带来机遇。 借助 BlueField DPU 上的 VMware vSphere 加速
    的头像 发表于 08-22 19:20 517次阅读

    VMware vSphere 6.0 U2上的存储I/O性能超过32Gb光纤通道

    电子发烧友网站提供《VMware vSphere 6.0 U2上的存储I/O性能超过32Gb光纤通道.pdf》资料免费下载
    发表于 08-21 11:32 0次下载
    <b class='flag-5'>VMware</b> <b class='flag-5'>vSphere</b> 6.0 U2上的存储I/O<b class='flag-5'>性能</b>超过32Gb光纤通道

    VMware vSphere 6.0 U2上通过32GB光纤通道的存储I/O性能

    电子发烧友网站提供《VMware vSphere 6.0 U2上通过32GB光纤通道的存储I/O性能.pdf》资料免费下载
    发表于 08-16 15:35 0次下载
    <b class='flag-5'>VMware</b> <b class='flag-5'>vSphere</b> 6.0 U2上通过32GB光纤通道的存储I/O<b class='flag-5'>性能</b>

    vSphere 7.0 U1中的NVMe-oF的性能表征

    电子发烧友网站提供《vSphere 7.0 U1中的NVMe-oF的性能表征.pdf》资料免费下载
    发表于 08-04 09:15 0次下载
    <b class='flag-5'>vSphere</b> 7.0 U1中的NVMe-oF的<b class='flag-5'>性能</b>表征

    为什么SoC验证一定需要FPGA原型验证呢?

    在现代SoC芯片验证过程中,不可避免的都会使用FPGA原型验证,或许原型验证一词对你而言非常新鲜,但是FPGA上板
    发表于 05-30 15:04 986次阅读
    为什么SoC<b class='flag-5'>验证</b>一定需要<b class='flag-5'>FPGA</b>原型<b class='flag-5'>验证</b>呢?

    从SoC仿真验证FPGA原型验证的时机

    我们当然希望在项目中尽快准备好基于FPGA原型验证的代码,以便最大限度地为软件团队和RTL验证人员带来更客观的收益。
    发表于 05-30 11:10 804次阅读
    从SoC仿真<b class='flag-5'>验证</b>到<b class='flag-5'>FPGA</b>原型<b class='flag-5'>验证</b>的时机

    多片FPGA原型验证系统互连拓扑分析

    多片FPGA的原型验证系统的性能和容量通常受到FPGA间连接的限制。FPGA中有大量的资源,但IO引脚的数量受封装技术的限制,通常只有100
    发表于 05-23 17:12 1243次阅读
    多片<b class='flag-5'>FPGA</b>原型<b class='flag-5'>验证</b>系统互连拓扑分析