0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在赛灵思FPGA SoC平台上使用VITIS AI加速人工智能应用

星星科技指导员 来源:嵌入式计算设计 作者:Vaibhav Kothari 2022-11-22 14:48 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

VITIS 是一个用于开发软件和硬件的统一软件平台,将 Vivado 和其他组件用于 Xilinx FPGA SoC 平台,如 ZynqMP UltraScale+ 和 Alveo 卡。VITIS SDK的关键组件,VITIS AI运行时(VART),为在边缘和云端部署终端ML/AI应用程序提供了一个统一的接口

机器学习中的推理是计算密集型的,需要高内存带宽和高性能计算,以满足各种终端应用的低延迟和高吞吐量需求。

维蒂斯人工智能工作流程

Xilinx Vitis AI 提供了一个工作流程,使用简单的流程在 Xilinx 深度学习处理单元 (DPU) 上部署深度学习推理应用:

深度处理单元 (DPU) 是一个可配置的计算引擎,针对深度学习推理应用的卷积神经网络进行了优化,并放置在可编程逻辑 (PL) 中。DPU 包含高效且可扩展的 IP 核,可进行定制以满足许多不同应用的需求。DPU 定义自己的指令集,Vitis AI 编译器生成指令。

VITIS AI編譯器以優化的方式安排指令,以獲得最大的效能。

在 Xilinx ZynqMP UltraScale+ SoC 平台上运行任何 AI 应用程序的典型工作流程包括以下内容:

模型量化

模型编译

模型优化(可选)

构建 DPU 可执行文件

构建软件应用程序

集成 VITIS AI 统一 API

编译和链接混合 DPU 应用程序

在 FPGA 上部署混合 DPU 可执行文件

人工智能量化器

AI 量化器是一种用于量化过程的压缩工具,通过将 32 位浮点权重和激活转换为定点 INT8。它可以在不丢失模型准确信息的情况下降低计算复杂性。定点模型需要更少的内存,因此提供比浮点实现更快的执行速度和更高的电源效率。

人工智能编译器

AI 编译器将网络模型映射到高效的指令集和数据流。编译器的输入是量化的 8 位神经网络,输出是 DPU 内核 - 可执行文件将在 DPU 上运行。在这里,不支持的层需要部署在CPU中,或者可以自定义模型来替换和删除那些不支持的操作。它还执行复杂的优化,如层融合、指令调度和片上存储器的重用。

一旦我们能够执行 DPU,我们需要使用 Vitis AI 统一的 API 来初始化数据结构,初始化 DPU,在 CPU 上实现 DPU 不支持的层,并根据需要在 PL/PS 上添加预处理和后处理。

人工智能优化器

凭借其模型压缩技术,AI 优化器可以将模型复杂性降低 5-50 倍,同时对准确性的影响最小。这种深度压缩将推理性能提升到一个新的水平。我们可以实现所需的稀疏性并将运行时间缩短 2.5 倍。

AI 分析器

AI 探查器可以帮助分析推理查找导致端到端管道瓶颈的注意事项。性能分析器为设计人员提供了 DPU/CPU/内存的通用时间线。此过程不会更改任何代码,并且可以跟踪函数并进行分析。

人工智能运行时

VITIS AI 运行时 (VART) 允许应用程序使用统一的高级运行时 API 进行边缘和云部署,使其无缝且高效。一些主要功能包括:

异步作业提交

异步作业收集

C++Python 实现

多线程和多进程执行

Vitis AI还提供DSight,DExplorer,DDump和DLet等,用于各种任务执行。

DSight & DExplorer

DPU IP 为特定内核提供了多种配置,可根据网络型号进行选择。DSight 告诉我们每个 DPU 内核的利用率百分比。它还提供了调度程序的效率,以便我们可以调整用户线程。还可以查看性能数字,例如每层和每个DPU节点的MOPS,运行时和内存带宽。

Softnautics选择 Xilinx ZynqMP UltraScale+ 平台进行高性能和计算部署。它提供最佳的應用處理、高度可配置的 FPGA 加速功能,以及 VITIS SDK,以加速高性能 ML/AI 推理。我们针对的一个这样的应用是用于 Covid-19 筛查的口罩检测。其目的是根据各国政府对 Covid-19 预防措施指南的要求,部署多流推理,用于对戴口罩的人进行 Covid-19 筛查并实时识别违规行为。

我们准备了一个数据集并选择了预先训练的权重来设计一个用于掩模检测和筛选的模型。我们通过TensorFlow框架训练和修剪了我们的自定义模型。这是人脸检测和面具检测的两阶段部署。这样获得的训练模型是通过前面章节中介绍的VITIS AI工作流程传递的。我们观察到推理时间的速度是 CPU 的 10 倍。Xilinx 提供不同的调试工具和实用程序,在初始开发和部署过程中非常有用。在初始部署阶段,我们没有检测到掩码和非掩码类别。我们尝试将基于 PC 的推理输出与一个名为 Dexplorer 的调试实用程序之一的输出相匹配。但是,调试模式和根导致问题进一步调试。运行量化器后,我们可以使用更大的校准图像、迭代和检测来调整输出,视频馈送的准确率约为 96%。我们还尝试使用 AI 分析器识别管道中的瓶颈,然后采取纠正措施通过各种方式消除瓶颈,例如使用 HLS 加速来计算后处理中的瓶颈。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1656

    文章

    22288

    浏览量

    630378
  • soc
    soc
    +关注

    关注

    38

    文章

    4516

    浏览量

    227649
  • 人工智能
    +关注

    关注

    1813

    文章

    49746

    浏览量

    261602
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Sapphire SoC中RISC-V平台级中断控制器深度解析

    随着 RISC -V处理器 FPGA 领域的广泛应用,易 FPGA 的 Sapphire RISC-V 内核凭借软硬核的灵活支持,为
    的头像 发表于 11-08 09:35 6917次阅读
    易<b class='flag-5'>灵</b><b class='flag-5'>思</b>Sapphire <b class='flag-5'>SoC</b>中RISC-V<b class='flag-5'>平台</b>级中断控制器深度解析

    AMD Vitis AI 5.1测试版现已开放下载

    AMD Vitis AI 5.1全新发布——新增了对 AMD Versal AI Edge 系列神经网络处理单元( NPU )的支持。Vitis A
    的头像 发表于 11-08 09:24 994次阅读

    AMD Vitis AI 5.1测试版发布

    AMD Vitis AI 5.1全新发布——新增了对 AMD Versal AI Edge 系列神经网络处理单元 (NPU) 的支持。Vitis A
    的头像 发表于 10-31 12:46 496次阅读

    利用超微型 Neuton ML 模型解锁 SoC 边缘人工智能

    我们所有的 SoC 都能用于边缘人工智能。例子包括: 预测性维护和楼宇自动化系统 每个节点上进行本地数据分析的智能传感器网络 遥控器和可穿戴设备的动作和手势识别 用于
    发表于 08-31 20:54

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    ,技术自主可控 如今这个科技竞争激烈的时代,国产化硬件的重要性不言而喻。比邻星人工智能综合实验箱就做到了这一点,采用国产化硬件,积极推进全行业产业链上下游环节的国产化进程,把国产自主可控的软硬件平台
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    ,技术自主可控 如今这个科技竞争激烈的时代,国产化硬件的重要性不言而喻。比邻星人工智能综合实验箱就做到了这一点,采用国产化硬件,积极推进全行业产业链上下游环节的国产化进程,把国产自主可控的软硬件平台
    发表于 08-07 14:23

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    Neuton 是一家边缘AI 公司,致力于让机器 学习模型更易于使用。它创建的模型比竞争对手的框架小10 倍,速度也快10 倍,甚至可以最先进的边缘设备上进行人工智能处理。在这篇博文中,我们将介绍
    发表于 07-31 11:38

    迅为RK3588开发板Linux安卓麒麟瑞芯微国产工业AI人工智能

    迅为RK3588开发板Linux安卓麒麟瑞芯微国产工业AI人工智能
    发表于 07-14 11:23

    深瞳亮相AICon 2025全球人工智能开发与应用大会

    此前,6月27-28日,由极客邦科技旗下InfoQ中国主办的“AICon全球人工智能开发与应用大会”北京举办。作为行业领先的视觉AI公司,格深瞳受邀参会。
    的头像 发表于 07-05 16:15 1250次阅读

    开售RK3576 高性能人工智能主板

    芯片让产品变得更加完美,被广 泛的应用到 AI 服务器、人脸支付设备、安防、医疗、交通、金融、工控、智慧教育、智能零售等 等 AI 智能领域。由于其硬件
    发表于 04-23 10:55

    Cognizant将与NVIDIA合作部署神经人工智能平台加速企业人工智能应用

    -Cognizant将与NVIDIA合作部署神经人工智能平台加速企业人工智能应用 Cognizant将在关键增长领域提供解决方案,包括企业级AI
    的头像 发表于 03-26 14:42 579次阅读
    Cognizant将与NVIDIA合作部署神经<b class='flag-5'>人工智能</b><b class='flag-5'>平台</b>,<b class='flag-5'>加速</b>企业<b class='flag-5'>人工智能</b>应用

    FPGA+AI王炸组合如何重塑未来世界:看看DeepSeek东方神秘力量如何预测......

    工作的理解。 有AI加持的FPGA工程师不仅不会被人工智能取代,反而能够充分发挥FPGA的灵活性和高效性,
    发表于 03-03 11:21

    FPGAAI方面有哪些应用

    随着人工智能技术的飞速发展,对计算性能的需求也日益增长。FPGA(现场可编程门阵列)作为一种高性能、低功耗、可灵活编程的硬件平台,正逐渐 AI
    的头像 发表于 01-06 17:37 2110次阅读

    低温失效的原因,有没有别的方法或者一些见解?

    低温失效的原因,有没有别的方法或者一些见解。就是芯片工作温度100°--40°区间,然后呢我们到了0°以下就不工作了,然后低温的情
    发表于 12-30 16:28

    迅龙软件受邀参加华为昇人工智能框架峰会,展示昇X香橙派的创新AI案例

    12月14日,昇人工智能框架峰会在北京中关村国际创新中心召开,本次大会以“创新源动力,框架新选择”为主题,由昇MindSpore开源社区、中国人工智能学会及AITISA联合主办,旨
    的头像 发表于 12-17 18:02 1209次阅读
    迅龙软件受邀参加华为昇<b class='flag-5'>思</b><b class='flag-5'>人工智能</b>框架峰会,展示昇<b class='flag-5'>思</b>X香橙派的创新<b class='flag-5'>AI</b>案例