0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

看过来,RK3576 NPU方案你用对了吗?

米尔电子 2026-01-22 08:02 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文基于米尔MYD-LR3576开发板,详细记录了如何利用500万像素USB摄像头实现640×640分辨率的YOLO5s目标检测,并将结果实时输出至1080P屏幕的全流程。通过系统级的软硬件协同优化,最终将端到端延迟控制在40ms以内,实现了 20FPS的稳定实时检测性能。文章重点剖析了摄像头特性分析、显示通路选择、RGA硬件加速、RKNN NPU集成等关键技术环节,为嵌入式AI视觉系统的开发与调优提供了一套完整的思路与实践方案。

PART 01


系统架构与性能目标
1.1 硬件平台

  • 主控芯片Rockchip RK3576(四核A72+四核A53,6TOPS NPU,RGA,GPU,VPU)
  • 摄像头:500万像素USB摄像头(支持MJPEG/YUYV格式)
  • 显示器:4K HDMI显示屏(通过Weston桌面环境显示)
  • 开发板:米尔MYD-LR3576

b1374e96-f725-11f0-8ce9-92fbcf53809c.png米尔基于RK3576核心板开发板1.2 软件平台使用米尔官方V2.0.0 SDK提供的buildroot镜像,内核版本为6.1.118。系统信息如下:

root@myd-lr3576-buildroot:/# uname -aLinuxmyd-lr3576-buildroot6.1.118#1SMP Fri Sep2602:34:15UTC2025aarch64 GNU/Linux


1.3 性能目标

  • 实时性:完成从摄像头采集→NPU推理→屏幕显示的完整流程,耗时不超过摄像头一帧的时间。
  • 输入/输出:尽可能提高摄像头采集帧率,并在显示端支持更高的输出分辨率。
  • 功能:实现YOLO5s目标检测,并在视频画面中实时绘制检测框。

PART 02


数据处理流程与优化实践
摄像头数据需要经历哪些过程才能到显示端输出,参考下图

b148f9b6-f725-11f0-8ce9-92fbcf53809c.png


2.1 CPU处理方案及其瓶颈

b1533cdc-f725-11f0-8ce9-92fbcf53809c.png

如果把摄像头数据直接显示到屏幕上,先了解清楚它们输入输出关系。摄像头输出可以用v4l2-ctl -D -d /dev/videoxx --list-formats-extDisplay输出可用用cat /sys/kernel/debug/dri/0/state查看

b16043dc-f725-11f0-8ce9-92fbcf53809c.png

根据实时性来说,需要选择最高fps分辨率对应输出,这里选择640x480 20fps,那么它需要把YUYV格式替换成RGBA8888才能显示。显示大小不超过屏幕最大分辨率3840x2160即可。CPU处理是如下过程

b16e02b0-f725-11f0-8ce9-92fbcf53809c.png

若要将摄像头采集的YUYV格式数据直接显示到屏幕,需先转换为RGBA8888格式。在CPU上进行格式转换与缩放的性能如下(输入为640×480 YUYV):

b17788e4-f725-11f0-8ce9-92fbcf53809c.png

可见,CPU在处理1080P分辨率时已接近能力上限,更高分辨率则无法满足实时性要求。2.2 引入RGA进行硬件加速RGA作为RK3576 2D处理芯片模块,它的作用是对图片做旋转,缩放,旋转,镜像以及格式转换。根据手册信息,它能处理数据的性能是物理地址>DMA>虚拟地址。那么用RGA来替换CPU的格式转换和缩放。

b18400ba-f725-11f0-8ce9-92fbcf53809c.png

RGA是一次进行转换和缩放,下面是对比CPU运算的对比图使用RGA替代CPU进行格式转换与缩放后,性能对比如下:

b18ceb30-f725-11f0-8ce9-92fbcf53809c.png

RGA的引入带来了数量级的性能提升,尤其是DMA模式,大幅降低了处理延迟。2.3 GPU直接显示方案调试阶段常使用OpenCV的imshow显示图像,但其依赖CPU参与,无法满足实时性要求。系统实际采用DRM显示框架与Weston桌面环境,因此我们选用Wayland-client方案进行直接显示,实现GPU直显。

b19b2eca-f725-11f0-8ce9-92fbcf53809c.png


不同输入模式下的显示耗时对比:

b1a4ca52-f725-11f0-8ce9-92fbcf53809c.png

2.4 NPU推理流程与耗时分析

b1af80be-f725-11f0-8ce9-92fbcf53809c.png

通用模型,通过rknn-toolkit2转换成rknn后就可以通过RKNN API来调用和推导。使用rknn_model_zoo yolo5模型进行转换后生成模型,yolov5s-640-640.rknn和coco80labels_list.txt,以及一些调用参考代码。它的输入必须是640x640RGB格式。rknn推理虚拟地址关键步骤如下:

b1bb2c48-f725-11f0-8ce9-92fbcf53809c.png

实际测试后rknn_run这个阶段大概耗时26~31ms之间rknnoutputsget获取数据后即可进行内部处理,检测出目标,坐标,信心指数,根据实际需求绘制在屏幕上,这一步可以多进程异步处理,不算在串行时间内,笔者测试大概会多花8ms左右。

b1c3c9e8-f725-11f0-8ce9-92fbcf53809c.png

因此总计一下摄像头实时采集NPU推理到显示整个过程耗时情况

b1cef5ac-f725-11f0-8ce9-92fbcf53809c.png

结论:NPU推理阶段(T2)仍是系统的主要耗时环节。但通过DMA+RGA+直接显示的优化组合,系统整体延迟大幅降低,且在高分辨率输出下仍能保持稳定的帧率。

2.5 多摄像头系统资源占用分析

  • 虚拟内存方案

1个摄像头

b1d9de9a-f725-11f0-8ce9-92fbcf53809c.png

b1e6fc06-f725-11f0-8ce9-92fbcf53809c.png

b1f40392-f725-11f0-8ce9-92fbcf53809c.png

4个摄像头

b1fd2832-f725-11f0-8ce9-92fbcf53809c.png

b2077292-f725-11f0-8ce9-92fbcf53809c.png

  • Dma方案

1路摄像头输出

b2133122-f725-11f0-8ce9-92fbcf53809c.png

2路摄像头输入

b21de810-f725-11f0-8ce9-92fbcf53809c.png

PART 03


总结
在嵌入式AI视觉系统中,NPU的算力是决定性能上限的关键因素。然而,要达到这一上限,必须构建高效的数据流水线。本文实践表明,通过RGA硬件加速、DMA零拷贝数据传输以及GPU直接显示的协同优化,能够彻底释放 RK3576平台的异构计算潜力,将端到端延迟控制在数十毫秒内,实现高清、实时的目标检测应用。这一优化思路同样适用于其他具备类似硬件加速单元的嵌入式AI平台。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开发板
    +关注

    关注

    26

    文章

    6487

    浏览量

    121327
  • NPU
    NPU
    +关注

    关注

    2

    文章

    391

    浏览量

    21421
  • 米尔电子
    +关注

    关注

    2

    文章

    201

    浏览量

    1151
  • rk3576
    +关注

    关注

    1

    文章

    315

    浏览量

    1711
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【米尔RK3576开发板评测】+项目名称值得购买的米尔RK3576开发板

    /H.265视频的4K30Hz的编码。 支持MPEG视频4K30Hz的编解码。 支持三屏异显。 而RK3576最大的亮点是带有6TOP/s的NPU,经过不少网友的测试,这个瑞芯微的NPU还是挺给力
    发表于 01-08 22:59

    探索 RK3576 方案:卓越性能与灵活框架,诚邀开发定制合作!

    各位技术爱好者、行业同仁们,今天要给大家重磅介绍一款极具潜力的芯片方案——RK3576,同时我们公司基于此芯片开发的主板更是有着出色表现,以下会为大家详细展开。Block Diagram
    发表于 02-05 15:21

    RK3576 vs RK3588:为何越来越多的开发者转向RK3576

    、商显设备)。 RK3588 的 8K@60fps 更适合超高清视频处理(如高端电视盒子、AI 视觉设备)。 RK3576 存储选择更灵活,可搭配低成本方案(如 SPI NAND),而 RK
    发表于 05-30 08:46

    Mpp支持RK3576

    想问下,https://github.com/rockchip-linux/mpp这里面支持RK3576么,看介绍没有提到说支持RK3576 目前是买了个rk3576的机顶盒,搭载了安卓14,想做安卓视频硬解。
    发表于 06-13 15:35

    【作品合集】米尔RK3576开发板测评

    米尔RK3576开发板测评作品合集 产品介绍: RK3576 是瑞芯微一款面向AI市场推出的高性能处理器,它配备了四核Cortex-A72和四 核Cortex-A53 的 CPU,集成了6TOPS
    发表于 09-11 10:19

    基于米尔RK3576的环视实时性方案解析

    潜力,但其执行的稳定性是当前能否商用的关键挑战。方案潜力与价值: 一旦GPU性能稳定,RK3576凭借其异构计算架构(CPU+GPU+NPU),能够在一帧时间内不仅完成环视合成,更能集成复杂的AI感知与预警功能。这使其从一个单纯
    发表于 11-28 16:57

    米尔RK3576+Hailo-8突破6 TOPS极限,让高帧率摄像头真正“实时”

    ,保护客户的硬件投资。 延伸阅读 :如果你想深入了解RK3576NPU的极致利用技巧,欢迎查阅我们此前的文章:《看过来RK3576NPU方案
    发表于 04-02 18:03

    【招聘】复工了吗?有职位需求的看过来

    【招聘】复工了吗?有职位需求的看过来! 1.数字设计经理 天津/上海 2.数字设计/验证工程师 天津/上海 3.射频/模拟设计:上海/深圳/南京 另:【急招】驻场测试工程师:宁波/无锡 有兴趣请直接发简历到jia_jessi
    发表于 02-10 13:58

    RK3576开发板NPU激发无限创新!体验6TOPS强劲性能的奇妙之旅

    npu sdk。 作为瑞芯微8nm高性能AIOT平台,RK3576/RK3588 NPU性能可谓十分强大,6TOPS设计能够实现高效的神经网络推理计算。这使得
    的头像 发表于 05-24 10:01 3916次阅读
    <b class='flag-5'>RK3576</b>开发板<b class='flag-5'>NPU</b>激发无限创新!体验6TOPS强劲性能的奇妙之旅

    RK3576单板发布倒计时:RK3399与RK3576对比

    好多人说RK3576RK3399的升级版,某种程度上也可以这么说,RK3576在强大的多媒体功能的基础上,性能和接口都进行了升级 一、工艺 性能 rk3576采用 Rockchip
    的头像 发表于 12-03 16:59 2863次阅读
    <b class='flag-5'>RK3576</b>单板发布倒计时:<b class='flag-5'>RK</b>3399与<b class='flag-5'>RK3576</b>对比

    RK3588与RK3576区别解析

    RK3588是四核A76@2.4GHz + 四核A55@1.8GHz。 NPU:均内置 6TOPS NPU,但RK3588数据类型支持更丰富。 GPU:
    的头像 发表于 12-17 14:03 4576次阅读
    <b class='flag-5'>RK</b>3588与<b class='flag-5'>RK3576</b>区别解析

    迅为RK3576开发板NPU例程测试-rknn-toolkit2环境搭建和使用

    迅为RK3576开发板NPU例程测试-rknn-toolkit2环境搭建和使用
    的头像 发表于 06-17 13:46 2111次阅读
    迅为<b class='flag-5'>RK3576</b>开发板<b class='flag-5'>NPU</b>例程测试-rknn-toolkit2环境搭建和使用

    迅为高情性6TOPS算力的RK3576开发板NPU rknn-model-zoo例程演示

    迅为RK3576开发板NPU rknn-model-zoo例程演示
    的头像 发表于 07-01 14:54 1931次阅读
    迅为高情性6TOPS算力的<b class='flag-5'>RK3576</b>开发板<b class='flag-5'>NPU</b> rknn-model-zoo例程演示

    瑞芯微RK3576RK3576S有什么区别,性能参数配置与型号差异解析

    、物联网等商用AIoT领域。(瑞芯微RK3576RK3576S芯片框图)触觉智能作为专业的瑞芯微方案商,基于RK3576芯片平台推出了核心板、开发板、行业主板等
    的头像 发表于 08-14 23:57 2861次阅读
    瑞芯微<b class='flag-5'>RK3576</b>与<b class='flag-5'>RK3576</b>S有什么区别,性能参数配置与型号差异解析

    迅为如何在RK3576上部署YOLOv5;基于RK3576构建智能门禁系统

    迅为如何在RK3576开发板上部署YOLOv5;基于RK3576构建智能门禁系统
    的头像 发表于 11-25 14:06 2062次阅读
    迅为如何在<b class='flag-5'>RK3576</b>上部署YOLOv5;基于<b class='flag-5'>RK3576</b>构建智能门禁系统