0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Google又放大招,高效实时实现视频目标检测

ml8z_IV_Technol 来源:YXQ 2019-04-08 15:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

图像目标检测是图像处理领域的基础。自从2012年CNN的崛起,深度学习在Detection的持续发力,为这个领域带来了变革式的发展:一个是基于RPN的two-stage,RCNN/Fast RCNN/Faster RCNN、RetinaNet、Mask RCNN等,致力于检测精度的提高。一类是基于SSD和YOLOv1/v2/3的one-stage,致力于提高检测速度。

视频目标检测要解决的问题是对于视频中每一帧目标的正确识别和定位。相对于图像目标检测,视频是高度冗余的,包含了大量时间局部性(temporal locality,即在不同的时间是相似的)和空间局部性(spatial locality,即在不同场景中看起来是相似的),既Temporal Context(时间上下文)的信息。充分利用好时序上下文关系,可以解决视频中连续帧之间的大量冗余的情况,提高检测速度;还可以提高检测质量,解决视频相对于图像存在的运动模糊、视频失焦、部分遮挡以及形变等问题。

视频目标检测和视频跟踪不同。两个领域解决相同点在于都需要对每帧图像中的目标精准定位,不同点在于视频目标检测不考虑目标的识别问题,而跟踪需要对初始帧的目标精确定位和识别。

图1 高德地图车载AR导航可识别前方车辆并提醒

视频目标检测应用广泛,如自动驾驶,无人值守监控,安防等领域。如图1所示,高德地图车载AR导航利用视频目标检测,能够对过往车辆、行人、车道线、红绿灯位置以及颜色、限速牌等周边环境,进行智能的图像识别,从而为驾驶员提供跟车距离预警、压线预警、红绿灯监测与提醒、前车启动提醒、提前变道提醒等一系列驾驶安全辅助。

视频目标检测算法一般包括单帧目标检测、多帧图像处理、光流算法、自适应关键帧选择。Google提出基于Slownetwork 和Fast network分别提取不同特征,基于ConvLSTM特征融合后生成检测框,实现实时性的state-of-art。

论文地址:https://arxiv.org/abs/1903.10172

1 Motivation

物体在快速运动时,当人眼所看到的影像消失后,人眼仍能继续保留其影像,约0.1-0.4秒左右的图像,这种现象被称为视觉暂留现象。人类在观看视频时,利用视觉暂留机制和记忆能力,可以快速处理视频流。借助于存储功能,CNN同样可以实现减少视频目标检测的计算量。

视频帧具有较高的时序冗余。如图2所示,模型[1]提出使用两个特征提取子网络:Slow network 和Fast network。Slow network负责提取视频帧的精确特征,速度较慢,Fast network负责快速提取视频帧的特征提取,准确率较差,两者交替处理视频帧图像。Fast network和Slow network特征经过ConvLSTM层融合并保存特征。检测器在当前帧特征和上下文特征融合基础上生成检测框。论文提取基于强化学习策略的特征提取调度机制和需要保存特征的更新机制。

论文提出的算法模型在Pixel 3达到72.3 FPS,在VID 2015数据集state-of-art性能。

论文创新点:

1、提出基于存储引导的交替模型框架,使用两个特征提取网络分别提取不同帧特征,减少计算冗余。

2、提出基于Q-learning学习自适应交替策略,取得速度和准确率的平衡。

3、在手机设备实现迄今为止已知视频目标检测的最高速度。

图2 存储引导的交错模型

2网络架构

2.1交错模型

图3交错模型

如图3所示论文提出的交错模型(τ = 2),Slow network(Large featureextractor)和Fastnetwork(Small feature extractor)均由MobileNetV2构成(两个模型的depth multiplier不同,前者为1.4,后者为0.35),anchors比率限制为{1.0,0.5,2.0}。

2.2存储模型

LSTM可以高效处理时序信息,但是卷积运算量较大,并且需要处理所有视频帧特征。论文提出改进的ConvLSTM模型加速视频帧序列的特征处理。

ConvLSTM是一种将CNN与LSTM在模型底层结合,专门为时空序列设计的深度学习模块。ConvLSTM核心本质还是和LSTM一样,将上一层的输出作下一层的输入。不同的地方在于加上卷积操作之后,为不仅能够得到时序关系,还能够像卷积层一样提取特征,提取空间特征。这样就能够得到时空特征。并且将状态与状态之间的切换也换成了卷积计算。

图4 存储模型LSTM单元

如所示,论文的ConvLSTM有一下改进:

1、增加Bottleneck Gate和output跳跃连接。

2、LSTM单元分组卷积。特征图HxWxN分为G组,每个LSTM仅处理HxWxN/G的特征,加速ConvLSTM计算。论文中G = 4。

3、LSTM有一固有弱点,sigmoid激活输入和忘记门很少完全饱和,导致缓慢的状态衰减,长期依赖逐渐丧失,更新中无法保留完整的前期状态。导致Fast network运行中,Slownetwork特征缓慢消失。论文使用简单的跳跃连接,既第一个Fast network输出特征重复使用。

2.3推断优化

论文提出基于异步模式和量化模型,提高系统的计算效率。

1、异步模式。交错模型的短板来自于Slow network。论文采用Fastnetwork提取每帧图像特征,τ = 2帧采用Slow network计算特征和更新存储特征。Slownetwork和Fast network异步进行,提高计算效率。

2、在有限资源的硬件设备上布置性能良好的网络,就需要对网络模型进行压缩和加速,其中量化模型是一种高效手段。基于[2]算法,论文的ConvLSTM单元在数学运算(addition,multiplication, sigmoid and ReLU6)后插入量化计算,确保拼接操作的输入范围相同,消除重新缩放的需求。

3 实验

模型在Imagenet DET 和COCO训练,在Imagenet VID 2015测试结果如图5所示。

从测试结果看,系统只有Slow network模块时准确率最高, 只有Fast network模块时准确率最低,但是速度没有交错模型快,比较诧异。另外基于强化学习的adaptive对精度和速度几乎没有影响,而异步模式和模型量化提高系统的实时性。

图5 Imagenet VID 2015测试结果

4 优缺点分析

视频处理策略

1、基于强化学习的交错模型调度是伪命题。论文的Slow network提取强特征,Fastnetwork提取弱特征,交错模型的τ越大,模型性能越差。理论上τ=2时模型的准确率越高。综合考虑准确率和实时性,论文中τ=9。

2、视频具有很强的上下文相关性。视频理解领域的目标检测、分割、识别,跟踪,等领域,都需要提取前后帧的运动信息,而传统采用光流方式,无法保证实时性。本文提出的分组ConvLSTM,可加速计算,量化模型保持准确率,具有借鉴意义。

以上仅为个人阅读论文后的理解、总结和思考。观点难免偏差,望读者以怀疑批判态度阅读,欢迎交流指正。

参考文献

[1] MasonLiu, Menglong Zhu, Marie White, Yinxiao Li, Dmitry Kalenichenko.Looking Fastand Slow: Memory-Guided Mobile Video Object Detection.arXivpreprint arXiv:1903.10172,2019.

[2] B.Jacob, S. Kligys, B. Chen, M. Zhu, M. Tang, A. Howard,H. Adam, and D.Kalenichenko. Quantization and training of neural networks for efficientinteger-arithmetic-only inference. In CVPR, 2018.

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Google
    +关注

    关注

    5

    文章

    1801

    浏览量

    60278
  • 目标检测
    +关注

    关注

    0

    文章

    231

    浏览量

    16383

原文标题:Google又发大招:高效实时实现视频目标检测

文章出处:【微信号:IV_Technology,微信公众号:智车科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基于FD-SST 的无人机目标跟踪系统的设计与实现|技术集结

    应用实现功能1.本应用基于睿擎派,实现了对无人机目标实时跟踪,并将跟踪结果用于驱动两轴转台完成自动指向。主要功能包括:使用FD-SST算法在视频
    的头像 发表于 12-10 19:32 2397次阅读
    基于FD-SST 的无人机<b class='flag-5'>目标</b>跟踪系统的设计与<b class='flag-5'>实现</b>|技术集结

    基于米尔MYC-LR3576开发板的实时视频识别系统设计与实现

    实时视频识别系统。重点解决了多路视频流处理、NPU加速模型部署、低延迟推理等关键问题,在工业安防、智能零售等场景中实现精准目标
    发表于 12-01 21:23

    目标追踪的简易实现:模板匹配

    往往是先在一个静态的图象中寻找到某一片像素区域(比如从背景画面中框选出人脸或文字),然后再对这片像素区域作分析(比如提取人脸关键点信息等等);而目标追踪则是在一段视频流中进行,它根据指定的追踪目标
    发表于 10-28 07:21

    借助NVIDIA技术构建实时视觉检测工作流

    构建一套可靠的视觉检测流程来实现缺陷检测和质量控制面临诸多挑战,例如针对特定领域定制通用视觉 AI 模型、在算力受限的边缘设备上优化模型规模,以及高效
    的头像 发表于 10-21 11:01 645次阅读
    借助NVIDIA技术构建<b class='flag-5'>实时</b>视觉<b class='flag-5'>检测</b>工作流

    【机器视觉】睿擎平台支持NCNN AI 推理框架,轻松实现实时目标检测( 睿擎线下 Workshop 报名已开启)|产品动

    RT-Thread系统上深度集成NCNN推理框架,通过其轻量化架构与硬件级优化能力,结合YOLO系列算法的高效单阶段检测特性,实现了工业场景下的目标
    的头像 发表于 08-20 17:40 4847次阅读
    【机器视觉】睿擎平台支持NCNN AI 推理框架,轻松<b class='flag-5'>实现实时</b><b class='flag-5'>目标</b><b class='flag-5'>检测</b>( 睿擎线下 Workshop 报名已开启)|产品动

    迅为八核高算力RK3576开发板摄像头实时推理测试 ppyoloe目标检测

    迅为八核高算力RK3576开发板摄像头实时推理测试 ppyoloe目标检测
    的头像 发表于 07-14 15:18 1103次阅读
    迅为八核高算力RK3576开发板摄像头<b class='flag-5'>实时</b>推理测试 ppyoloe<b class='flag-5'>目标</b><b class='flag-5'>检测</b>

    【嘉楠堪智K230开发板试用体验】01 Studio K230开发板Test2——手掌,手势检测,字符检测

    架构,这是一种高效的模式识别方法,特别擅长从复杂图像数据中提取特征和识别目标。 高能效比与低延迟: 在执行高强度计算时,KPU 能保持高能效比(低功耗)和低延迟(高速度),支持实时图像分析。 高级视觉
    发表于 07-10 09:45

    基于LockAI视觉识别模块:C++目标检测

    的基本概念,并提供了详细的API文档说明,帮助开发者理解和实现目标检测与可视化功能。通过上述流程,可以构建高效实时目标
    发表于 06-06 14:43

    明远智睿SSD2351开发板:视频监控领域的卓越之选

    开发板的四核1.4GHz处理器在视频监控数据处理方面表现优异。视频监控系统会产生大量的视频数据,需要进行实时编码、解码和分析。该处理器能够高效
    发表于 05-30 10:24

    无人机低延时目标跟踪识别智算系统

    SOFT的边缘网关软件(参见单独的数据表),通过使用高效的带宽管理向现场指挥中心和操作员提供多个同步流,从而提高实时态势感知能力 包括: 1)实时低比特率视频 2)
    发表于 03-06 15:48

    使用RTSP摄像头执行多摄像头多目标Python演示,缺少输出帧是怎么回事?

    使用 RTSP 摄像头执行 多摄像头多目标 Python 演示 。 现场视频每 5 秒出现一次启动和抖动,但帧缺失。 输出生产低 FPS (1 至 0.3 FPS)。 人员检测发生在各种位置,因为
    发表于 03-06 07:55

    在英特尔AIPC上利用LabVIEW与YOLOv11实现目标检测

    Toolkit for OpenVINO for LabVIEW(以下简称AIVT-OV),在 intel AIPC 设备上部署YOLO11模型,并实现实时目标检测。 1 前言 1.  intel AIPC简介
    的头像 发表于 02-17 10:01 1723次阅读
    在英特尔AIPC上利用LabVIEW与YOLOv11<b class='flag-5'>实现目标</b><b class='flag-5'>检测</b>

    低空视频传输在望获实时linux系统上的应用

    望获实时linux系统因其高确定性和低延迟的特性,在低空视频传输中扮演着关键角色。低空经济涵盖无人机物流、农业监控、低空交通管理等场景,这些场景对视频传输的实时性、可靠性和
    的头像 发表于 01-24 17:21 882次阅读

    如何利用Google Play实现出海应用增长

    出海应用变现。本文我们将介绍市场趋势和如何利用 Google Play 实现增长。       "订阅疲劳" 破迷思, 澄清事实抓机遇 "吸引用户开始和保持订阅十分重要,但随着订阅业务的
    的头像 发表于 01-22 11:52 1105次阅读
    如何利用<b class='flag-5'>Google</b> Play<b class='flag-5'>实现</b>出海应用增长

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    广泛的应用,然而,在移动端工业领域的实际应用中,对目标检测算法提出了更为苛刻的要求:需要实现高速度、高精度、小体积、易部署等特性。为应对这一挑战,百度于2021年末发布了一篇关于移动端性能卓越的
    发表于 12-19 14:33