0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

自动驾驶中单目摄像头检测输出3-D边界框的方法

ml8z_IV_Technol 来源:lp 2019-03-07 16:54 次阅读

本文介绍了自动驾驶中单目摄像头检测输出3-D边界框的方法

单目图像估计3-D检测框是目前自动驾驶研发流行的,单纯的2-D检测框无法在3-D空间去做规划控制,去年百度Apollo发布2.5版本特意提到这方面的解决方案。

这里分析一下公开发表的有关论文,特别是近期的深度学习CNN框架,供参考。

其实最早看到3-D BBox的工作是Mobileye以前的CEO Shashua教授给的PPT demo(没有paper了):

结果Tesla和Nvidia全都这么干了,潮流:)。

注:关于单目镜头估计物体的姿态有不少论文,也是跟这个课题相关的,一些深度学习的方法也不错,不过不是本文的重点,在此不做重复介绍。

3D Bounding Boxes for Road Vehicles: A One-Stage, Localization Prioritized Approach using Single Monocular Images,9,2018

来自UC San Diego的论文。简单讲,该方法提出估计center of bottom face of 3D bounding box (CBF) 来解决2-D图像得到3-D边框的问题,为加速也采用了LUT。同时估计的还有物体的大小尺寸以及姿态。

下图解释了他们采用key point预测的方法而不是传统2-D边框底边中心去推理3-D的位置。

这是他们的3-D边框估计的算法结构:

3D Bounding Box Estimation Using Deep Learning and Geometry,CVPR,2017

该文也是百度Apollo引用的方法:

首先估计物体3-D朝向,然后回归物体尺寸和3-D中心,最后得到物体的整个姿态和位置。这是2-D和3-D边框的对应关系图:

论文提出一种MultiBin方法求解物体朝向(相邻bin之间可以重叠一部分),CNN模型如下图:

朝向的局部和全局的关系如下所示:

总之,该方法利用了几何约束从2-D边框来估计3-D边框,其中朝向估计很关键。一些结果见下图:

Joint Monocular 3D Vehicle Detection and Tracking, 11,2018

该方法是对上面工作的推广,增加了跟踪模块,提高了稳定性。

这是算法的流程图:在RPN预测3-D中心的2-D投影位置,其中采用ROIalign而不是ROIpool减小了misalignment。每个求解3-D边框的ROI包括以下几项:2d Bbox, 3d box 中心投影, confidence score 和 对应特征向量。

其他跟踪部分就不重点提了,下图是一些结果展示:

下图解释了2-D边框中心和3-D边框中心的不同:

Orthographic Feature Transform for Monocular 3D Object Detection,11,2018

本文提出一个orthographic feature transform(OFT)用于解决2-D图像推理物体3-D边框的问题,原理如下图:

在一个深度学习框架下,该模块可以把图像特征图映射到正交鸟瞰图,如下图所示,输入到一个top down network进行推理。

结果就不讨论了,细节在论文里。

Multi-Level Fusion based 3D Object Detection from Monocular Images, CVPR, 2018

这是去年CVPR‘18的论文,下面是算法结构: 采用两步法,加了一个估计深度图的模型,结果送入RPN模块,比较奢侈的做法,后面还将视差图转换成点云,进入detection模块。

这是他们展示的结果:

看来大家对单目估计深度图/视差图很有信心。

MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization, 11, 2018

微软的一篇论文,下图是算法框图:提出instance depth estimation (IDE),不是图像的深度图,可以直接估计物体3-D边框的深度,还是采用ROIalign取代ROIpool;包括4个模块,即2d detection(棕色), instance depth estimation(绿色), 3d location estimation(蓝色) 和 local corner regression(黄色)。

这是估计Instance depth的模型结构:

这个示意图告诉我们3-D边框的图像定位关系:

Instance depth的概念的解释如下图,的确是比较节俭的做法:

一些结果展示:

Mono3D++: Monocular 3D Vehicle Detection with Two-Scale 3D Hypotheses and Task Priors, 1, 2019

Face++和UCLA的最新论文,算法框图见下图:该方法不光用了深度估计,还借用了路面假设作为约束;另外,采用morphable wireframe model,不过为避免landmark敏感,对3-D边框做了模糊表示;除此之外,还有一个模块叫3D-2D consistency。

这是3D-2D consistency的框图介绍:包括几个部分 2D Bounding box,2D Landmark,3D Orientation 和 scale hypotheses。

感觉还是比较奢侈的做法。

CubeSLAM: Monocular 3D Object Detection and SLAM without Prior Models, 6, 2018

从2-D边框和消失点产生3-D cuboid proposals,随后在单目视觉SLAM框架中优化,如下图:

这是产生Proposals的方法:根据可视的面数目将Cuboids分成3类

下面是SLAM框架:在ORB SLAM基础上改进,加入物体信息

特征点的相关性处理方法采用物体点为先,景物点为后,如图:绿色点是map上的,其他颜色的点属于物体。

一些结果展示:

BoxCars: Improving Fine-Grained Recognition of Vehicles using 3D Bounding Boxes in Traffic Surveillance,CVPR,2016

3D 物体边框是从监控视频 (比车载视频容易些)的2-D边框得到的,如图所示:利用了轮廓信息和姿态信息。

其实它的方法是把3-D边框各个面拆开,如图:然后输入到CNN模型推理3-D信息。

这个CNN模型用来估计沿着消失点的方向:

结果是这样的:

Vehicle Detection and Pose Estimation for Autonomous Driving (Thesis),2017

一个博士论文。采用FCN模型训练得到2-D和3-D边框,如图:定义3-D边框的3个方向,即front-bottom, left-bottom, front-left。

3D边框定义如下:8个角点,6个面。

也是路面假设,这是得到3-D边框的关键,下面是图像逆投影公式:

根据逆投影和路面假设,可以先得到3-D边框在路面的位置。下图是3-D边框投影到路面的效果:平行四边形,然后被推理出实际3D边框底部的正方形。

加上估计的物体高度,就得到3-D边框。首先,先估算路面,算法如下:

利用前面提到的,bottom-left line 作为frontal plane 的法向量,然后用front-bottom-left 的点计算front plane;找到frontal plane 和逆投影的交点即得到顶点位置,这样高度就得到了。

一些结果展示:包括顶视图

Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image,CVPR,2017

MANTA是Many-Tasks的意思。完全通过CNN模型估计多个信息,如图展示的结果:检测, 部件定位, 可视性 和3D尺寸大小。

车辆模型的定义:wireframe模型比较复杂,不过能推理出遮挡的部件。

定义的车辆模版如图:这是一个半自动的标注工程。

MANTA的系统框图:CNN模型,region proposal network为先,之后修正两次,分别是proposal改进和2-D边框估计,最后NMS优化和3-D边框估计。

Monocular 3D Object Detection for Autonomous Driving,CVPR,2016

比较有开拓性的CNN模型做3-D检测的工作。如图介绍系统如何产生3-D边框的proposal:仍然有路面假设,有各种信息,包括分割,2D边框,上下文,形状,位置等等。

采用的CNN模型结构对3-D边框的proposal打分:

打分的公式是:包括什么提到的各种信息term

结果展示:

Joint SFM and Detection Cues for Monocular 3D Localization in Road Scenes,CVPR,2015

NEC Lab早些的工作,给出的系统框图如下:将SFM和检测结合起来。

3-D定位物体是有假设路面的前提,首先看坐标系的定义如下图:

而2-D边框的底部可以通过路面假设反投到3-D空间:

下图是物体的SFM部分:

整个定位输出如图这样:其中右下角顶视图有激光雷达ground truth显示为红色。

Are Cars Just 3D Boxes? – Jointly Estimating the 3D Shape of Multiple Objects,CVPR,2014

也比较旧的论文,下图展示该系统通过shape modeling得到更精确的3-D定位:

根据路面假设和occlusion mask的3-D景物模型:

产生Scene particles,然后推理最后的deformable shapes,如图算法:

一些结果如图:

Monocular Visual Scene Understanding: Understanding Multi-Object Traffic Scenes,CVPR,2012

更早的论文,系统示意图如下:有路面假设的景物模型,有遮挡推理模型,有跟踪,有分割;HMM做跟踪算法,MCMC方法做推理。

下图是路面假设下的车载坐标系和世界坐标系的关系:

这里介绍的是车载摄像头的旋转:

目标距离的估计类似Mobileye,如图:

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 摄像头
    +关注

    关注

    59

    文章

    4608

    浏览量

    92892
  • 自动驾驶
    +关注

    关注

    773

    文章

    13032

    浏览量

    163209
  • 深度学习
    +关注

    关注

    73

    文章

    5237

    浏览量

    119908

原文标题:自动驾驶中单目摄像头检测输出3-D边界框的方法一览

文章出处:【微信号:IV_Technology,微信公众号:智车科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    未来已来,多传感器融合感知是自动驾驶破局的关键

    模态精准感知信息,使自动驾驶系统可以实时精准地感知道路上的各种状况。 昱感微融合感知产品方案创新性地 将可见光摄像头、红外摄像头以及4D毫米波雷达的探测数据在前端(数据获取时)交互,
    发表于 04-11 10:26

    【mBot申请】自动驾驶

    自动驾驶小车,能进入这方面领域,最关键的还是很喜欢这个mBot机器人,我测试完后可以给我上初中的弟弟玩,让他也能和我一样接触到电子研发。项目描述:自动驾驶小车,首先可以给小车安装上摄像头、GPS等等附件
    发表于 11-30 15:30

    自动驾驶真的会来吗?

    高速路段,其无法自动识别停车等路标。所以只有当图像识别、判断,信息的分析、学习,得到深入发展,才可能真正解决自动驾驶面临的难题。  另外在硬件层面,图像采集也是难关。无论是各类摄像头还是传感器,其都是一
    发表于 07-21 09:00

    摄像头和FPGA的ADAS产品原型系统

    `1月5日-8日拉斯维加斯消费电子展(CES)上,地平线机器人(以下简称“地平线”)将与英特尔联合展示一款基于摄像头和FPGA的ADAS产品原型系统。车辆检测结果该原型由英特尔和地
    发表于 01-06 18:09

    最新摄像头技术给车辆以强大的视觉功能

    3D 成像也可用于自动驾驶应用,以帮助汽车了解场景(因为它有助于分离背景和前景),或在汽车内部用于人脸识别或手势检测系统。图 2:(a) TI 针对其 TOF 传感器的摄像头开发工具
    发表于 04-12 14:44

    浅析自动驾驶发展趋势,激光雷达是未来?

    ,将毫米波雷达、摄像头、激光雷达等传感器数据融合的技术,对于保证车辆对周边环境的全局定位和理解是至关重要的,且为Level 3-Level 5级自动驾驶方案的实现提供了必要的技术储备。在环境感知
    发表于 09-06 11:36

    【PYNQ-Z2试用体验】基于PYNQ的神经网络自动驾驶小车 - 项目规划

    ` 本帖最后由 枫雪天 于 2019-3-2 23:12 编辑 本次试用PYNQ-Z2的目标作品是“基于PYNQ的神经网络自动驾驶小车”。在之前的一个多月内,已经完成了整个项目初步实现,在接下来
    发表于 03-02 23:10

    自动驾驶汽车的定位技术

    SLAM 前端里程计做累加,可以配合高精地图的图匹配,做类似后端回环优化的方式,将GPS、激光雷达及已知地图进行融合定位。3自动驾驶多对双目视觉摄像头SLAM方案这种方案成本低,更加考究的是算法,有很少
    发表于 05-09 04:41

    ADAS视觉传感技术,为朝向自动驾驶趋势发展做好准备

    来监测道路以及危险状况,甚至有时辅助驾驶者来自动刹车,从而避免撞车。因此,自动紧急刹车系统在新汽车中日益普及。驾驶者监控是汽车技术的最新应
    发表于 06-02 08:00

    为何自动驾驶需要5G?

    吗?由于易受雨、雪、雾、强光等环境影响,摄像头能始终准确识别指示牌和红绿灯吗?再举一个例子。当自动驾驶在高速路上以130公里/小时行驶时,摄像机/雷达融合无法安全地检测到前方超过120
    发表于 06-08 07:00

    自动驾驶这些年经历了什么?

    自动驾驶汽车通过摄像头、雷达和激光雷达等传感器来感知世界。类似雷达,激光雷达,使用不可见的光脉冲来绘制周围区域的高精度3D地图。摄像头、雷达和激光雷达三者是相辅相成的关系。
    发表于 08-04 07:27

    请问摄像头、雷达和LIDAR哪个更适合自动驾驶汽车?

    摄像头、雷达和LIDAR,自动驾驶汽车选择谁?
    发表于 11-23 12:32

    自动驾驶OS市场的现状及未来 精选资料推荐

    的EyeQ 3和EyeQ 4,也只是跑单任务的ASIC,只需要处理摄像头的数据,因此,用Tier 1的MC..
    发表于 07-27 07:48

    自动驾驶系统设计及应用的相关资料分享

    作者:余贵珍、周彬、王阳、周亦威、白宇目录第一章 自动驾驶系统概述1.1 自动驾驶系统架构1.1.1 自动驾驶系统的三个层级1.1.2 自动驾驶系统的基本技术架构1.2
    发表于 08-30 08:36

    用于ADAS系统和自动驾驶车辆雷达的毫米波传感器

    最近,我和我的一个朋友进行了一次有趣的讨论,他知道我在研究用于ADAS系统和自动驾驶车辆(AVs)雷达的TI毫米波(mmWave)传感器。每当他读到自动驾驶汽车在不同驾驶环境下(比如
    发表于 11-09 07:48