0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

场景流论文速记—RGBD图像场景流

电子设计 来源:电子设计 作者:电子设计 2020-12-10 19:28 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

简单记一下最近看的六篇场景流论文~其中3篇是关于RGBD图像的场景流,另外3篇是关于点云的场景流。
来源:https://zhuanlan.zhihu.com/p/85663856
作者:林小北

所谓场景流,就是光流的三维版本,表述了图像/点云中每个点在前后两帧的变化情况。目前对场景流的研究还局限在实验室阶段,由于缺乏实际数据(打标成本太高)以及客观的评价指标,离工程应用还有不小的距离。此外,巨大的计算量也是一个瓶颈。以下论文可以在文末直接下载。

《Deep Rigid Instance Scene Flow》 CVPR 2019

输入:双目摄像头的前后帧左右图像

核心思想:把场景流分割成多个actor的运动,利用MaskRCNN进行Instance Segmentation,每个Instance的Motion都应该与深度和光流一致。

首先,利用三个预先训练好的子网络提取视觉线索:

a. 利用MaskRCNN进行Instance Segmentation
b. 利用PSM-Net计算深度图(disparity map)
c. 利用PWC-Net计算光流

之后,采用高斯牛顿法最小化下面三个能量函数之和得到3D motion:

a. Photometric Error:前一帧左边图像的inlier像素点,与第二帧的投影位置的像素点必须尽量一致
b. Rigid Fitting:估计出的刚体运动必须与观察到的深度和光流信息一致
c. Flow Consistency:估计出的刚体运动在2d上的投影必须和光流一致

《Learning Rigidity in Dynamic Scenes with a Moving Camera for 3D Motion Field Estimation》 ECCV 2018

输入:前后帧图像的RGBD信息

核心思想:把图像分割为rigid/no-rigid区域,计算rigid区域的ego motion后再结合光流即可得到scene flow。

先利用两个预先训练好的子网络提取特征:

a. 利用PWCNet提取前后两帧的光流
b. 利用 rigidity-transform network (RTN)预测ego-motion以及rigidity mask

之后,结合光流、rigidity mask对ego motioon进行refine,保证rigity里面的像素点的光流与ego-motion一致。

最后,综合利用光流、rigidity mask、ego motioon信息即可得到scene flow。

备注:本文的另一个贡献是提出了一个用于场景流的数据库REFRESH。在kitti的inference结果如下,不是很好。

《Every Pixel Counts ++: Joint Learning of Geometry and Motion with 3D Holistic Understanding》TPAMI

输入:单目/双目摄像头的前后帧图像

核心思想:先用三个子网络估计光流、深度、camera motion,送入holistic 3D motion parser (HMP) 按照几何关系即可计算出rigid background的motion和moving objects的motion。

三个子网络先分别进行预训练,再结合HMP考虑如下loss优化三个子网络:

a. Rigid-aware structural matching:按照3D motion投影后rigid部分的结构特点应该match
b. Edge-aware local smoothness:投影后的深度和光流的应该保持smoothness
c. Rigid-aware 3D motion consistency:rigid background的moving object motion值应该尽量小
d. Flow motion consistency in occluded regions:occluded regions的光流前后映射应该一致
e. Multi-scale penalization:累加4个尺度的loss

备注:在双目摄像头的表现优于单目。通过joint learning,光流、深度、camera motion的表现均有提升。

在Kitti上的表现如下,算是差强人意吧。

本文作者还有一篇工作《Every Pixel Counts: Unsupervised Geometry Learning with Holistic 3D Motion Understanding》,是关于估计ego motion的。

《FlowNet3D: Learning Scene Flow in 3D Point Clouds》 CVPR 2018

输入:仅使用点云数据

核心思想:采用pointnet++作为基本模块,提取前后两帧点云特征并进行融合、上采样,直接拟合出scene flow

网络结构如下:

a. 4组set conv layer:pointnet++ 提取点云特征
b. 1组flow embedding layer: 把前后两帧的点云特征mix,第一帧的取中心点,其临近点从第二帧取,再提取特征
c. 4组set upconv layer:上采样,新增点从邻近点获取特征

loss为smooth L1 loss

备注:在合成数据集上训练的模型可以直接在kitti上work,但与图像场景流的论文不同,没有把background和moving object做区分,没有考虑ego motion。

《HPLFlowNet: Hierarchical Permutohedral Lattice FlowNet for Scene Flow Estimation on Large-scale Point Clouds》 CVPR 2019

输入:仅使用点云数据

核心思想:采用Bilateral Convolutional Layers作为基本模块,提取前后两帧点云特征并进行融合、上采样,直接拟合出scene flow。

备注:与FlowNet3D的整体结构一样,都是下采样-融合-上采样。Bilateral Convolutional Layers能够快速处理高维稀疏数据,是不同于PointNet的一种滤波操作。

《PointFlowNet: Learning Representations for Rigid Motion Estimation from Point Clouds》 CVPR 2019

输入:仅使用点云数据

核心思想:利用点云数据提取特征后,分别生成ego motion、scene flow、rigid motion、objection location,再整合结果输出

细节如下:

a. 采用VolexNet作为feature encoder
b. 把前后两帧的特征进行concate,接入context encoder
c. 之后,接入三个分支:

i. ego-miotion regressor
ii. sceneflow decoder -> rigid motion decoder(证明了rigid motion decoder 无法使用卷积层,故此处采用了fc)
iii. objection location decoder

d. 把检测出的object和motion融合得到结果

loss为 Scene Flow Loss + Rigid Motion Loss + Ego-motion Loss + Detection Loss

备注:本文思路与图像类方法很像,也是考虑各个instance的motion。

总结

  • Deep Rigid Instance Scene Flow:

输入为双目图像,用MaskRCNN把动静态障碍物分开。三个子网络分别独立训练并计算出Instance Segmentation、深度图、光流,利用三个子网络的结果计算motion,进而得到scene flow。

  • Learning Rigidity in Dynamic Scenes with a Moving Camera for 3D Motion Field Estimation:

输入为RGBD图像,两个子网络分别独立训练并算出光流、ego-motion&rigid mask,refine ego motion后算出scene flow。

  • Every Pixel Counts ++:

输入为单目/双目摄像头,先用三个子网络估计光流、深度、camera motion,再按照几何关系计算出rigid background的motion和moving objects的motion,之后根据一致性对三个子网络进行优化。

  • FlowNet3D 以及 HPLFlowNet:

分别对前后两帧点云下采样提取特征并进行融合、上采样,直接拟合出scene flow。

  • PointFlowNet(思路类似Deep Rigid Instance Scene Flow):

采用volexnet提取前后两帧点云特征并融合,先检测出object、计算出ego motion、scene flow,再去回归各个object的motion。

审核编辑:符乾江
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296527
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261487
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    CPU的几种复位方式适合哪些场景

    1、上电复位 适用场景:系统首次上电或电源以外断电后重新上电时; 2、看门狗复位 适用场景:虚脱程序运行异常,如陷入死循环或长时间无响应时; 3、软件复位 适用场景:软件程序需重启或重新初始化
    发表于 11-27 07:56

    原厂 FZH13 高精度的单通道LED恒驱动芯片

    )。· 调光需求场景:情景照明、智能调光系统。总结FZH13的核心优势在于 高精度恒、超低压降 及 深度调光能力,特别适合以下场景:1. 需宽范围电流调节(5–350mA)的中功率LED驱动;2. 输入电压波动大或低压差环境;
    发表于 11-14 09:20

    哪些场景适合使用DMA?

    DMA(直接内存访问)控制器允许外设和内存之间或内存和内存之间直接传输数据,而无需CPU的参与。这可以大大减轻CPU的负担,让CPU去处理其他任务,从而提高系统效率。以下是一些常见的使用DMA的场景
    发表于 11-12 07:13

    广州邮科可调稳压恒开关电源:实验室与工业场景的“电力管家”

    在实验室调试设备时电压突然跳变?工业产线上的传感器因供电不稳频繁报错?这些场景背后,都藏着对“稳压+恒”双保障的硬核需求。而扎根广州黄埔区22年的老牌企业——广州邮科网络设备有限公司,正用一系列可调稳压恒开关电源,为科研与生
    的头像 发表于 10-21 12:01 177次阅读
    广州邮科可调稳压恒<b class='flag-5'>流</b>开关电源:实验室与工业<b class='flag-5'>场景</b>的“电力管家”

    Leadway微波产品有哪些应用场景?

    。Leadway微波产品的应用场景如下:5G/6G通信测试毫米波基站与终端设备测试:Leadway的测试级柔性/铠装毫米波线缆(DC-110GHz)支持高频段信号传输与校准,确保通信质量。其低插损特性
    发表于 09-26 09:14

    12 路低延迟推!米尔 RK3576 赋能智能安防 360° 环视

    + 低延迟传输” 为核心优势,成功实现 12 路 1080P@30fps 高清视频的稳定处理,端到端推延迟控制在 120~150ms,为各类大场景智能安防 360° 环视需求提供高性价比硬件底座
    发表于 09-18 17:51

    花椒直播首次开源推器组件 为鸿蒙开发者提供高性能推解决方案

    器。该工具基于花椒直播自主通用多媒体框架HJMedia打造而来,采用创新的通用多媒体框架设计,以高度模块化、可扩展的插件化架构,极大提升了音视频功能开发效率与整体的资源利用率,为开发者提供高性能、低耦合的推解决方案。 在直播、短视频等高频多媒体场景
    的头像 发表于 09-04 09:52 514次阅读
    花椒直播首次开源推<b class='flag-5'>流</b>器组件 为鸿蒙开发者提供高性能推<b class='flag-5'>流</b>解决方案

    LED植物灯24V30V升压恒调光芯片H6912

    H6912 是一款外围电路简洁的宽调光比升压调光 LED 恒驱动器,适用于 2.6-40V 输入电压的 LED 恒照明领域。 高精度恒:输出电流精度≤±3%,2.6-40V 宽电压范围适配
    发表于 07-25 16:44

    调光电源选芯难?3款恒芯片参数全解析,一键匹配场景需求

    降压恒架构,支持模拟调光(深度19%)+PWM调光(深度0.01%),过热保护均为“关断”,能稳定控、适配调光场景基础需求。核心差异:精准匹配调光电源场景1.
    的头像 发表于 07-18 16:11 536次阅读
    调光电源选芯难?3款恒<b class='flag-5'>流</b>芯片参数全解析,一键匹配<b class='flag-5'>场景</b>需求

    什么是反时限过保护?深入解析反时限过保护的应用场景与优势

    在电力系统中,过保护是保障设备安全运行和电网稳定性的重要环节。其中,反时限过保护以其独特的动作特性,在特定应用场景下发挥着不可替代的作用。本文将深入探讨反时限过保护的原理、优势,
    的头像 发表于 07-17 13:53 2112次阅读
    什么是反时限过<b class='flag-5'>流</b>保护?深入解析反时限过<b class='flag-5'>流</b>保护的应用<b class='flag-5'>场景</b>与优势

    使用FX3测试程序中的数据时,遇到了每8个字节重复的场景,是什么原因导致的?

    我在使用 FX3 测试程序中的数据时,遇到了每 8 个字节重复的场景
    发表于 05-21 06:59

    弧光保护装置与传统过保护的差异

    弧光保护装置与传统过保护的差异: 对比项弧光保护装置传统过保护 检测对象电弧光+电流突变仅电流幅值 动作时间5-15ms 1100ms-2s 适用场景开关柜内部短路线路过载/远端短路 抗干扰能力多判据融合,误动率低易受电机启
    发表于 05-07 09:59

    RTOS的缓冲区机制解析

    SAFERTOS中的缓冲区(Stream buffer)机制,可以实现任务到任务或中断到任务之间的通信。字节流是由发送方写入缓冲区,接收方读取缓冲区数据。缓冲区作为队列的轻量级级替代方案,适合单读单写场景,写者在
    的头像 发表于 02-14 11:33 974次阅读
    RTOS的<b class='flag-5'>流</b>缓冲区机制解析

    华为支付-(可选)特定场景配置操作

    如涉及以下场景,需提前完成相关产品的开通或配置操作。如不涉及,则不需要配置。 场景一:产品开通操作 部分支付场景接入涉及产品开通,未开通产品直接接入,商户请求华为支付开放的API接口时可能会导致
    发表于 01-21 10:30

    多用示波器的原理和应用场景

    多用示波器是一种功能强大的电子测量仪器,其原理和应用场景如下:一、原理多用示波器主要是利用电子示波管的特性,将人眼无法直接观测的交变电信号转换成图像,显示在荧光屏上以便测量。具体来说,当被测信号输入
    发表于 01-09 15:42