0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TLDR: 视频分割一直是重标注的一个task,这篇CVPR 2023文章研究了完全不需要标注的视频物体分割。

CVer 来源:CVer 2023-07-12 14:21 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

TLDR: 视频分割一直是重标注的一个task,这篇CVPR 2023文章研究了完全不需要标注的视频物体分割。仅使用ResNet,RCF模型在DAVIS16/STv2/FBMS59上提升了7/9/5%。文章里还提出了不需要标注的调参方法。代码已公开可用。

5a5d439a-2073-11ee-962d-dac502259ad0.png

Paper title: Bootstrapping Objectness from Videos by Relaxed Common Fate and Visual Grouping

arXiv: https://arxiv.org/abs/2304.08025

作者机构:UC Berkeley, MSRA, UMich

Project page: https://rcf-video.github.io/

Code and models: https://github.com/TonyLianLong/RCF-UnsupVideoSeg

视频物体分割真的可以不需要人类监督吗?

视频分割一直是重标注的一个task,可是要标出每一帧上的物体是非常耗时费力的。然而人类可以轻松地分割移动的物体,而不需要知道它们是什么类别。为什么呢?

Gestalt定律尝试解释人类是怎么分割一个场景的,其中有一条定律叫做Common Fate,即移动速度相同的物体属于同一类别。比如一个箱子从左边被拖到右边,箱子上的点是均匀运动的,人就会把这个部分给分割出来理解。然而人并不需要理解这是个箱子来做这个事情,而且就算是婴儿之前没有见过箱子也能知道这是一个物体。

5aca276c-2073-11ee-962d-dac502259ad0.png

运用Common Fate来分割视频

这个定律启发了基于运动的无监督分割。然而,Common Fate并不是物体性质的可靠指标:关节可动 (articulated) /可变形物体 (deformable objects) 的一些part可能不以相同速度移动,而物体的阴影/反射 (shadows/reflections) 始终随物体移动,但并非其组成部分。

举个例子,下面这个人的腿和身子的运动是不同的(Optical Flow可视化出来颜色不同)。这很常见,毕竟人有关节嘛 (articulated),要是这个处理不了的话,很多视频都不能分割了。然而很多baseline是处理不了这点的(例如AMD+和OCLR),他们把人分割成了几个部分。

5b2027ac-2073-11ee-962d-dac502259ad0.png

还有就是影子和反射,比如上面这只天鹅,它的倒影跟它的运动是一致的(Optical Flow可视化颜色一样),所以之前的方法认为天鹅跟倒影是一个物体。很多视频里是有这类现象的(毕竟大太阳下物体都有个影子嘛),如果这个处理不了的话,很多视频也不能分割了。

那怎么解决?放松。Relax.

长话短说,那我们的方法是怎么解决这个问题的呢?无监督学习的一个特性是利用神经网络自己内部的泛化和拟合能力进行学习。既然Common Fate有自己的问题,那么我们没有必要强制神经网络去拟合Common Fate。于是我们提出了Relaxed Common Fate,通过一个比较弱的学习方式让神经网络真正学到物体的特性而不是noise。

具体来说,我们的方法认为物体运动由两部分组成:物体总体的piecewise-constant motion (也就是Common Fate)和物体内部的segment motion。比如你看下图这个舞者,他全身的运动就可以被理解成piecewise-constant motion来建模,手部腿部这些运动就可以作为residual motion进行拟合,最后合并成一个完整的flow,跟RAFT生成的flow进行比较来算loss。我们用的RAFT是用合成数据(FlyingChairs和FlyingThings)进行训练的,不需要人工标注。

5b4f6800-2073-11ee-962d-dac502259ad0.png

Relaxed Common Fate

首先我们使用一个backbone来进行特征提取,然后通过一个简单的full-convolutional network获得Predicted Masks $hat{M}$(下图里的下半部分),和一般的分割框架是一样的,也可以切换成别的框架。

那我们怎么优化这些Masks呢?我们先提取、合并两帧的特征,放入一个residual flow prediction head来获得Residual Flow $hat{R}$ (下图里的上半部分)。

然后我们对RAFT获得的Flow用Predicted Masks $hat{M}$进行Guided Pooling,获得一个piecewise-constant flow,再加上预测的residual flow,就是我们的flow prediction了。最后把flow prediction和RAFT获得的Flow的差算一个L1 norm Loss进行优化,以此来学习segmentation。

在测试的时候,只有Predicted Masks $hat{M}$ 是有用的,其他部分是不用的。

5b95f8f6-2073-11ee-962d-dac502259ad0.png

这里的Residual Flow会尽量初始化得小一些,来鼓励先学piecewise-constant的部分(有点类似ControlNet),再慢慢学习residual部分。

引入Appearance信息来帮助无监督视频分割

光是Relaxed Common Fate就能在DAVIS上相对baseline提5%了,但这还不够。前面说Relaxed Common Fate的只用了motion而没有使用appearance信息。

让我们再次回到上面这个例子。这个舞者的手和身子是一个颜色,然而AMD+直接把舞者的手忽略了。下面这只天鹅和倒影明明在appearance上差别这么大,却在motion上没什么差别。如果整合appearance和motion,是不是能提升分割质量呢?

5bb4182c-2073-11ee-962d-dac502259ad0.png

因此我们引入了Appearance 来进行进一步的监督。在学习完motion信息之后,我们直接把取得的Mask进行两步优化:一个是low-level的CRF refinement,强调颜色等细节一致的地方应该属于同一个mask(或背景),一个是semantic constraint,强调Unsupervised Feature一直的地方应该属于同一个mask。

把优化完的mask再和原mask进行比较,计算L2 Loss,再更新神经网络。这样训练的模型的无监督分割能力可以进一步提升。具体细节欢迎阅读原文。

5bf4316e-2073-11ee-962d-dac502259ad0.png

无监督调参

很多无监督方法都需要使用有标注的数据集来调参,而我们的方法提出可以利用前面说的motion和appearance的一致性来进行调参。简单地说,motion学习出的mask在appearance上不一致代表这个参数可能不是最优的。具体方法是在Unsupervised Feature上计算Normalized Cuts (但是不用算出最优值),Normalized Cuts越小越代表分割效果好。原文里面对此有详细描述。

方法效果

无论是否有Post-processing,我们的方法在三个视频分割数据集上都有很大提升,在STv2上更是提升了12%。

5c19869e-2073-11ee-962d-dac502259ad0.png

Ablation可以看出Residual pathway (Relaxed Common Fate)的贡献是最大的,其他部分总计贡献了11.9%的增长。

5c2ed2ba-2073-11ee-962d-dac502259ad0.png

Visualizations

5c55c0dc-2073-11ee-962d-dac502259ad0.png

5db3ac5a-2073-11ee-962d-dac502259ad0.png

总结

这篇CVPR 2023文章研究了完全不需要标注的视频物体分割。通过Relaxed Common Fate来利用motion信息,再通过改进和利用appearance信息来进一步优化,RCF模型在DAVIS16/STv2/FBMS59上提升了7/9/5%。文章里还提出了不需要标注的调参方法。代码和模型已公开可用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4848

    浏览量

    108567
  • 视频分割
    +关注

    关注

    0

    文章

    4

    浏览量

    5904

原文标题:TLDR: 视频分割一直是重标注的一个task,这篇CVPR 2023文章研究了完全不需要标注的视频物体分割。

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    特斯拉百万年薪招人!数据标注行业迎来第二春?

    电子发烧友网报道(/梁浩斌)数据标注岗位又要崛起了?特斯拉近日在社交平台上发布则招聘信息,表示正在招聘数据标注员,为Optimus机器
    的头像 发表于 05-11 09:49 5864次阅读
    特斯拉百万年薪招人!数据<b class='flag-5'>标注</b>行业迎来第二春?

    自动驾驶占用网络还需要数据标注吗?

    [首发于智驾最前沿微信公众号]在自动驾驶领域,占据网络(Occupancy Network,简称OCC)一直是近年来的热点技术。不知道大家在了解占用网络时,是否会有这么想法,那就是既然占据网络
    的头像 发表于 04-17 08:53 564次阅读
    自动驾驶占用网络还<b class='flag-5'>需要</b>数据<b class='flag-5'>标注</b>吗?

    大模型时代自动驾驶标注有什么特殊要求?

    在自动驾驶的发展历程中,数据标注一直被视为算法进化的基石。然而,随着大模型时代的到来,这领域正经历着重构。 过去,标注员的任务是简单地在二维照片上画框,标记出车辆和行人的位置。但现在
    的头像 发表于 03-01 09:09 3449次阅读
    大模型时代自动驾驶<b class='flag-5'>标注</b>有什么特殊要求?

    自动驾驶数据标注是所有信息都要标注吗?

    [首发于智驾最前沿微信公众号]数据标注对于自动驾驶来说,就像是老师教小朋友知识,数据标注可以让车辆学习辨别道路交通信息的能力。摄像头、雷达、激光雷达(LiDAR)拍下来的只是堆原始信号,这些信号
    的头像 发表于 12-04 09:05 1343次阅读
    自动驾驶数据<b class='flag-5'>标注</b>是所有信息都要<b class='flag-5'>标注</b>吗?

    算法工程师不愿做标注工作,怎么办?

    对于算法而言,图像标注项关键性工作,越是大量的新数据集标注,对于算法的性能提升越有帮助。但是图像标注项极其费时费力的工作,特别是遇到
    的头像 发表于 12-02 17:56 795次阅读
    算法工程师不愿做<b class='flag-5'>标注</b>工作,怎么办?

    传音TEX AI团队斩获ICCV 2025大型视频目标分割挑战赛双料亚军

    目标分割赛道中均荣获全球第二名,击败众多国内外强队,充分展示团队在复杂视频理解与多模态视频目标分割
    的头像 发表于 10-31 09:42 868次阅读
    传音TEX AI团队斩获ICCV 2025大型<b class='flag-5'>视频</b>目标<b class='flag-5'>分割</b>挑战赛双料亚军

    种基于多次观测融合的可交互三维高斯场景重建框架

    在计算机视觉和机器人领域,如何完整、真实地重建可交互的三维场景,一直是难题。传统方法往往依赖复杂的多阶段流程,比如先做
    的头像 发表于 09-29 11:12 846次阅读
    <b class='flag-5'>一</b>种基于多次观测融合的可交互三维高斯场景重建框架

    手机板 layout 走线跨分割问题

    初学习layout时,都在说信号线不可跨分割,但是在工作中为了成本不能跨分割似乎也非绝对。 在后续工作中,跨分割的基础都是相邻层有面完整的GND参考,跨
    发表于 09-16 14:56

    浅析多模态标注对大模型应用落地的重要性与标注实例

    ”的关键工序——多模态标注重要性日益凸显。 、什么是多模态标注? 多模态标注是指对文本、图像、语音、视频、点云等异构数据进行跨模态语义关联
    的头像 发表于 09-05 13:49 3038次阅读

    小语种OCR标注效率提升10+倍:PaddleOCR+ERNIE 4.5自动标注实战解析

    摘要 :小语种OCR研发的核心瓶颈在于高质量标注数据的稀缺与高昂成本。本文介绍种创新的自动化标注方案,利用 PaddleOCR 进行文本检测与裁剪,并调用 ERNIE 4.5 大模型进行双重预测
    的头像 发表于 08-29 11:26 3966次阅读
    小语种OCR<b class='flag-5'>标注</b>效率提升10+倍:PaddleOCR+ERNIE 4.5自动<b class='flag-5'>标注</b>实战解析

    请问AICube所需的目标检测数据集标注可以使用什么工具?

    请问AICube所需的目标检测数据集标注可以使用什么工具? 我使用labelimg进行标注标注后的数据集改好文件名后导入不进去。一直卡在数据解析界面。 下图所示,数据集文件夹目录,以
    发表于 08-11 08:07

    自动驾驶数据标注主要是标注什么?

    [首发于智驾最前沿微信公众号]在自动驾驶系统的研发过程中,数据标注是实现高性能感知模型的基础环节,其核心目标是将车辆从环境中采集到的原始感知数据(主要包括图像、点云、视频序列等)转化为具有语义信息
    的头像 发表于 07-30 11:54 1898次阅读
    自动驾驶数据<b class='flag-5'>标注</b>主要是<b class='flag-5'>标注</b>什么?

    基于黄金分割搜索法的IPMSM最大转矩电流比控制

    摘 要:在矢量控制理论的基础上,研究内嵌式永磁同步电机(IPMSM)基于黄金分割搜索法实现最大转矩电流比控制(MTPA)的方法。该方法利用对理论最优电流矢量角表达式进行多项式拟合所得值作为搜索
    发表于 07-29 16:11

    工业质检再升级:复杂网络检测模型破解多场景检测难题

    在工业视觉检测领域,缺陷类型多样、目标尺度差异大、图像质量参差不齐等问题,一直是企业提升质检效率的拦路虎。阿丘科技最新发布《检测工具复杂网络功能白皮书》,带来了款针对复杂场景的检测利器,让低对比度
    的头像 发表于 07-16 15:52 930次阅读
    工业质检再升级:复杂网络检测模型破解多场景检测难题

    什么是自动驾驶数据标注?如何好做数据标注

    [首发于智驾最前沿微信公众号]在自动驾驶系统的开发过程中,数据标注项至关重要的工作。它不仅决定模型训练的质量,也直接影响了车辆感知、决策与控制的性能表现。随着传感器种类和数据量的剧增,有效
    的头像 发表于 07-09 09:19 1895次阅读
    什么是自动驾驶数据<b class='flag-5'>标注</b>?如何好做数据<b class='flag-5'>标注</b>?