0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CVPR 2023 | 完全无监督的视频物体分割 RCF

智能感知与物联网技术研究所 来源:未知 2023-07-16 20:45 次阅读

wKgZomTYhUSAenguAAjVd7mUCo8183.png

TLDR:视频分割一直是重标注的一个 task,这篇 CVPR 2023 文章研究了完全不需要标注的视频物体分割。仅使用 ResNet,RCF模型在 DAVIS16/STv2/FBMS59 上提升了 7/9/5%。文章里还提出了不需要标注的调参方法。代码已公开可用。

ea60cd80-23d5-11ee-962d-dac502259ad0.png      论文标题:Bootstrapping Objectness from Videos by Relaxed Common Fate and Visual Grouping

论文链接:

https://arxiv.org/abs/2304.08025

作者机构:

UC Berkeley, MSRA, UMich

分割效果视频:

https://people.eecs.berkeley.edu/~longlian/RCF_video.html

项目主页:

https://rcf-video.github.io/

代码链接:

https://github.com/TonyLianLong/RCF-UnsupVideoSeg

ed6b5c70-23d5-11ee-962d-dac502259ad0.png

视频物体分割真的可以不需要人类监督吗?

视频分割一直是重标注的一个 task,可是要标出每一帧上的物体是非常耗时费力的。然而人类可以轻松地分割移动的物体,而不需要知道它们是什么类别。为什么呢?

Gestalt 定律尝试解释人类是怎么分割一个场景的,其中有一条定律叫做 Common Fate,即移动速度相同的物体属于同一类别。比如一个箱子从左边被拖到右边,箱子上的点是均匀运动的,人就会把这个部分给分割出来理解。然而人并不需要理解这是个箱子来做这个事情,而且就算是婴儿之前没有见过箱子也能知道这是一个物体。

ed89f3ec-23d5-11ee-962d-dac502259ad0.png

edd3b4f0-23d5-11ee-962d-dac502259ad0.png

运用Common Fate来分割视频

这个定律启发了基于运动的无监督分割。然而,Common Fate 并不是物体性质的可靠指标:关节可动(articulated)/可变形物体(deformable objects)的一些 part 可能不以相同速度移动,而物体的阴影/反射(shadows/reflections)始终随物体移动,但并非其组成部分。

举个例子,下面这个人的腿和身子的运动是不同的(Optical Flow 可视化出来颜色不同)。这很常见,毕竟人有关节嘛(articulated),要是这个处理不了的话,很多视频都不能分割了。然而很多 baseline 是处理不了这点的(例如 AMD+ 和 OCLR),他们把人分割成了几个部分。

wKgZomTYhVmAaP-gAALeTk_-f4k153.png

还有就是影子和反射,比如上面这只天鹅,它的倒影跟它的运动是一致的(Optical Flow 可视化颜色一样),所以之前的方法认为天鹅跟倒影是一个物体。很多视频里是有这类现象的(毕竟大太阳下物体都有个影子嘛),如果这个处理不了的话,很多视频也不能分割了。

ee50510e-23d5-11ee-962d-dac502259ad0.png

那怎么解决?放松。Relax.

长话短说,那我们的方法是怎么解决这个问题的呢?无监督学习的一个特性是利用神经网络自己内部的泛化和拟合能力进行学习。既然 Common Fate 有自己的问题,那么我们没有必要强制神经网络去拟合 Common Fate。于是我们提出了 Relaxed Common Fate,通过一个比较弱的学习方式让神经网络真正学到物体的特性而不是 noise。

具体来说,我们的方法认为物体运动由两部分组成:物体总体的 piecewise-constant motion (也就是 Common Fate)和物体内部的 segment motion。比如你看下图这个舞者,他全身的运动就可以被理解成 piecewise-constant motion 来建模,手部腿部这些运动就可以作为 residual motion 进行拟合,最后合并成一个完整的 flow,跟 RAFT 生成的 flow 进行比较来算 loss。我们用的 RAFT 是用合成数据(FlyingChairs 和 FlyingThings)进行训练的,不需要人工标注。

wKgaomTYhW-ARynXAAGz3l4TSMw344.png

eea607e8-23d5-11ee-962d-dac502259ad0.png

Relaxed Common Fate

首先我们使用一个 backbone 来进行特征提取,然后通过一个简单的 full-convolutional network 获得 Predicted Masks (下图里的下半部分),和一般的分割框架是一样的,也可以切换成别的框架。 那我们怎么优化这些 Masks 呢?我们先提取、合并两帧的特征,放入一个 residual flow prediction head 来获得 Residual Flow (下图里的上半部分)。 然后我们对 RAFT 获得的 Flow 用 Predicted Masks 进行 Guided Pooling,获得一个 piecewise-constant flow,再加上预测的 residual flow,就是我们的 flow prediction 了。最后把 flow prediction 和 RAFT 获得的 Flow 的差算一个 L1 norm Loss 进行优化,以此来学习 segmentation。 在测试的时候,只有 Predicted Masks 是有用的,其他部分是不用的。eebe9254-23d5-11ee-962d-dac502259ad0.png  

这里的 Residual Flow 会尽量初始化得小一些,来鼓励先学 piecewise-constant 的部分(有点类似 ControlNet),再慢慢学习 residual 部分。

eee33334-23d5-11ee-962d-dac502259ad0.png

引入Appearance信息来帮助无监督视频分割

光是 Relaxed Common Fate 就能在 DAVIS 上相对 baseline 提 5%了,但这还不够。前面说 Relaxed Common Fate 的只用了 motion 而没有使用 appearance 信息。

让我们再次回到上面这个例子。这个舞者的手和身子是一个颜色,然而 AMD+ 直接把舞者的手忽略了。下面这只天鹅和倒影明明在 appearance 上差别这么大,却在 motion 上没什么差别。如果整合 appearance 和 motion,是不是能提升分割质量呢?

wKgZomTYhYaAJeOJAALHCeFXY4w226.png

因此我们引入了 Appearance 来进行进一步的监督。在学习完 motion 信息之后,我们直接把取得的 Mask 进行两步优化:一个是 low-level 的 CRF refinement,强调颜色等细节一致的地方应该属于同一个 mask(或背景),一个是 semantic constraint,强调 Unsupervised Feature 一直的地方应该属于同一个 mask。

把优化完的 mask 再和原 mask 进行比较,计算 L2 Loss,再更新神经网络。这样训练的模型的无监督分割能力可以进一步提升。具体细节欢迎阅读原文。

ef7e3d5c-23d5-11ee-962d-dac502259ad0.png

efcaa296-23d5-11ee-962d-dac502259ad0.png

无监督调参

很多无监督方法都需要使用有标注的数据集来调参,而我们的方法提出可以利用前面说的 motion 和 appearance 的一致性来进行调参。简单地说,motion 学习出的 mask 在 appearance 上不一致代表这个参数可能不是最优的。具体方法是在 Unsupervised Feature 上计算 Normalized Cuts (但是不用算出最优值),Normalized Cuts 越小越代表分割效果好。原文里面对此有详细描述。

efdf21ee-23d5-11ee-962d-dac502259ad0.png

方法效果

无论是否有 Post-processing,我们的方法在三个视频分割数据集上都有很大提升,在 STv2 上更是提升了 12%。

eff8356c-23d5-11ee-962d-dac502259ad0.png

Ablation 可以看出 Residual pathway (Relaxed Common Fate)的贡献是最大的,其他部分总计贡献了 11.9% 的增长。

f03f535c-23d5-11ee-962d-dac502259ad0.png

Visualizations

f069cd58-23d5-11ee-962d-dac502259ad0.png

f164ad9a-23d5-11ee-962d-dac502259ad0.png

f203ca06-23d5-11ee-962d-dac502259ad0.png

wKgaomTYha2Afs61AAUfDqTnj88519.png

f2d31fea-23d5-11ee-962d-dac502259ad0.png

总结

这篇 CVPR 2023 文章研究了完全不需要标注的视频物体分割。通过 Relaxed Common Fate 来利用 motion 信息,再通过改进和利用 appearance 信息来进一步优化,RCF 模型在 DAVIS16/STv2/FBMS59 上提升了 7/9/5%。文章里还提出了不需要标注的调参方法。代码和模型已公开可用。


原文标题:CVPR 2023 | 完全无监督的视频物体分割 RCF

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2870

    文章

    41639

    浏览量

    358410

原文标题:CVPR 2023 | 完全无监督的视频物体分割 RCF

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    语言模型的弱监督视频异常检测方法

    了局部Transformer的mask,从时序上将输入视频帧特征分割为多个等长块,令自注意力计算局限于块内,减少了冗余信息建模,降低计算复杂度。
    的头像 发表于 01-02 15:20 300次阅读
    语言模型的弱<b class='flag-5'>监督</b><b class='flag-5'>视频</b>异常检测方法

    动态场景下的自监督单目深度估计方案

    监督单目深度估计的训练可以在大量无标签视频序列来进行,训练集获取很方便。但问题是,实际采集的视频序列往往会有很多动态物体,而自监督训练本身
    发表于 11-28 09:21 278次阅读
    动态场景下的自<b class='flag-5'>监督</b>单目深度估计方案

    机器视觉(六):图像分割

    基于阈值的分割方法是一种应用十分广泛的图像分割技术,其实质是利用图像的灰度直方图信息获取用于分割的阈值,一个或几个阈值将图像的灰度级分为几个部分,认为属于同一部分的像素是同一个物体
    的头像 发表于 10-22 11:34 530次阅读
    机器视觉(六):图像<b class='flag-5'>分割</b>

    ICCV 2023 | 超越SAM!EntitySeg:更少的数据,更高的分割质量

    ,需要在不同的图像领域、新的物体类别以及各种图像分辨率和质量下都能够保持鲁棒性。为了解决这个问题,早在 SAM[6] 模型一年之前,一种不考虑类别的实体分割任务 [1] 被提出,作为评估模型泛化能力的一种统一标准。  在本文中,High-Quality Entity Se
    的头像 发表于 10-02 10:40 525次阅读
    ICCV <b class='flag-5'>2023</b> | 超越SAM!EntitySeg:更少的数据,更高的<b class='flag-5'>分割</b>质量

    2280规格SSD使用附带螺丝完全无法锁住是为什么?

    如图,2280规格SSD使用附带螺丝完全无法锁住。
    发表于 09-12 08:10

    复旦开源LVOS:面向真实场景的长时视频目标分割数据集

    现有的视频目标分割(VOS)数据集主要关注于短时视频,平均时长在3-5秒左右,并且视频中的物体大部分时间都是可见的。然而在实际应用过程中,用
    的头像 发表于 09-04 16:33 484次阅读
    复旦开源LVOS:面向真实场景的长时<b class='flag-5'>视频</b>目标<b class='flag-5'>分割</b>数据集

    c++实现的多画面视频分割示例

    c++实现的多画面视频分割示例,有4路、8路、16路、64路显示等显示分割界面
    发表于 08-30 17:40 3次下载

    CVPR 2023 中的领域适应:用于切片方向连续的无监督跨模态医学图像分割

    如上图所示,以前的医学图像分割 UDA 方法大多采用 2D UDA,当将预测堆叠在一起时,会导致切片方向上的预测不一致。SDC-UDA 在翻译和分割过程中考虑了体积信息,从而改善了分割结果在切片方向上的连续性,可以看到在图的最右
    的头像 发表于 08-17 16:35 1382次阅读
    <b class='flag-5'>CVPR</b> <b class='flag-5'>2023</b> 中的领域适应:用于切片方向连续的无<b class='flag-5'>监督</b>跨模态医学图像<b class='flag-5'>分割</b>

    使用LabVIEW 实现物体识别、图像分割、文字识别、人脸识别等深度视觉

    LabVIEW可以实现深度学习嘛,今天我们一起来看看使用LabVIEW 实现物体识别、图像分割、文字识别、人脸识别等深度视觉
    的头像 发表于 08-11 16:02 913次阅读
    使用LabVIEW 实现<b class='flag-5'>物体</b>识别、图像<b class='flag-5'>分割</b>、文字识别、人脸识别等深度视觉

    TLDR: 视频分割一直是重标注的一个task,这篇CVPR 2023文章研究了完全不需要标注的视频物体分割

    这个定律启发了基于运动的无监督分割。然而,Common Fate并不是物体性质的可靠指标:关节可动 (articulated) /可变形物体 (deformable objects)
    的头像 发表于 07-12 14:21 523次阅读
    TLDR: <b class='flag-5'>视频</b><b class='flag-5'>分割</b>一直是重标注的一个task,这篇<b class='flag-5'>CVPR</b> <b class='flag-5'>2023</b>文章研究了<b class='flag-5'>完全</b>不需要标注的<b class='flag-5'>视频</b><b class='flag-5'>物体</b><b class='flag-5'>分割</b>。

    SAM-PT:点几下鼠标,视频目标就分割出来了!

    在半监督视频对象分割(VOS)和视频实例分割(VIS)方面,目前的主流方法处理未知数据时表现一般,是在零样本情况下更是「一言难尽」。零样本情
    的头像 发表于 07-10 15:28 400次阅读
    SAM-PT:点几下鼠标,<b class='flag-5'>视频</b>目标就<b class='flag-5'>分割</b>出来了!

    CVPR 2023 | 华科&amp;MSRA新作:基于CLIP的轻量级开放词汇语义分割架构

    本文提出了 SAN 框架,用于开放词汇语义分割。该框架成功地利用了冻结的 CLIP 模型的特征以及端到端的流程,并最大化地采用冻结的 CLIP 模型。 简介 本文介绍了一种名为Side
    的头像 发表于 07-10 10:05 595次阅读
    <b class='flag-5'>CVPR</b> <b class='flag-5'>2023</b> | 华科&amp;MSRA新作:基于CLIP的轻量级开放词汇语义<b class='flag-5'>分割</b>架构

    KiCad中如何分割平面?

    1,3.3V优先级为0(更低),则完全无法起到平面分割的租用: 如果优先级相同,不同网络的敷铜区域仍会被分割: 相同网络的区域则互不干扰的填充(不会被合并): 将图形转换为敷铜区域 如果直接使用“敷铜
    发表于 06-26 11:50

    AI算法说-图像分割

    语义分割是区分同类物体分割任务,实例分割是区分不同实例的分割任务,而全景分割则同时达到这两个目
    的头像 发表于 05-17 14:44 889次阅读
    AI算法说-图像<b class='flag-5'>分割</b>

    ESP8266使Web服务器完全无响应是怎么回事?

    ) { server.handleClient(); 我的问题是代码中已经有一个循环需要延迟 2 秒执行,如果我将 server.handleClient() 函数放在这个循环中,它会使 Web 服务器完全无响应。有没有另一种方法可以使服务器保持活动状态并使我的原始循环处于活动状态?
    发表于 05-12 08:20