0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TLDR: 视频分割一直是重标注的一个task,这篇CVPR 2023文章研究了完全不需要标注的视频物体分割。

CVer 来源:CVer 2023-07-12 14:21 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

TLDR: 视频分割一直是重标注的一个task,这篇CVPR 2023文章研究了完全不需要标注的视频物体分割。仅使用ResNet,RCF模型在DAVIS16/STv2/FBMS59上提升了7/9/5%。文章里还提出了不需要标注的调参方法。代码已公开可用。

5a5d439a-2073-11ee-962d-dac502259ad0.png

Paper title: Bootstrapping Objectness from Videos by Relaxed Common Fate and Visual Grouping

arXiv: https://arxiv.org/abs/2304.08025

作者机构:UC Berkeley, MSRA, UMich

Project page: https://rcf-video.github.io/

Code and models: https://github.com/TonyLianLong/RCF-UnsupVideoSeg

视频物体分割真的可以不需要人类监督吗?

视频分割一直是重标注的一个task,可是要标出每一帧上的物体是非常耗时费力的。然而人类可以轻松地分割移动的物体,而不需要知道它们是什么类别。为什么呢?

Gestalt定律尝试解释人类是怎么分割一个场景的,其中有一条定律叫做Common Fate,即移动速度相同的物体属于同一类别。比如一个箱子从左边被拖到右边,箱子上的点是均匀运动的,人就会把这个部分给分割出来理解。然而人并不需要理解这是个箱子来做这个事情,而且就算是婴儿之前没有见过箱子也能知道这是一个物体。

5aca276c-2073-11ee-962d-dac502259ad0.png

运用Common Fate来分割视频

这个定律启发了基于运动的无监督分割。然而,Common Fate并不是物体性质的可靠指标:关节可动 (articulated) /可变形物体 (deformable objects) 的一些part可能不以相同速度移动,而物体的阴影/反射 (shadows/reflections) 始终随物体移动,但并非其组成部分。

举个例子,下面这个人的腿和身子的运动是不同的(Optical Flow可视化出来颜色不同)。这很常见,毕竟人有关节嘛 (articulated),要是这个处理不了的话,很多视频都不能分割了。然而很多baseline是处理不了这点的(例如AMD+和OCLR),他们把人分割成了几个部分。

5b2027ac-2073-11ee-962d-dac502259ad0.png

还有就是影子和反射,比如上面这只天鹅,它的倒影跟它的运动是一致的(Optical Flow可视化颜色一样),所以之前的方法认为天鹅跟倒影是一个物体。很多视频里是有这类现象的(毕竟大太阳下物体都有个影子嘛),如果这个处理不了的话,很多视频也不能分割了。

那怎么解决?放松。Relax.

长话短说,那我们的方法是怎么解决这个问题的呢?无监督学习的一个特性是利用神经网络自己内部的泛化和拟合能力进行学习。既然Common Fate有自己的问题,那么我们没有必要强制神经网络去拟合Common Fate。于是我们提出了Relaxed Common Fate,通过一个比较弱的学习方式让神经网络真正学到物体的特性而不是noise。

具体来说,我们的方法认为物体运动由两部分组成:物体总体的piecewise-constant motion (也就是Common Fate)和物体内部的segment motion。比如你看下图这个舞者,他全身的运动就可以被理解成piecewise-constant motion来建模,手部腿部这些运动就可以作为residual motion进行拟合,最后合并成一个完整的flow,跟RAFT生成的flow进行比较来算loss。我们用的RAFT是用合成数据(FlyingChairs和FlyingThings)进行训练的,不需要人工标注。

5b4f6800-2073-11ee-962d-dac502259ad0.png

Relaxed Common Fate

首先我们使用一个backbone来进行特征提取,然后通过一个简单的full-convolutional network获得Predicted Masks $hat{M}$(下图里的下半部分),和一般的分割框架是一样的,也可以切换成别的框架。

那我们怎么优化这些Masks呢?我们先提取、合并两帧的特征,放入一个residual flow prediction head来获得Residual Flow $hat{R}$ (下图里的上半部分)。

然后我们对RAFT获得的Flow用Predicted Masks $hat{M}$进行Guided Pooling,获得一个piecewise-constant flow,再加上预测的residual flow,就是我们的flow prediction了。最后把flow prediction和RAFT获得的Flow的差算一个L1 norm Loss进行优化,以此来学习segmentation。

在测试的时候,只有Predicted Masks $hat{M}$ 是有用的,其他部分是不用的。

5b95f8f6-2073-11ee-962d-dac502259ad0.png

这里的Residual Flow会尽量初始化得小一些,来鼓励先学piecewise-constant的部分(有点类似ControlNet),再慢慢学习residual部分。

引入Appearance信息来帮助无监督视频分割

光是Relaxed Common Fate就能在DAVIS上相对baseline提5%了,但这还不够。前面说Relaxed Common Fate的只用了motion而没有使用appearance信息。

让我们再次回到上面这个例子。这个舞者的手和身子是一个颜色,然而AMD+直接把舞者的手忽略了。下面这只天鹅和倒影明明在appearance上差别这么大,却在motion上没什么差别。如果整合appearance和motion,是不是能提升分割质量呢?

5bb4182c-2073-11ee-962d-dac502259ad0.png

因此我们引入了Appearance 来进行进一步的监督。在学习完motion信息之后,我们直接把取得的Mask进行两步优化:一个是low-level的CRF refinement,强调颜色等细节一致的地方应该属于同一个mask(或背景),一个是semantic constraint,强调Unsupervised Feature一直的地方应该属于同一个mask。

把优化完的mask再和原mask进行比较,计算L2 Loss,再更新神经网络。这样训练的模型的无监督分割能力可以进一步提升。具体细节欢迎阅读原文。

5bf4316e-2073-11ee-962d-dac502259ad0.png

无监督调参

很多无监督方法都需要使用有标注的数据集来调参,而我们的方法提出可以利用前面说的motion和appearance的一致性来进行调参。简单地说,motion学习出的mask在appearance上不一致代表这个参数可能不是最优的。具体方法是在Unsupervised Feature上计算Normalized Cuts (但是不用算出最优值),Normalized Cuts越小越代表分割效果好。原文里面对此有详细描述。

方法效果

无论是否有Post-processing,我们的方法在三个视频分割数据集上都有很大提升,在STv2上更是提升了12%。

5c19869e-2073-11ee-962d-dac502259ad0.png

Ablation可以看出Residual pathway (Relaxed Common Fate)的贡献是最大的,其他部分总计贡献了11.9%的增长。

5c2ed2ba-2073-11ee-962d-dac502259ad0.png

Visualizations

5c55c0dc-2073-11ee-962d-dac502259ad0.png

5db3ac5a-2073-11ee-962d-dac502259ad0.png

总结

这篇CVPR 2023文章研究了完全不需要标注的视频物体分割。通过Relaxed Common Fate来利用motion信息,再通过改进和利用appearance信息来进一步优化,RCF模型在DAVIS16/STv2/FBMS59上提升了7/9/5%。文章里还提出了不需要标注的调参方法。代码和模型已公开可用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4829

    浏览量

    106810
  • 视频分割
    +关注

    关注

    0

    文章

    4

    浏览量

    5877

原文标题:TLDR: 视频分割一直是重标注的一个task,这篇CVPR 2023文章研究了完全不需要标注的视频物体分割。

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自动驾驶数据标注是所有信息都要标注吗?

    [首发于智驾最前沿微信公众号]数据标注对于自动驾驶来说,就像是老师教小朋友知识,数据标注可以让车辆学习辨别道路交通信息的能力。摄像头、雷达、激光雷达(LiDAR)拍下来的只是堆原始信号,这些信号
    的头像 发表于 12-04 09:05 368次阅读
    自动驾驶数据<b class='flag-5'>标注</b>是所有信息都要<b class='flag-5'>标注</b>吗?

    算法工程师不愿做标注工作,怎么办?

    对于算法而言,图像标注项关键性工作,越是大量的新数据集标注,对于算法的性能提升越有帮助。但是图像标注项极其费时费力的工作,特别是遇到
    的头像 发表于 12-02 17:56 261次阅读
    算法工程师不愿做<b class='flag-5'>标注</b>工作,怎么办?

    传音TEX AI团队斩获ICCV 2025大型视频目标分割挑战赛双料亚军

    目标分割赛道中均荣获全球第二名,击败众多国内外强队,充分展示团队在复杂视频理解与多模态视频目标分割
    的头像 发表于 10-31 09:42 303次阅读
    传音TEX AI团队斩获ICCV 2025大型<b class='flag-5'>视频</b>目标<b class='flag-5'>分割</b>挑战赛双料亚军

    浅析多模态标注对大模型应用落地的重要性与标注实例

    ”的关键工序——多模态标注重要性日益凸显。 、什么是多模态标注? 多模态标注是指对文本、图像、语音、视频、点云等异构数据进行跨模态语义关联
    的头像 发表于 09-05 13:49 790次阅读

    请问AICube所需的目标检测数据集标注可以使用什么工具?

    请问AICube所需的目标检测数据集标注可以使用什么工具? 我使用labelimg进行标注标注后的数据集改好文件名后导入不进去。一直卡在数据解析界面。 下图所示,数据集文件夹目录,以
    发表于 08-11 08:07

    自动驾驶数据标注主要是标注什么?

    [首发于智驾最前沿微信公众号]在自动驾驶系统的研发过程中,数据标注是实现高性能感知模型的基础环节,其核心目标是将车辆从环境中采集到的原始感知数据(主要包括图像、点云、视频序列等)转化为具有语义信息
    的头像 发表于 07-30 11:54 918次阅读
    自动驾驶数据<b class='flag-5'>标注</b>主要是<b class='flag-5'>标注</b>什么?

    什么是自动驾驶数据标注?如何好做数据标注

    [首发于智驾最前沿微信公众号]在自动驾驶系统的开发过程中,数据标注项至关重要的工作。它不仅决定模型训练的质量,也直接影响了车辆感知、决策与控制的性能表现。随着传感器种类和数据量的剧增,有效
    的头像 发表于 07-09 09:19 945次阅读
    什么是自动驾驶数据<b class='flag-5'>标注</b>?如何好做数据<b class='flag-5'>标注</b>?

    AI时代 图像标注不要没苦硬吃

    视频就多达两三百张画面需要标注,如果视频时长或者视频的帧速率增加,需要
    的头像 发表于 05-20 17:54 429次阅读
    AI时代   图像<b class='flag-5'>标注</b>不要没苦硬吃

    cypress3014视频格式改变的话,GPIF状态机需不需要重新配置?

    你好,请问视频格式改变的话,GPIF状态机需不需要重新配置
    发表于 05-14 07:28

    东软集团入选国家数据局数据标注优秀案例

    近日,东软飞标医学影像标注平台在国家数据局发布数据标注优秀案例集名单中排名第(案例名称“多模态医学影像智能数据标注平台”)。评选专家认为东软案例取得了显著成效,
    的头像 发表于 05-09 14:37 1014次阅读

    自动化标注技术推动AI数据训练革新

    标贝自动化数据标注平台在全栈数据标注场景式中搭载大模型预标注和自动化标注能力,并应用于3D点云、2D图像、音频、文本等数据场景的大规模、复
    的头像 发表于 03-14 16:46 1099次阅读

    ADS1274的DRDY一直是高电平,为什么?

    引脚还是一直是高电平。通过DIN和sclk输入数据时,DRDY输出高电平脉冲。DOUT有数据。ADS1274坏了吗?
    发表于 02-06 07:07

    AI自动图像标注工具SpeedDP将是数据标注行业发展的重要引擎

    AI大浪潮下,许多企业都在不断借助AI来提升自己的行业竞争力,数据标注企业也不例外,传统人工标注效率不足的弊端困扰多年,如今新的“引擎”就在眼前,他们当然不会放过这个机会。针对这样的需求,慧视光电
    的头像 发表于 01-02 17:53 1127次阅读
    AI自动图像<b class='flag-5'>标注</b>工具SpeedDP将是数据<b class='flag-5'>标注</b>行业发展的重要引擎

    ads1220 DRDY信号一直是高,怎么解决?

    你好,我根据ti官方的ads1220的例程,改的程序,发送的spi信号都是对的,接受信号,通过示波器观察波形,是条直线,都是高电平,而且DRDY信号一直是高,请问我改如何分析。谢谢
    发表于 12-25 07:45

    标贝数据标注在智能驾驶训练中的落地案例

    标贝科技深耕AI数据服务多年,在无人驾驶、自动驾驶等智能驾驶领域拥有丰富的合作案例。多次采用点云标注以及3D&2D融合等标注方式为智能驾驶领域客户提供环境感知、决策策划、车道线标注、障碍物监测、道路标志牌
    的头像 发表于 12-24 15:17 3109次阅读
    标贝数据<b class='flag-5'>标注</b>在智能驾驶训练中的落地案例