复旦开源LVOS：面向真实场景的长时视频目标分割数据集-电子发烧友网

本文介绍复旦大学提出的面向真实场景的长时视频目标分割数据集LVOS，论文被ICCV2023收录

现有的视频目标分割（VOS）数据集主要关注于短时视频，平均时长在3-5秒左右，并且视频中的物体大部分时间都是可见的。然而在实际应用过程中，用户所需要分割的视频往往时长更长，并且目标物体常常会消失。现有的VOS数据集和真实场景存在一定的差异，真实场景中的视频更加困难。

虽然现在的SOTA的视频目标分割方法在短时的VOS数据集上已经取得了90%的分割准确率，但是这些算法在真实场景中的表现如何却由于缺少相关的数据集不得而知。

因此，为了探究VOS模型在真实场景下的表现，弥补现有数据集的缺失，我们提出了第一个面向真实场景的长时视频目标分割数据集Long-term Video Object Segmentation （LVOS）。

背景介绍：

视频目标分割（VOS）旨在根据视频中第一帧的物体的掩膜，在视频之后每一帧中准确地跟踪并分割目标物体。视频目标分割有着十分广泛的应用，比如：视频编辑、现实增强等。在实际应用场景中，待分割的视频长度常常大于一分钟，且视频中的目标物体会频繁地消失和重新出现。对于VOS模型来说，在任意长的视频中准确地重检测和分割目标物体是一个十分重要的能力。

但是，现有的VOS模型主要是针对于短时视频设计的，并不能很好的处理长时的物体消失和错误累计。并且部分VOS算法依赖于不断增长的记忆模块，当视频长度较长时，存在着低效率甚至显存不够的问题。

目前的视频目标分割数据集主要关注于短时视频，平均视频长度为六秒左右，和真实场景存在着较大差异。与现有的数据集相比，LVOS的视频长度更长，对于VOS算法的要求更高，能够更高地评估VOS模型在真实场景下的性能。

LVOS数据集介绍：

LVOS包含220个视频，总时长达421分钟，平均每个视频时长为1.59分钟，远远大于现有的VOS数据集。LVOS中的视频更加复杂，且有着在短时视频中不存在的挑战，比如长时消失重现和跨时序混淆。这些挑战更难，且对VOS模型的性能影响更大。LVOS中涉及27个类别的物体，其中包含了7种只有测试集中存在的未见类别，能够很好地衡量VOS模型的泛化性。

LVOS分为120个训练视频，50个验证视频和50个测试视频，其中测试视频和验证视频已经全部开源，而测试视频目前只开源了视频图像和第一帧中目标物体的掩膜，需要将预测结果上传到测试服务器中进行在线评测。

方法介绍：

针对于长时视频，我们提出了一个新颖的VOS算法，Diverse Dynamic Memory (DDMemory)。DDMemory包含三个固定大小的记忆模块，分别是参考记忆，全局记忆和局部记忆。通过记忆模块，DDMemory将全局的时序信息压缩到三个固定大小的记忆特征中，在保持高准确率的同时实现了低GPU显存占用和高效率。在分割当前帧时，当前帧图像特征会与三个记忆模块特征进行匹配，并根据匹配结果输出掩膜预测。参考记忆存储第一帧的图像和掩膜信息，参考记忆负责物体消失或者遮挡之后的找回。局部记忆会随着视频不断更新，存储前一帧的图像和掩膜，为当前帧的分割提供位置和形状的先验。而全局记忆利用了全局记忆编码器，通过循环网络的形式，有效地将全局历史信息存储在一个固定大小的特征中，实现对于时序信息的高效压缩和对冗余噪声干扰的排除。

实验：

在验证集和测试集上，我们对现有的VOS模型和DDMemory进行了分别评测。从表中可以看到，现有仅在短时视频上训练的VOS模型在长时视频上表现不如人意，而在长时视频上进行了微调之后，性能均有一定的提升。我们提出的DDMemory能够使用最小的GPU显存，在实现最好性能的同时，实现实时的速度（30.3FPS）。实验结果表明，现有的VOS模型对于真实场景表现较差，且由于缺少面向真实场景的数据集，在一定程度上限制了现有VOS模型的发展，也证明了LVOS数据集的价值。

我们也进行了oracle实验，给定真实的位置和掩膜，模型的性能都会有所提升。在分割当前帧时，给定目标物体的真实位置，性能能够提升8.3%。而在记忆模块更新时，使用真实掩膜来代替预测掩膜进行更新，预测性能能够提升20.8%。但是即使给定目标物体的真实位置和掩膜，模型预测结果仍然和真实结果存在较大差距。实验表明，错误累计以及真实场景视频中复杂的物体运动对VOS模型仍然是尚未解决的挑战，且这些挑战在现有短时视频数据集中并不明显，却在真实场景下对VOS算法性能有着巨大的影响。

总结

针对于真实场景，我们构建了一个新的长时视频目标分割数据集LVOS，LVOS中的视频物体运动更加复杂，对于VOS模型的能力有着更高的要求，且比现有的短时数据集更加贴近实际应用。我们对现有的VOS算法进行了测试和比较，发现现有的VOS模型并不能很好地解决长时视频中的挑战。基于LVOS，我们也分析了现有方法的缺陷以及一些可能的改进方向。希望LVOS能够为面向真实场景的视频理解研究提供一个平台。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

算法

算法

+关注

关注
23

文章
4458

浏览量
90762
数据集

数据集

+关注

关注
4

文章
1179

浏览量
24356
VOS

VOS

+关注

关注
0

文章
21

浏览量
7989

原文标题：ICCV 2023 | 复旦开源LVOS：面向真实场景的长时视频目标分割数据集

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

计算机视觉/深度学习领域常用数据集汇总

on 100,000 peopleCOCO数据集由微软赞助，其对于图像的标注信息不仅有类别、位置信息，还有对图像的语义文本描述，COCO数据集的开

发表于 08-29 10:36

一种基于图像平移的目标检测框架

的研究方向。目前，在照明条件良好的白天场景等标准场景中，目标检测显示出了显著的效率和可靠性。然而，在夜间等不利条件下，目标检测的准确性明显下降。造成这一问题的主要原因之一是缺乏足够的夜

发表于 08-31 07:43

鸿蒙开源全场景应用开发资料汇总

1、鸿蒙开源全场景应用开发——视频编解码面对鸿蒙这一全新的生态，广大消费者在积极尝鲜的同时，家中不可避免会出现安卓设备和鸿蒙设备并存的现象，短期内可能不会形成全鸿蒙的生态环境。因此，在未来的一段时间

发表于 03-23 10:09

迁移学习

Zurich）。语义分割工具箱MMSegmentaion的认识和使用。设计一个分割模型能够从仿真环境中得到的数据迁移到真实场景下产生的

发表于 04-21 15:15

机器学习简介与经典机器学习算法人才培养

）。语义分割工具箱MMSegmentaion的认识和使用。设计一个分割模型能够从仿真环境中得到的数据迁移到真实场景下产生的

发表于 04-28 18:56

复旦微电子学院杨帆：介绍openDACS物理设计&建模验证SIG，发布开源Verilog Parser

物理设计&建模验证SIG组长，介绍了SIG总体情况，包括四个方面内容：SIG研究方向介绍技术趋势和相关业界产品开源目标与计划开源版本发布最后代表复旦微电子学院，发布了openD

发表于 07-01 14:35

3D视频目标分割与快速跟踪

3D视频目标分割与快速跟踪_朱仲杰

发表于 01-07 16:00 •0次下载

一种目标飞机分割提取方法

提出了一种目标飞机分割提取方法，该方法采用改进的使用金字塔式分割策略的以彩色高斯混合模型CMM（Gaussian Mixture Model）和迭代能量最小化为基础的CJrabCut算法，达到将

发表于 11-10 15:46 •7次下载

基于图形处理器的视频二值概率分割

）模型的视频实时二值概率分割。首先分别为不同场景的视频帧提出了两种概率模型，即静态背景概率模型（ SBLM）和动态背景概率模型（ UBLM）；然后，通过光照矫正算法颜色转换、阴影抑制算

发表于 12-29 16:10 •0次下载

如何在信息熵约束下进行视频的目标分割资料详细概述

大部分基于图论的视频分割方法往往先通过分析运动和外观信息获得先验显著性区域，然后用最小化能量模型来进一步分割，这些方法常常忽略对外观信息精细化分析，建立的目标模型对复杂

发表于 12-06 11:53 •4次下载

动态外观模型和高阶能量的双边视频目标分割方法

针对复杂场景下视频日标分割质量不佳和时间效率低下的问题，提岀了一种动态外观模型和高阶能量的双边视频目标分

发表于 04-07 15:44 •8次下载

基于深度学习的场景分割算法研究

场景分割的目标是判断场景图像中每个像素的类别.场景分割是计算机视觉领域重要的基本问题之一，对

发表于 02-12 11:28 •451次阅读

语义分割数据集：从理论到实践

语义分割是计算机视觉领域中的一个重要问题，它的目标是将图像或视频中的语义信息（如人、物、场景等）从背景中分离出来，以便于进行目标检测、识别和

发表于 04-23 16:45 •532次阅读

自动驾驶场景图像分割(Unet)

本文使用matlab环境，测试了自动驾驶场景的图像分割任务。分割网络使用Unet。一千张标注图像，最终训练精度达到 90%。数据准备场景

发表于 06-07 11:58 •0次下载

SAM-PT：点几下鼠标，视频目标就分割出来了！

这些视频中包含训练之外的物体。而表现一般的原因就是没有特定的视频分割数据进行微调，这些模型就很难在各种场景中保持一致的性能。

发表于 07-10 15:28 •402次阅读