目标跟踪新的建模方式-电子发烧友网

如果模型知道目标在哪，那么我们只需要教模型读出目标的位置，而不需要显式地进行分类、回归。对于这项工作，研究者们希望可以启发人们探索目标跟踪等视频任务的自回归式序列生成建模。自回归式的序列生成模型在诸多自然语言处理任务中一直占据着重要地位，特别是最近ChatGPT的出现，让人们更加惊叹于这种模型的强大生成能力和潜力。最近，微软亚洲研究院与大连理工大学的研究人员提出了一种使用序列生成模型来完成视觉目标跟踪任务的新框架SeqTrack，来将跟踪建模成目标坐标序列的生成任务。目前的目标跟踪框架，一般把目标跟踪拆分为分类、回归、角点预测等多个子任务，然后使用多个定制化的预测头和损失函数来完成这些任务。而SeqTrack通过将跟踪建模成单纯的序列生成任务，不仅摆脱了冗余的预测头和损失函数，也在多个数据集上取得了优秀的性能。

1.新的目标跟踪框架，将跟踪建模为序列生成任务，一个简洁而有效的新基线；

2.摒弃冗余的预测头和损失函数，仅使用朴素的Transformer和交叉熵损失，具有较高的可扩展性。

一、研究动机

现在比较先进的目标跟踪方法采用了“分而治之”的策略，即将跟踪问题解耦成多个子任务，例如中心点预测、前景/背景二分类、边界框回归、角点预测等。尽管在各个跟踪数据机上取得了优秀的性能，但这种“分而治之”的策略存在以下两个缺点：

1、模型复杂：每个子任务都需要一个定制化的预测头，导致框架变得复杂，不利于扩展

2、损失函数冗余：每个预测头需要一个或多个损失函数，引入额外超参数，使训练困难

图1 目前常见的跟踪框架

研究者认为，如果模型知道目标在图像中的位置，那么只需要简单地教模型读出目标边界框即可，不需要用“分而治之”的策略去显式地进行分类和回归等。为此，作者采用了自回归式的序列生成建模来解决目标跟踪任务，教模型把目标的位置作为一句话去“读”出来。

图2 跟踪的序列生成建模

二、方法概览

研究者将目标边界框的四个坐标转化为由离散值token组成的序列，然后训练SeqTrack模型逐个token地预测出这个序列。在模型结构上，SeqTrack采用了原汁原味的encoder-decoder形式的transformer，方法整体框架图如下图3所示：

图3 SeqTrack结构图

Encoder提取模板与搜索区域图片的视觉特征，decoder参考这些视觉特征，完成序列的生成。序列包含构成边界框的 x,y,w,h token，以及两个特殊的 start 和 end token，分别表示生成的开始与结束。在推理时，start token告知模型开始生成序列，然后模型依次生成 x,y,w,h ，每个token的生成都会参考前序已生成好的token，例如，生成 w 时，模型会以 [start, x, y] 作为输入。当 [x,y,w,h] 生成完，模型会输出end token，告知用户预测完成。为了保证训练的高效，训练时token的生成是并行的，即 [start, x,y,w,h] 被同时输入给模型，模型同时预测出 [x,y,w,h, end] 。为了保证推理时的自回归性质，在训练时对decoder中的自注意力层中添加了因果性的attention mask，以保证每个token的预测仅取决于它前序的token，attention mask如下图4所示。

图3 Attention mask，第 i 行第 j 列的橘色格子代表第生成第 i 个输出token时，允许观察到第 j 个输入token，而白色格子代表不可观察。

图像上连续的坐标值被均匀地离散化为了[1, 4000]中的整数。每个整数可以被视为一个单词，构成了单词表 V ，x,y,w,h 四个坐标从单词表 V 中取值。

与常见的序列模型类似，在训练时，SeqTrack使用交叉熵损失来最大化目标值基于前序token的预测值、搜索区域、模板三者的条件概率：

在推理时，使用最大似然从单词表 V 中为每个token取值：

通过这种方式，仅需要交叉熵损失即可完成模型的训练，大大简化了复杂度。除此之外，研究者们还设计了合适的方式，在不影响模型与损失函数的情况下，引入了在线模板更新、窗口惩罚等技术来集成跟踪的先验知识，这里不再赘述，具体细节请参考论文。

三、实验结果

研究者开发了四种不同大小的模型，以取得性能与速度之间的平衡，并在8个跟踪数据集上验证了这些模型的性能。

表1 SeqTrack模型参数

如下表2所示，在大尺度数据集LaSOT, LaSOText，TrackingNet, GOT-10k上，SeqTrack取得了优秀的性能。例如，与同样使用ViT-B和256输入图片分辨率的OSTrack-256相比，SeqTrack-B256在四个数据集上都取得了更好的结果。

表2大规模数据集性能

如表3所示，SeqTrack在包含多种不常见目标类别的TNL2K数据集上取得了领先的性能，验证了SeqTrack的泛化性。在小规模数据集NFS和UAV123上也都取得了具有竞争力的性能。

表3额外数据集性能

图4所示，在VOT竞赛数据集上，分别使用边界框测试和分割掩膜测试，SeqTrack都取得了优秀的性能。

图4 VOT2020性能

这样简单的框架具有良好的可扩展性，只需要将信息引入到序列构建中，而无需更改网络结构。例如，研究者们进行了额外的实验来尝试在序列中引入时序信息。具体来说，将输入序列扩展到多帧，包含了目标边界框的历史值。表4显示这样的简单扩展提升了基线模型的性能。

图5 时序序列示意图

表4 时序序列结果

四、结语

本文提出了目标跟踪的新的建模方式：序列生成式建模。它将目标跟踪建模为了序列生成任务，仅使用简单的Transformer结构和交叉熵损失，简化了跟踪框架。大量实验表明了序列生成建模的优秀性能和潜力。在文章的最后，研究者希望通过本文给视觉目标跟踪和其他视频任务的序列建模提供灵感。在未来工作，研究者将尝试进一步融合时序信息，以及扩展到多模态任务。

审核编辑：彭静

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

建模

建模

+关注

关注
1

文章
280

浏览量
60500
函数

函数

+关注

关注
3

文章
3868

浏览量
61309
Transformer

Transformer

+关注

关注
0

文章
130

浏览量
5898

原文标题：CVPR 2023 | 大连理工和微软提出SeqTrack：目标跟踪新框架

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

什么是主动视觉跟踪？让目标与跟踪器“斗起来”

对于主动视觉跟踪的训练问题，不仅仅前背景物体外观的多样性，目标运动轨迹的复杂程度也将直接影响跟踪器的泛化能力。可以考虑一种极端的情况：如果训练时目标只往前走，那么

发表于 02-20 09:13 •8106次阅读

基于labview的目标跟踪

如何用labview编程实现目标框选跟踪，camshift算法？请高手们帮帮忙，急求

发表于 03-18 10:47

视频跟踪（目标取差器）-基于DM8168实现的自动视频跟踪

、运动方向等自动获取目标。[td]跟踪算法质心跟踪算法：这种跟踪方式用于跟踪有界

发表于 09-05 11:14

视频跟踪目标跟踪算法简介（上海凯视力成信息科技有限...

。www.casevision.net质心跟踪算法（Centroid）这种跟踪方式用于跟踪有界目标如飞机，

发表于 09-29 08:59

labview求目标跟踪程序

求大神指导Labview目标跟踪

发表于 11-27 13:34

基于OPENCV的运动目标跟踪实现

CAMSHIFT算法是一种基于颜色直方图的目标跟踪算法。在视频跟踪过程中，CAMSHIFT算法利用选定目标的颜色直方图模型得到每帧图像的颜色投影图，并根据上一帧

发表于 12-23 14:21

无人机编队视频序列中的多目标精确跟踪

无人机编队视频序列中的多目标精确跟踪:：针对无人机编队视频序列中的多目标精确跟踪的要求，使用ＳＴＫ（ｓａｔｅｌｌｉｔｅｔｏｏｌｋｉｔ）三维建模

发表于 03-18 16:21 •19次下载

基于强跟踪UKF的室内目标跟踪_张英坤

基于强跟踪UKF的室内目标跟踪_张英坤

发表于 01-12 19:56 •1次下载

基于张量投票在目标跟踪中的应用

目标跟踪是在一段视频序列中定位感兴趣的运动目标，并形成目标运动的路径或轨迹。作为计算机视觉领域中视频分析的基本内容之一，目标

发表于 12-11 17:24 •0次下载

视频目标跟踪分析

视频目标跟踪要求在已知第一帧感兴趣物体的位置和尺度信息的情况下，对该目标在后续视频帧中进行持续的定位和尺度估计Ｗ。广义的目标跟踪通常包含单

发表于 07-05 11:24 •1158次阅读

最常见的目标跟踪算法

对象跟踪问题一直是计算机视觉的热点任务之一，简单的可以分为单目标跟踪与多目标跟踪，最常见的目标

发表于 09-14 16:20 •2293次阅读

在MATLAB/simulink中建模时的两种不同实现方式

导读：本期文章主要介绍在MATLAB/simulink中建模时的两种不同实现方式，一种是直接用现成的文件库中的模块进行搭建，一种是用Sfunction代码实现。接下来以电压型磁链观测器为建模目

发表于 09-15 10:07 •1505次阅读

MATLAB/simulink中两种实现建模方式的优势

导读：本期文章主要介绍在MATLAB/simulink中建模时的两种不同实现方式，一种是直接用现成的文件库中的模块进行搭建，一种是用Sfunction代码实现。接下来以电压型磁链观测器为建模目

发表于 09-15 10:10 •4397次阅读

利用TRansformer进行端到端的目标检测及跟踪

多目标跟踪(MOT)任务的关键挑战是跟踪目标下的时间建模。现存的用检测跟踪的方法采用简单的heu

发表于 04-18 09:12 •680次阅读

SystemVerilog的覆盖率建模方式

为了确保验证的完备性，我们需要量化验证目标。SystemVerilog提供了一套丰富的覆盖率建模方式。

发表于 06-25 10:44 •571次阅读

搜索历史

目标跟踪新的建模方式

评论

什么是主动视觉跟踪？让目标与跟踪器“斗起来”

基于labview的目标跟踪

视频跟踪（目标取差器）-基于DM8168实现的自动视频跟踪

视频跟踪目标跟踪算法简介（上海凯视力成信息科技有限...

labview求目标跟踪程序

基于OPENCV的运动目标跟踪实现

无人机编队视频序列中的多目标精确跟踪

基于强跟踪UKF的室内目标跟踪_张英坤

基于张量投票在目标跟踪中的应用

视频目标跟踪分析

最常见的目标跟踪算法

在MATLAB/simulink中建模时的两种不同实现方式

MATLAB/simulink中两种实现建模方式的优势

利用TRansformer进行端到端的目标检测及跟踪

SystemVerilog的覆盖率建模方式