利用TRansformer进行端到端的目标检测及跟踪-电子发烧友网

现存的用检测跟踪的方法采用简单的heuristics，如空间或外观相似性。这些方法，尽管其共性，但过于简单，不足以建模复杂的变化，如通过遮挡跟踪。

简要

多目标跟踪(MOT)任务的关键挑战是跟踪目标下的时间建模。现存的用检测跟踪的方法采用简单的heuristics，如空间或外观相似性。这些方法，尽管其共性，但过于简单，不足以建模复杂的变化，如通过遮挡跟踪。所以现有的方法缺乏从数据中学习时间变化的能力。

在今天分享中，研究者提出了第一个完全端到端多目标跟踪框架MOTR。它学习了模拟目标的长距离时间变化。它隐式地执行时间关联，并避免了以前的显式启发式方法。MOTR建立在TRansformer和DETR之上，引入了“跟踪查询”的概念。每个跟踪查询都会模拟一个目标的整个跟踪。逐帧传输和更新，以无缝地执行目标检测和跟踪。提出了时间聚合网络（Temporal aggregation network）结合多框架训练来建模长期时间关系。实验结果表明，MOTR达到了最先进的性能。

简单背景

多目标跟踪(MOT)是一种视觉目标检测，其任务不仅是定位每一帧中的所有目标，而且还可以预测这些目标在整个视频序列中的运动轨迹。这个问题具有挑战性，因为每一帧中的目标可能会在pool environment中被遮挡，而开发的跟踪器可能会受到长期和低速率跟踪的影响。这些复杂而多样的跟踪方案在设计MOT解决方案时带来了重大挑战。

对于基于IoU的方法，计算从两个相邻帧检测到的检测框的IoU矩阵，重叠高于给定阈值的边界框与相同的身份相关联(见上图(a))。类似地，基于Re-ID的方法计算相邻帧的特征相似性，并将目标对与高相似性相关起来。此外，最近的一些工作还尝试了目标检测和重识别特征学习的联合训练(见上图(b))。

由于DETR的巨大成功，这项工作将“目标查询”的概念扩展到目标跟踪模型，在新框架中被称为跟踪查询。每个跟踪查询都负责预测一个目标的整个跟踪。如上图(c)，与分类和框回归分支并行，MOTR预测每一帧的跟踪查询集。

新框架分析

最近，DETR通过采用TRansformer成功地进行了目标检测。在DETR中，目标查询，一个固定数量的学习位置嵌入，表示一些可能的实例的建议。一个目标查询只对应于一个使用bipartite matching的对象。考虑到DETR中存在的高复杂性和慢收敛问题，Deformable DETR用多尺度deformable attention取代了self-attention。为了展示目标查询如何通过解码器与特征交互，研究者重新制定了Deformable DETR的解码器。

MOTR

在MOTR中，研究者引入了跟踪查询和连续查询传递，以完全端到端的方式执行跟踪预测。进一步提出了时间聚合网络来增强多帧的时间信息。

DETR中引入的目标（检测）查询不负责对特定目标的预测。因此，一个目标查询可以随着输入图像的变化而预测不同的目标。当在MOT数据集的示例上使用DETR检测器时，如上图(a)，相同检测查询（绿色目标查询）预测两个不同帧预测两个不同的目标。因此，很难通过目标查询的身份来将检测预测作为跟踪值联系起来。作为一种补救措施，研究者将目标查询扩展到目标跟踪模型，即跟踪查询。在新的设计中，每个轨迹查询都负责预测一个目标的整个轨迹。一旦跟踪查询与帧中的一个目标匹配，它总是预测目标，直到目标消失（见上图(b))。

Overall architecture of the proposed MOTR

Query Interaction Module

在训练阶段，可以基于对bipartite matching的GTs的监督来实现跟踪查询的学习。而对于推断，研究者使用预测的轨迹分数来确定轨道何时出现和消失。

Overall Optimization

我们详细描述下MOTR的训练过程。给定一个视频序列作为输入，训练损失，即track loss，是逐帧计算和逐帧生成的预测。总track loss是由训练样本上的所有GT的数量归一化的所有帧的track loss的总和：

单帧图像Lt的track loss可表示为：

实验

Implementation Details

All the experiments are conducted on PyTorch with 8Tesla V100 GPUs. We use the Deformable-DETR withResNet50 as our basic network. The basic network ispretrained on the COCO detection dataset.We trainour model with the AdamW optimizer for total 200 epochswith the initial learning rate of 2.0 · 10−4. The learning ratedecays to 2.0 · 10−5 at 150 epochs. The batch size is set to1 and each batch contains 5 frames.

The effect of multi-frame continuous query passing on solving ID switch problem. When the length of video sequence is setto two (top), the objects that are occluded will miss and switch the identity. When improving the video sequence length from two to five(bottom), the track will not occur the ID switch problem with the help of enhanced temporal relation.

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

解码器

解码器

+关注

关注
9

文章
1073

浏览量
40159
检测器

检测器

+关注

关注
1

文章
811

浏览量
47292
MOT

MOT

+关注

关注
0

文章
7

浏览量
6908

原文标题：利用TRansformer进行端到端的目标检测及跟踪（附源代码）

文章出处：【微信号：3D视觉工坊，微信公众号：3D视觉工坊】欢迎添加关注！文章转载请注明出处。

多目标跟踪算法总结归纳

多目标跟踪是计算机视觉领域中的一个重要任务，它旨在从视频或图像序列中准确地检测和跟踪多个移动目标。不过在落地部署时，有一些关键点需要解决。

发表于 04-28 09:42 •63次阅读

多<b class='flag-5'>目标</b><b class='flag-5'>跟踪</b>算法总结归纳

视觉Transformer基本原理及目标检测应用

视觉Transformer的一般结构如图2所示，包括编码器和解码器两部分，其中编码器每一层包括一个多头自注意力模块（self-attention）和一个位置前馈神经网络(FFN)。

发表于 04-03 10:32 •348次阅读

视觉<b class='flag-5'>Transformer</b>基本原理及<b class='flag-5'>目标</b><b class='flag-5'>检测</b>应用

百度开源DETRs在实时目标检测中胜过YOLOs

这篇论文介绍了一种名为RT-DETR的实时检测Transformer，是第一个实时端到端目标检测器。

发表于 03-06 09:24 •329次阅读

百度开源DETRs在实时<b class='flag-5'>目标</b><b class='flag-5'>检测</b>中胜过YOLOs

AI驱动的雷达目标检测：前沿技术与实现策略

传统的雷达目标检测方法，主要围绕雷达回波信号的统计特性进行建模，进而在噪声和杂波的背景下对目标存在与否进行判决，常用的典型算法如似然比

发表于 03-01 12:26 •431次阅读

AI驱动的雷达<b class='flag-5'>目标</b><b class='flag-5'>检测</b>：前沿技术与实现策略

毫米波雷达模块的目标检测与跟踪

毫米波雷达技术在目标检测与跟踪方面具有独特的优势，其高精度、不受光照影响等特点使其在汽车、军事、工业等领域广泛应用。本文深入探讨毫米波雷达模块在目标

发表于 11-14 15:50 •293次阅读

使用RVD进行跟踪的应用笔记

跟踪只能从具有嵌入式跟踪宏单元(ETM)的ARM内核中收集。 ETM根据您的跟踪设置生成跟踪信息。必须首先存储ETM输出的跟踪信息，以便将

发表于 08-29 08:17

基于Transformer的目标检测算法难点

理解Transformer背后的理论基础，比如自注意力机制（self-attention）, 位置编码（positional embedding），目标查询（object query）等等，网上的资料比较杂乱，不够系统，难以通过自学做到深入理解并融会贯通。

发表于 08-24 11:19 •168次阅读

掌握基于Transformer的目标检测算法的3个难点

Transformer来源于自然语言处理领域，首先被应用于机器翻译。后来，大家发现它在计算机视觉领域效果也很不错，而且在各大排行榜上碾压CNN网络。

发表于 08-22 14:52 •450次阅读

基于Transformer的目标检测算法

掌握基于Transformer的目标检测算法的思路和创新点，一些Transformer论文涉及的新概念比较多，话术没有那么通俗易懂，读完论文仍然不理解算法的细节部分。

发表于 08-16 10:51 •432次阅读

如何使用CoreSight Access Library 1.0版本进行目标跟踪

的跟踪并分析Linux内核本身内函数的使用情况。用户空间的例子可以被修改为实时的“飞行记录器”监控，或者用于飞机坠毁后的分析。使用CoreSight访问库CoreSight跟踪对Linux内核进行非

发表于 08-12 07:52

目标跟踪初探（DeepSORT）

目前主流的目标跟踪算法都是基于Tracking-by-Detecton策略，即基于目标检测的结果来进行目

发表于 08-07 15:37 •419次阅读

Arm调试或跟踪目标时的常见问题

了解使用Arm调试或跟踪目标时的常见问题和答案开发工作室（Arm DS）。此页面主要介绍连接、调试和跟踪仿真、FPGA和硅靶。要使用Arm DS调试目标，您必须具备以下条件： •调试

发表于 08-02 06:50

基于Transformer的目标检测算法的3个难点

理解Transformer背后的理论基础，比如自注意力机制（self-attention）, 位置编码（positional embedding），目标查询（object query）等等，网上的资料比较杂乱，不够系统，难以通过自学做到深入理解并融会贯通。

发表于 07-18 12:54 •452次阅读

基于 FPGA 的目标检测网络加速电路设计

; Function Description 本项目针对DAC2019 System Design Contest测试集，计划采用PYNQ-Z2开发板加速目标检测网络，综合考虑数据访问、存储、并行计算等问题进行优化

发表于 06-20 19:45

经典多目标跟踪算法DeepSORT的基本原理和实现

在开始介绍DeepSORT的原理之前呢，我们先来了解下目标检测，和目标跟踪之间的区别。

发表于 06-10 16:08 •1858次阅读