还未设置个性签名
成为VIP会员 享9项特权: 开通会员

完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>

3天内不再提示

视频目标跟踪分析

新机器视觉 来源:人工智能感知信息处理算 作者: 焉知智能汽车 2022-07-05 11:24 次阅读

研究背景介绍

近年来,随着大数据、云计算、人工智能等领域日新月异的发展及交互融合,智慧电商、智慧交通、智慧城市等概念越发受到关注。随着人们对更智能、更便捷、更高质量生活的向往,同时伴随着重大的学术价值和广阔的商业前景,众多高校、科研机构、政府部门均对相关产业投入了大量的人力、物力和财力。人工智能,被喻为新时代工业革命的引擎,正在悄然渗入到各行各业并改变着我们的生活方式。计算机视觉是人工智能领域的重要分支,旨在研宄如何让计算机像人类视觉系统一样智能地感知、分析、处理现实世界。以图像和视频为信息载体的各项计算机视觉算法,早己渗透到大众的日常生活中,如人脸识别、人机交互、商品检索、智能监控、视觉导航等。视频目标跟踪技术,作为计算机视觉领域中基础的、重要的研宄方向之一,一直是研宄人员的关注热点。

视频目标跟踪要求在已知第一帧感兴趣物体的位置和尺度信息的情况下,对该目标在后续视频帧中进行持续的定位和尺度估计W。广义的目标跟踪通常包含单目标跟踪和多目标跟踪。两者既有差别又有紧密的联系。多目标跟踪算法主要包括目标检测和轨迹关联,以确保同一个物体在视频中获得固定的、唯一的数字标识。多目标跟踪通常限定在目标类别已知的场景中,如多行人、多车辆的视觉跟踪。因此,多目标跟踪算法高度依赖现成的目标检测器。物体检测的质量直接关系到后续的多目标轨迹关联。不同地,单目标跟踪算法要求处理任意类别的物体,即不知道任何关于目标的先验信息。虽然前提条件略有差异,但正如其名,单目标跟踪与多目标跟踪都紧紧围绕着视频中的物体识别与跟踪,因而在外观建模、运动分析、轨迹关联等技术细节上有紧密的关联。如何将单目标跟踪技术应用于多目标跟踪领域也被广泛研宄。因此,研究经典的、通用的单目标跟踪任务对于整个跟踪领域的发展有重要意义

随着计算机运算性能的突飞猛进、高性能摄像终端的广泛普及、以及视频分析需求的与日俱增,目标跟踪算法应用范围愈发广泛,落地需求愈加强烈。实现一个可以精准地、稳健地、快速地执行目标定位的高效视觉跟踪系统是目前不懈努力的技术方向=近年来,在国内外大量学者的努力研宄下,该方向已经取得了突飞猛进的进展,但同时仍存在许多亟需解决的问题,例如如何应对跟踪过程中目标的形变、模糊、旋转、遮挡、超出视野等。随着深度模型如卷积神经网络(Convolutional Neural Network,CNN)等的应用,以及GPU设备带来的计算效率的巨大跃升,目标跟踪技术受益于更鲁棒的特征表达以及端到端的模型训练,已经在速度和精度方面渐渐接近了人们在实际生活中的应用需求。视频目标跟踪作为一个中低层的视觉分析任务,对众多其它视觉任务具有良好的辅助作用,如协助视频目标检测、视频目标分割、视频行人重识别等。在实际应用场景中,如图下图所示,目标跟踪的应用包括但不局限于以下方面:

1安全监控:安全监控需要对特定区域中的行人及物体进行持续的检测和跟踪,以便及时发现行人的异常行为或场景中的安全隐患。安全监控广泛应用于日常生活的各个角落,如学校、银行、超市、火车站、停车场、办公楼以及街道路口等。智能监控通过对可疑行人的识别、跟踪、以及更高层面的语义理解,自动分析并预警,提高效率的同时极大地减轻了人们的工作负担。

2城市交通:伴随着现代城市巨大的车流量、人流量、遮挡建筑物等,城市交通场景的分析任务复杂且繁重。利用视频目标跟踪技术,对行人轨迹、违章车辆、超速驾驶、车流密度等进行实时监控,为进一步的场景分析、秩序维护、智能调度提供便利,节约人力物力。

3人机交互:随着计算机设备的智能化提升、虚拟现实等技术的成熟,人们不再仅仅满足于传统的机械式人机交互(如使用鼠标、键盘),如何与智能设备更便捷地进行沟通显得愈发重要。摄像头准确、高效地捕捉并持续跟踪用户的眼神、表情、手势以及姿态是人机智能交互的第一步,而这离不开目标跟踪技术的支持。

4军事领域:视觉跟踪技术在现代战争中一直扮演着重要角色。随着现代战争武器的自动化部署,电光火石的交锋已经远远超出了人类感知的极限。视觉跟踪技术在导弹制导、火炮控制、武器观测瞄准、无人机侦察等领域发挥着举足轻重的作用。结合视觉感知并辅以多元信息(如激光和雷达)融合的跟踪技术一直是军事研宄的热点。

自动驾驶:自动驾驶需要车辆对周围的场景进行实时的感知和分析。毋庸置疑,视觉跟踪技术在其中发挥着重要作用。通过摄像头对周围环境中的目标进行持续的跟踪定位,为无人车的路况分析、智能导航、行驶决策等提供了重要信息,保障交通顺畅,减少事故发生。

6医疗诊断:视觉跟踪技术为智慧医疗提供了坚实的保障并促进其发展。例如,使用跟踪技术标记特定的细胞、蛋白质等,通过对其进行跟踪和轨迹分析,辅助医生进行疾病诊断和医疗救治。通过内窥镜等设备的跟踪和轨迹控制,精准地掌握病人情况。此外,跟踪技术也用于对特定患病部位的持续追踪和对比,为疾病动态检测提供了极大便利。

此外,目标跟踪技术也在视频编辑、三维重建、机器人、机械自动控制等领域发挥着重要作用。

e9c256e6-fb9f-11ec-ba43-dac502259ad0.png

模块之-运动模型

运动模型主要对目标在视频中的运动轨迹进行建模和估计。在每一帧中,为较少不必要的运算开销,跟踪算法通常依据运动模型在特定的区域采样候选样本来寻找最可能的目标。跟踪领域中,常见的运动模型包括卡尔曼滤波、粒子滤波、滑窗采样等。早期的跟踪算法(如基于稀疏表达和SVM的跟踪器)广泛地采用粒子滤波作为运动模型,其基本假设是目标在相邻帧间的运动符合高斯分布。类似地,基于分类网络的跟踪器如MDNET同样在目标前一帧位置处以高斯分布采样大量的候选粒子,并依据观测模型进一步分类。在后续的判别式跟踪算法(如相关滤波器和双路网络)中,最常见的是滑窗式采样,即假设目标在相邻帧间的运动符合均匀分布。相关滤波器和双路网络通常以前一帧跟踪位置为中心剪裁出目标的几倍大区域,通常被称为感兴趣区域(Region of Interest),并在该区域内稠密地、滑窗式地搜索目标位置。必要时,这些跟踪算法还会在跟踪响应图上增加汉明窗以惩罚目标相邻帧间运动过远的预测。最新的基于梯度的深度跟踪算法也普遍地采用均匀分布的运动估计。上述的基于高斯分布或均匀分布的运动估计均没有较好的建模目标的运动信息。在SINT算法中,作者使用光流算法来指导候选样本的采样过程,但在性能提升有限的同时又带来了巨大的运算代价。针对DTB数据集M,作者针对无人机拍摄的跟踪场景提出了有效的运动模型,但是仅局限于特定的情况。由于跟踪领域的数据集众多且拍摄场景多样、复杂,其中不乏人为制造的相机剧烈抖动、目标无规则运动等因素来增加视频的难度,因此单纯地依赖运动模型很难准确地估计目标的运动轨迹。正因如此,科研人员将主要的研宄精力放在了观测模型的构造和改进上,即依赖观测模型的强大辨别能力来筛选和精炼运动模型产生的大量候选粒子。

ea09a1a4-fb9f-11ec-ba43-dac502259ad0.png

模块之-特征提取

依据运动模型确定当前帧的目标搜索范围后,接下来需要对候选区域或候选样本进行特征提取。在跟踪任务中,良好的特征表达不仅需要刻画候选目标丰富的、鲁棒的、具有(旋转、形变、光照等)不变性的外观表达,同时还要凸显出样本间最具有区分力的特征差异以便于正负样本的辨别。视觉跟踪任务的特征表达大体经历了手工特征和深度特征两阶段。在早期的手工特征阶段,研究人员使用各种人为手工设计的规则将候选样本进行向量化表达。早期的基于稀疏表达的目标跟踪构造关于目标的完备字典,并通过衡量候选样本在字典下的重构误差来预测目标的位置。由于稀疏表达的求解相对耗时,早期的稀疏表达跟踪通常使用维度较低的灰度值特征。在后续工作中,Zhang等人通过在稀疏建模中引入循环矩阵性质并近似得到闭合解,使得稀疏表达跟踪器可以使用更高维度的特征(如HOG)来进一步提升性能。基于SVM(Support Vector Machine)的目标跟踪同样取得了优异的性能。该类算法通常采用Harr特征。基于颜色直方图的跟踪器也曾经受到了广泛的关注。颜色直方图的统计特性使得这类算法可以更加鲁棒地处理目标形变。最早的相关滤波器MOSSE算法采用单通道的灰度值特征,因而展现了极高的运算速度。在后续的相关滤波器算法中,被证明是最有效、适合于相关滤波器的特征表达,并已经成为这类算法中最常见的两类手工特征。当前众多性能优异的相关滤波器算法都不同程度地使用HOG和ColorNames,如SRDCF、BACF、CSR-DCF、STRCF、ECOHC等。

随着近年来深度学习的流行,视觉跟踪中特征表达逐渐由手工特征转换到深度特征。相比于注重局部的、底层的、纹理和轮廓等信息的手工特征,深度特征无需人工启发式地设计,而是端到端地通过数据驱动来学习,具有高层语义特征表达的能力。早期的工作DLT中,研宄人员将图像预训练的深度特征用于目标跟踪。由于缺乏大规模的训练数据,该时期的深度跟踪算法并没有展现出明显的性能优势。在2015年,不同的研究团队几乎同时地使用Image Net预训练的CNN网络(如VGG-19、VGG-M)用于跟踪器的特征提取。Ma等人发现CNN网络不同层的特征具有不同层面的表达能力,将多尺度特征进行结合可以进一步提升跟踪性能。此后,深度相关滤波器算法普遍地采用多层CNN特征。然而,该时期的深度相关滤波器算法仅使用现成的CNN网络用于特征提取,并没有充分发挥端到端训练的优势。在2017年,同时期的CFNET和DCFNet将特征提取网络和相关滤波器进行联合训练,使得深度特征更加适合于相关滤波算法。后续工作中,相关滤波器的建模方式被广泛地应用于跟踪框架中,如CREST、ATOM、DiMP等跟踪器。它们的特征提取网络也从VGG-M渐渐转换到更深的ResNet。基于分类网络的跟踪器(如MDNet、VITAL)主要采用VGG-M网络进行特征提取并在线地训练全连接层进行样本分类。早期的双路网络跟踪算法主要采用AlexNet网络结构进行端到端的模型训练。在2019年,研宄人员探索了如何使用更深、更宽的神经网络(如ResNet-50)以进一步提高双路网络的性能。此后,性能顶尖的双路网络基本都采用具有强大特征表达能力的ResNet-50网络。

ea2c7d14-fb9f-11ec-ba43-dac502259ad0.png

ea62687a-fb9f-11ec-ba43-dac502259ad0.png

模块之-观测模型

根据观测模型的不同,跟踪算法大体上可以分为生成式和判别式跟踪器。生成式模型仅仅使用前景的目标信息来构造跟踪模型,通过衡量候选样本的重构误差或相似性来挑选最优样本。常见的生成式跟踪框架包含稀疏表达、子空间学习等。判别式跟踪器同时考虑前景信息和背景信息,以学习到具有区分力的跟踪模型。常见的判别式跟踪器包括随机森林分类器、SVM跟踪器、相关滤波器、分类式神经网络、双路网络等。由于同时利用了前景和背景信息,判别式模型凭借其优异的区分能力成为跟踪领域的主流,并在性能上远远超过生成式跟踪算法。接下来的内容主要介绍近年来流行的生成式和判别式跟踪器。

1.生成式模型

基于子空间学习的跟踪算法:该类算法的核心思想在于将特征从高维到低维进行映射,从而构造一系列子空间对目标外观进行建模,进一步计算候选样本在子空间下的重构误差或相似性以挑选出最可能的目标。Black等人最早利用子空间学习搭建视觉跟踪算法,并提出了基于不同视角、光照样本下的子空间学习方案进行外观建模。由于该算法需要大量的先验知识,因而不适合实际应用场景。IVT算法采用了增量主成分分析来更新子空间,以适应目标的外观变化。Yu等人进一步将増量流型子空间算法引入到视觉跟踪领域,以同时保持多个子空间。

基于稀疏表达的跟踪算法:自从稀疏表达算法在人脸识别中大放异彩,基于稀疏表达的目标跟踪受到了广泛关注。Mei等人较早地使用基于l1范数的稀疏表达模型对目标进行建模,通过使用初始帧和后续跟踪得到的正样本构造稀疏表达字典,并衡量候选样本在字典集下的重构误差来选择其中最可能的目标。由于l1范数的求解过程复杂度很高,后续的研究采用了改进的优化算法如加速近似梯度算法(Accelerated Proximal Gradient,APG)和正交匹配追踪(Orthogonal Matching Pursuit OMP)处理跟踪任务。Jia等人采用基于局部图像块的稀疏表达建模方法,并获得稳健的跟踪结果。Zhong等人将基于局部图像稀疏表达的生成模型和基于前景背景的辨别模型结合起来以达到模型间的优势互补。最近的工作中,Zhang等人通过在稀疏表达框架中引入循环矩阵的性质,从而获得了频域上的高效运算,进一步提高了稀疏表达跟踪的效率。

2.判别式模型

基于SVM的跟踪算法:早在2001年,Avidan将支持向量机(Support Vector Machine,SVM)用于视频目标跟踪,通过SVM学习的分类器模型来区分正负样本。随后,各种改进的SVM跟踪器不断涌现。Supancic等人提出了基于自步学习(Self-paced learning)的SVM跟踪器。Hare等人提出了结构化输出的SVM跟踪算法Struck,在当时取得了令人印象深刻的性能。Zhang等人在2014年提出了基于熵最小化原则的集成式SVM跟踪框架,达到了十分鲁棒的预测结果。随着深度学习的兴起,将神经网络和SVM算法结合的CNN-SVM跟踪器大幅度超越了之前采用手工特征的SVM跟踪器。

基于相关滤波器的跟踪算法:相关滤波器(Correlation Filter,CF)通过学习一个具有区分力的滤波器来处理待跟踪图片,其输出结果为一个响应图,表示目标在后续帧中不同位置的置信度。相关滤波器通过利用循环样本和循环矩阵的性质求解岭回归问题,得到了频域上的高效闭合解,计算效率十分出色。但由于相关滤波器的学习过程中引入了循环样本,这些样本不可避免地带来了边界效应,因此传统的相关滤波器算法在如何抑制边界效应上开展了大量的研宄,典型的工作包括SRDCF、BACF等。此外,许多先进的技术也融入在相关滤波器算法中,如结合多种核函数和粒子滤波器结合适用于长时跟踪的重检测、集成学习等。

随着深度学习的日益发展,深度学习和相关滤波器的结合受到了广泛的关注。早期的工作中,研究人员探索如何将离线训练好的深度特征和相关滤波器进行结合。典型的工作HCF提出将不同层的深度特征分别训练相关滤波器并进行由粗到精(coarse to fine)的融合。在后续的工作中,如何更加充分地利用深度特征被进一步探索,如HDT算法研究了如何自适应地改变各尺度特征下跟踪响应的权重。在深度相关滤波器的基础上,代表性工作C-COT和ECO取得了当时优异的性能。C-COT算法重点研究了不同层深度特征的分辨率不同而导致的响应图融合问题,并提出了连续性插值和滤波器联合优化的方法,取得了良好的效果。ECO在C-COT的基础上,研宄了自适应的相关滤波器选取、目标样本的聚类、稀疏的目标更新,获得了速度和存储上的进一步优化并轻微提升了性能。在UPDT中,作者详细分析了深度相关滤波器算法的性能瓶颈,并提出了适合深度相关滤波器的数据增广、滤波器带宽、融合权重优化等细节,使得相关滤波器在采用更深的神经网络后可以得到持续的性能提升。

随着研究的深入,研究人员发现离线训练的深度特征可能并不是相关滤波器的最优选择。得益于相关滤波器的闭合解,研究人员尝试将滤波器和特征提取网络进行联合训练,经典的工作包括CFNet和DCFNet。CFNet将相关滤波器嵌入在双路网络中进行端到端的学习,在获得相关滤波器辨别能力的情况下,同时保证了极高的运行效率。但是,具有边界效应抑制能力的一系列工作(如SRDCF、BACF)和其它优化算法(如C-COT、ECO)破坏了经典相关滤波器的闭合解,通常需要使用交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)进行优化,为端到端训练带来挑战。

在最新的工作中,研究者采用梯度优化的方法来端到端地优化基于相关滤波器算法的深度框架。在CREST算法中,深度学习中常见的随机梯度下降算法(Stochastic Gradient Descent,SGD)被用于优化正则化最小二乘损失(即岭回归),来学习一个类似于相关滤波器的、具备前景背景区分能力的卷积核。此卷积核与搜索图的特征图进行卷积,生成目标跟踪响应图。在CREST跟踪器中shrink loss,作者进一步引入残差项来弥补目标外观的快速变化,取得了进一步的性能提升。在DLST算法中,作者引入了收缩式损失,极大地抑制了冗余的、容易分类的负样本的权重,使得学习到的滤波器更加具有区分力且学习的速度更快。上述的随机梯度下降方案通常需要数十次甚至上百次迭代才能较好地收敛,因而一定程度抑制了跟踪器的效率。在最近的工作中,研宄人员转向更加快速的梯度下降方法。在最近的ATOM算法中,作者采用共轭梯度策略结合深度学习框架进行快速优化。该研宄团队在工作DiMp中进一步将该思想扩展到了端到端的学习中,并通过神经网络学习跟踪模型所需的各种参数。由于端到端地估计梯度下降的优化步长,使得模型可以在少数几次迭代中快速收敛,保持了岭回归损失的区分能力同时保证了跟踪效率。该算法在数个跟踪数据集上都刷新了当时的性能记录。

基于分类网络的跟踪算法:基于分类的深度跟踪方法将视频目标跟踪视为前景(目标)和背景的二分类任务,并借鉴流行的目标检测算法R-CNNM训练跟踪器。该深度跟踪网络包含一系列卷积层以提取候选样本的鲁棒特征表达,并通过后续的全连接层对样本进行二分类。该方法利用初始帧中的标注样本进行模型微调,并在跟踪过程中不断更新网络,因而效率较低。MDNet方法%最早使用分类式网络进行目标跟踪,并针对待跟踪物体在不同视频中引发的歧义问题,即该视频中的目标可能成为其它视频中的背景物体,从而引入了多数据域的训练框架。在MDNet的训练过程中,网络的共享层由训练集中所有视频共同训练以学习鲁棒的通用特征表达。对每个视频,MDNet又分别训练独立的分类层(最后一个全连接层)用于区分当前视频域中的目标和背景。经过离线训练阶段,在跟踪时,利用第一帧的标注信息快速微调一个新的全连接层用于辨别当前视频的目标和背景。

后续的一系列工作围绕该分类式模型展开。BmnchOut算法在l0的基础上引入了模型集成的思想,在线地学习并更新多个全连接层,并逐帧挑选最具判别力的全连接层进行跟踪。VITAL方法在MDNet的基础上引入了生成对抗式网络,通过在训练时遮挡目标的不同区域以增强网络的特征表达能力以及预测的鲁棒性。分类式跟踪方法的主要弊端在于速度很慢,在GPU中仅能达到1FPS,其主要原因在于大量的候选样本需要重复的特征提取。后续的实时MDNet算法(RT-MDNet)在分类式网络借鉴Fast RCNN的思想,对搜索区域进行共享特征提取,然后再使用ROI-Align裁剪出候选样本特征,使得精度仅有轻微影响的情况下跟踪速度提高25倍以上。

基于双路网络的跟踪算法:双路网络将目标跟踪视为模板匹配任务,通过寻找和第一帧模板最相似的候选进行目标定位。由于双路网络的前景、背景判别能力是通过离线阶段大量数据训练得到的,不需要模型的在线更新,因而展示了极为出色的跟踪效率。SINT算法通过衡量候选样本和初始帧模板的相似度进行跟踪。同时期,Bertinetto等人間提出了全卷积的双路网络框架SiamFC,此方法利用共享权重的卷积网络提取目标模板和搜索区域的特征,然后通过相关操作生成搜索区域的响应图进行目标定位。

研究人员针对SiamFC框架,提出一系列改进算法,包括集成学习引入互补的双路网络分支、引入注意力机制、图卷积神经网络、采用强化学习来调整模型参数等。此外,考虑到SiamFC对目标的尺度回归仍采用传统的金字塔形式,不能准确地获得目标的尺度信息,Li等人提出SiamRPN。此方法将目标检测中的RPN结构引入到SiamFC中,利用参数共享的模块提取特征,然后分别经过分类支路获得目标的位置以及回归支路获得目标尺度的精确估计。相比于SiamFC中采用传统的图像金字塔方式来估计目标尺寸,SiamRPN的推理速度更快,可以达到160FPS。此后Li等人进一步对SiamRPN进行拓展并提出DaSiamRPN,在训练阶段通过挖掘负样本对提高了双路网络的辨别能力。为了使双路算法充分利用现有的深层神经网络,Li等人将ResNet网络引入到双路跟踪并提出SiamRPN++算法。SiamRPN++—方面随机平移目标在搜索区域内的位置以解决CNN的边界填充对双路网络平移不变性的破坏,另一方面采用了高层、中层、低层特征融合的方式获得更好的目标特征表达。SiamRPN++在多个目标跟踪数据集上获得了当时最优的性能。

eada7e14-fb9f-11ec-ba43-dac502259ad0.png

eb0f0896-fb9f-11ec-ba43-dac502259ad0.png

模块之-模型更新

为了适应目标的外观变化,视觉跟踪算法普遍采用模型更新技术。例如,稀疏表达跟踪器利用新收集的正样本来更新稀疏字典;基于SVM的跟踪算法使用后续帧中收集的正、负样本来更新决策平面;相关滤波器将后续桢中得到的滤波器以指数型滑动平均(exponential moving average)的策略更新初始滤波器;基于分类网络的跟踪器不断收集新的正、负样本来在线微调分类网络。

然而,由于目标遮挡、形变、跟踪漂移等因素,跟踪过程中收集的受污染正样本可能导致模型退化。针对这个问题,SRDCFdecon提出了样本权重优化的方式来抑制不可靠正样本的权重。Wang等人提出了APCE(Average Peak-to-Correlation Energy)评估准则来衡量跟踪结果的可靠性。另一方面,跟踪过程中存在大量的无意义负样本,严重影响了判别式分类器的区分力。MDNet算法W通过挖掘困难负样本(hard negative mining)来増强算法的鲁棒性。DSLT算法通过设计损失函数来抑制冗余的负样本。在最新的判别式跟踪算法如ATOM和DiMP中,模型更新时重点关注困难负样本己经成为了算法标配。

不同于多数跟踪算法,早期的双路网络通常不使用模型更新策略。为了更好地适应目标外观变化,MemTrack算法利用LSTM(Long Short Term Memory)结构挖掘历史帧的模板信息以更新当前帧的模板。UpdateNet算法训练一个独立的卷积网络并利用历史模板在下一帧预测一个最优的模板特征。GradNet算法通过梯度信息更新模板,一定程度上可以抑制模板中的背景信息。

eb3fae60-fb9f-11ec-ba43-dac502259ad0.png

eb6c175c-fb9f-11ec-ba43-dac502259ad0.png

视频跟踪数据集

OTB:OTB数据集包含OTB-2013和OTB-2015两个版本。其中OTB-2013包含51个以往跟踪领域的常用测试视频。同时作者还提出了一系列的评估准则。该数据集及评价标准为跟踪算法提供了统一的测试与评估环境,极大地促进了早期视觉跟踪领域的发展。OTB-2015数据集是OTB-2013的扩充,共包含100个挑战性视频。此外,该数据集还对视频标出了遮挡、形变、快速运动、光照变化、模糊等11个视频属性,便于分析跟踪器应对不同场景的能力。

TempleColor:Liang等人于2015年提出此数据集。针对OTB数据集中存在大量的灰度视频,不利于实际场景的算法评估,TempleColor数据集收集了128个彩色视频,包含27个物体类别。其中部分视频来源于OTB-2015。

NFS:该数据集包含100个视频,包含17个物体类别。不同于常规数据集的每秒30帧的视频采样频率,NFS中的视频帧率达到240FPS。更高的视频帧率对跟踪性能有明显的提升。在该数据集上,传统跟踪算法和最新跟踪器之间的性能差距大幅度缩小。

UAV123:此数据集包含123个视频,共具有9个物体类别。不同于以往的针对通用目标的跟踪数据集,UAV123针对特定的无人机跟踪场景,其视频往往由高空俯视角度拍摄,物体通常更小且视角变化较多。

VOT:单目标视觉跟踪竞赛(Visual Object Tracking,VOT)自2013年首次举办,每年一期,发展至今。VOT竞赛采用的数据集主要针对短时目标跟踪,近些年也会评价算法的实时性以及长时目标跟踪的性能。不同于以上数据集,跟踪器在VOT上测试时,失败时会被复位到正确位置。最终根据失败次数以及成功帧的准确度综合成统一的指标来评价跟踪器的性能。

LaSOT:LaSOT是近年来Fan等人提出的大规模跟踪数据集,共含1400个人工标注的高质量视频。其分为训练集与测试集,且两者没有重叠。该数据集包含70个物体类别,视频平均长度在2500帧左右,十分具有挑战性。

OxUvA:此数据集包含366个视频,总时长超过14个小时。OxUvA专门针对长时间目标跟踪的场景。长时跟踪,由于目标频繁地被遮挡及超出视野,对跟踪器的鲁棒性有更高要求。与此同时,作者还提出了评价长时跟踪性能的评估指标,有助于长时跟踪领域的发展。

GOT-10K:此数据集包含1万个视频,共560个目标类别。值得说明的是,该数据集的训练视频和测试视频中的物体类别没有重合,目的在于更加贴近通用目标跟踪的任务设定,即跟踪算法不依赖于特定物体类别或数据集,也没有任何关于待跟踪目标的先验知识,可以更好地验证算法的泛化性。

TrackingNet:此数据集包含超过3万个视频,共有27个目标类别,其视频数量和标注数量比以往的跟踪数据集更大。同时该数据集也进行了训练集和测试集的划分。该数据集提供的大规模训练视频能够有效地缓解当前跟踪领域的训练数据不足的问题。

eba45cc0-fb9f-11ec-ba43-dac502259ad0.png

审核编辑 :李倩

  • 人工智能
    +关注

    关注

    1562

    文章

    36417

    浏览量

    216856
  • 计算机视觉
    +关注

    关注

    7

    文章

    1153

    浏览量

    42548
  • 数据集
    +关注

    关注

    4

    文章

    669

    浏览量

    22205
收藏 人收藏

    评论

    相关推荐

    元宇宙的特点有哪些

    元宇宙的特征。有几个功能将添加到元宇宙。元宇宙是一个全新的概念,它采用了伟大的技术。此外,元宇宙背后....
    的头像 tyhrvrar 发表于 08-16 17:39 120次 阅读

    谷歌的DeepMind人工智能预测了几乎所有已知蛋白质的3D结构

    直到1957年,剑桥大学的科学家John Kendrew第一个成功确定了蛋白质原子的结构并制造了一个....
    发表于 08-16 16:36 36次 阅读

    会写代码的AI开源了

    推荐语: 近期,代码的大型语言模型 (LM)在完成代码和从自然语言描述合成代码方面显示出巨大的潜力。....
    的头像 MobTech科技派 发表于 08-16 15:46 277次 阅读
    会写代码的AI开源了

    嘉兴经济技术开发区第四届创新创业大赛城市海选赛圆满收官

    2022年8月9日,“追梦长三角,智慧赢未来”嘉兴经济技术开发区、嘉兴国际商务区第四届创新创业大赛经....
    的头像 时代新热点资讯 发表于 08-16 15:43 222次 阅读
    嘉兴经济技术开发区第四届创新创业大赛城市海选赛圆满收官

    考拉悠然的AI扬尘治理解决方案入选BPAA第二届应用算法实践典范TOP100

    8月13日,全球算法最佳实践典范大赛(BPAA)第二届应用算法实践典范TOP100榜单公布,考拉悠然....
    的头像 话说科技 发表于 08-16 13:30 257次 阅读
    考拉悠然的AI扬尘治理解决方案入选BPAA第二届应用算法实践典范TOP100

    人工智能换脸为什么人脸转到90度时会出现漏洞?

    视频伪造是 Deepfake 技术最为主要的代表,其制作假视频的技术也被称为人工智能换脸(AI fa....
    发表于 08-16 11:04 30次 阅读

    思必驰与柳州市柳东新区达成合作 共同促进产业智能制造水平升级

    双方将携手推进在智能制造产业领域的深度合作,共建智能制造基地,打造柳州新的高价值名片。同时,思必驰将....
    的头像 思必驰 发表于 08-16 10:53 144次 阅读

    浅析智能化指挥信息系统发展

    浅析智能化指挥信息系统发展 智能化战争时代序幕已经拉开,具有智能化特征的指挥信息系统将成为未来智能化....
    的头像 恬静简朴1 发表于 08-16 10:44 65次 阅读

    三篇基于迁移学习的论元关系提取

    该篇文章为了使论辩中繁琐的过程自动化,提出了一个大规模数据集IAM,该数据集可用于一系列论辩挖掘任务....
    的头像 深度学习自然语言处理 发表于 08-16 09:56 29次 阅读

    微软与广大合作伙伴携手共同发掘数字经济时代的中国机遇

    IDC报告指出,2022年,无论全球还是中国,超过50%的经济是基于数字化或受数字化影响的,2022....
    的头像 微软科技 发表于 08-16 09:13 211次 阅读

    边缘人工智能正在推动一个更安全、更智能的世界

      “有了 NVIDIA Fleet Command ,我们可以将我们的视觉应用程序从 POC 中的....
    的头像 星星科技指导员 发表于 08-15 17:35 245次 阅读

    用NVIDIA Jetson Xavier NX构建四节点集群

    跟随大型超级计算机(如 NVIDIA DGX SuperPOD )的脚步,本文将引导您完成创建适合您....
    的头像 星星科技指导员 发表于 08-15 17:04 124次 阅读

    电子系统设计的模块化

      开发人员现在可以访问面向云的软件模块和工具,这些模块和工具可轻松与常见的网络堆栈和 RTOS 实....
    的头像 星星科技指导员 发表于 08-15 16:57 93次 阅读

    为NVIDIA MLPerf Training v2.0性能提供动力的全堆栈优化

      NVIDIA MLPerf v2.0 提交基于经验证的 A100 Tensor Core GPU....
    的头像 星星科技指导员 发表于 08-15 16:43 107次 阅读
    为NVIDIA MLPerf Training v2.0性能提供动力的全堆栈优化

    改进企业IT欺诈预防

      提供支持欺诈预防和人工智能驱动的企业解决方案的企业级 IT 基础设施也是一项挑战。正确的产品组合....
    的头像 星星科技指导员 发表于 08-15 16:38 105次 阅读
    改进企业IT欺诈预防

    长宁区委副书记一行调研走访西井科技

    8月,长宁区委副书记纪晓鹏围绕“防疫情、稳经济、保安全”大走访、大排查,带队实地调研走访西井科技,了....
    的头像 westwell西井科技 发表于 08-15 16:01 238次 阅读

    数字化转型趋势下的新技术与新应用

    8月,2022英特尔中国学术峰会在福建省福州市开幕。本届峰会为期两天,以“聚智同行,共创未来”为主题....
    的头像 英特尔中国 发表于 08-15 11:52 296次 阅读

    英特尔携手医渡云构建高效多方安全计算解决方案

    “临床医学离不开真实世界的研究,而真实世界研究依赖高质量数据。我们正通过构建更为安全和高效的多方安全....
    发表于 08-15 11:48 108次 阅读

    大型芯片将打破深度学习的速度壁垒

    Cerebras的客户(该公司已经有一些客户了,不过在去年夏天还在保密状态)抱怨说,在当今的计算机上....
    的头像 FPGA技术江湖 发表于 08-15 10:34 134次 阅读

    机器视觉行业未来三年市场趋势如何

    5月,高端光学装备及机器视觉厂商科视广学完成近4亿元C轮融资,本轮融资由中芯聚源、民生股权投资基金、....
    发表于 08-15 09:21 59次 阅读

    油气站如何安全科学的实现降本增效

    这次的加油站油品注水事件,可算是严重的油气站安全事故。可能在卸油、巡检、作业、人员管理等多个环节都出....
    的头像 弘和人工智能 发表于 08-14 17:30 204次 阅读

    瑞为“数智哨兵”产品充分适应不同场景的使用需求

    8月11日,中国政府采购网/中国政府购买服务信息平台上发布中标公告,《福建省星云大数据应用服务有限公....
    的头像 瑞为技术Reconova 发表于 08-14 16:58 180次 阅读

    禾赛科技AT128 半固态激光雷达将于下半年开始规模化交付

    今日,福布斯中国发布了 2022 中国创新力企业 50 强,禾赛科技凭借在人工智能领域与硬件研发上的....
    的头像 禾赛科技 发表于 08-14 15:29 551次 阅读

    南京市新一代政务云推进智慧城市建设

    让城市更聪明一些、更智慧一些,是推动城市治理体系和治理能力现代化的必由之路。未来几年,南京计划成为常....
    发表于 08-14 14:44 77次 阅读

    触景无限科技荣膺最新一批国家级专精特新“小巨人”企业称号

    近日,北京市经济和信息化局公布了第四批专精特新“小巨人”企业名单,触景无限科技(北京)有限公司荣膺最....
    发表于 08-14 12:01 67次 阅读

    NVIDIA CloudXR赋能全云端实时渲染解决方案

    根号叁•企业空间号是企业对外三维展示的全新载体。根号叁自主搭建的商业元宇宙平台 Starverse,....
    的头像 NVIDIA英伟达企业解决方案 发表于 08-14 10:46 143次 阅读

    百度携手“一带一路”沿线国家合作伙伴共建“智能丝绸之路”

    百度作为全球领先的人工智能公司,正从“硬联通”“软联通”“心联通”三个方面,携手“一带一路”沿线国家....
    的头像 百度 发表于 08-14 10:20 399次 阅读

    大华视觉智能实景感知应用助力产业数智化升级创新

    大华股份研发中心副总裁李广义应邀出席大会,与现场众多专家、行业翘楚共同研讨新一代信息技术在诸多领域的....
    的头像 大华股份 发表于 08-12 13:42 358次 阅读

    基于目标域的域自适应类型

    域适应是计算机视觉的一个领域,我们的目标是在源数据集上训练一个神经网络,并确保在显著不同于源数据集的....
    的头像 新机器视觉 发表于 08-12 10:25 50次 阅读

    昇腾产业生态助推“北方算谷”数字经济发展腾飞

    “北方算谷”启幕暨沈阳人工智能计算中心上线并网仪式在辽宁省沈阳市浑南区举行。作为东北地区目前接入中国....
    的头像 华为计算 发表于 08-12 10:04 225次 阅读

    华为与天津市政府合作打造中国开源的言语意图模型和数据集

    8月10日,天津市河北区人民政府、天津大学与华为技术有限公司联合签署“海河。谛听”言语交互意图深度理....
    发表于 08-12 10:01 85次 阅读

    瑞为智慧机场解决方案覆盖全国2/3的千万级机场

    扎根租住行业的7年,深圳市优电智能有限公司(以下简称“优电智能”)的创始团队对这句话的理解应该更加深....
    的头像 瑞为技术Reconova 发表于 08-12 09:02 155次 阅读

    人工智能驱动、计算就绪的医疗平板电脑

    凭借安全设计理念,WMP-24K/22K/19K 还可配备 4KV 隔离 COM / LAN / U....
    的头像 星星科技指导员 发表于 08-11 16:17 382次 阅读

    传感器在工业4.0预测性维护中的应用

    作为工业 4.0 的重要组成部分,本地决策系统在设备内或附近收集传感器数据,以此为依据做出正确判断,....
    的头像 十亿少男的梦 发表于 08-11 15:26 405次 阅读
    传感器在工业4.0预测性维护中的应用

    燧原科技发布基于OAI的E级液冷人工智能系统解决方案

    8月10日第四届OCP China Day 2022在北京召开,燧原科技与OCP Foundatio....
    的头像 燧原科技Enflame 发表于 08-11 14:08 268次 阅读

    基于一致性的半监督语义分割方法

    语义分割是一项重要的像素级别分类任务。但是由于其非常依赖于数据的特性(data hungary), ....
    的头像 OpenCV学堂 发表于 08-11 11:29 87次 阅读

    17个机器学习的常用算法

    根据数据类型的不同,对一个问题的建模有不同的方式。在机器学习或者人工智能领域,人们首先会考虑算法的学....
    的头像 恬静简朴1 发表于 08-11 11:20 97次 阅读

    计算机视觉图像技术:视觉图像搜索综述

    Pascal VOC 由英国的几所大学支持,他们的图片数量较少,但每张图片有着更加丰富的释文。这提升....
    的头像 新机器视觉 发表于 08-11 11:17 83次 阅读

    人类视觉和机器视觉到底有多大的相似性

    深度神经网络(DNNs)已经在人工智能领域取得了极大的成功,它们以图像识别、自动化机器翻译、精确医疗....
    发表于 08-11 11:03 131次 阅读

    嵌入式运动控制实现运动控制系统的微型化

     这种趋势所支持的其他应用程序包括3D打印和面向消费者的物联网设备。后者包括连接的家庭设备,如智能家....
    的头像 zlw_liang 发表于 08-11 10:38 132次 阅读
    嵌入式运动控制实现运动控制系统的微型化

    普渡机器人“葫芦”入驻波兰 带给顾客全新的消费体验

    继普渡机器人与波兰壳牌、必胜客等达成合作,波兰又一家披萨品牌连锁店Da Grasso也引入了普渡机器....
    发表于 08-11 10:26 149次 阅读

    禾赛与一清达成战略合作布局自动驾驶全生态

    一清创始人、董事长刘明表示:“一清创新始终致力于打造安全、稳定、可量产的无人驾驶整车,涵盖工业物流、....
    发表于 08-11 10:23 120次 阅读

    下一代人工智能基础设施的特征

    自动驾驶领域在近两年被大家所熟悉,主要的市场诱导因素是Tesla在辅助智能驾驶和采用全视觉技术的影子....
    发表于 08-11 10:02 86次 阅读

    华为机器视觉产业生态合作进入3.0时代

    2022年8月9日,智能视觉产业联盟第四次会议在延安召开。智能视觉产业联盟理事长段爱国、秘书长刘俊梅....
    的头像 华为机器视觉 发表于 08-11 09:57 269次 阅读

    零距离了解昇腾AI的软硬件能力

    旅行中的我们,总是在看一些关于过去的东西,比如自然的造化,历史的遗存。但或许你也会偶尔有个想法,想在....
    的头像 华为数字中国 发表于 08-11 09:54 464次 阅读

    沈阳人工智能计算中心正式上线并网

    “北方算谷”启幕暨沈阳人工智能计算中心上线并网仪式在辽宁省沈阳市浑南区举行。作为东北地区目前接入中国....
    发表于 08-11 09:52 52次 阅读

    机器视觉系统的新市场包括哪些

    机器视觉 (MV) 和人工智能 (AI) 为各类前沿应用程序提供了宝贵的检测和分析功能。与所有先进技....
    的头像 新机器视觉 发表于 08-11 09:44 401次 阅读

    中国人工智能核心产业规模超过4000亿元

    中国人工智能与实际经济融合进展明显,比如,在智能制造领域智能技术的应用极大提升了产品检测效率和设备利....
    发表于 08-11 09:22 84次 阅读

    fifa将采用半自动越位技术计算进球

    科技在各个领域都有用武之地,尤其是在体育运动中。最近,国际足联推出了一种系统,可以在未来的比赛中自动生成越位警报 令一些...
    发表于 08-02 21:36 2062次 阅读

    三分钟学习NCNN算法移植

    前言      本文是基于EASY EAI Nano移植NCNN部署库的方法与NCNN成功运行yolov4的Demo所做...
    发表于 07-18 18:21 940次 阅读
    三分钟学习NCNN算法移植

    九联科技Unionpi Tiger开发套件AI人工智能开发板使用说明书

    Unionpi Tiger(A311D)是一款应用于图像处理,音视频处理和深度学习等的智能硬件。其芯片拥有强大的CPU、GPU和神经网络...
    发表于 07-11 18:25 1272次 阅读

    【STM32中国线上技术周】聚焦五大主题、31场技术演讲、74个方案展示及答疑,全面展示STM32嵌入式技术创新和生态战略!

    ▌STM32中国线上技术周简介 在STM32诞生15周年之际,意法半导体将首次举办 “STM32中国线上技术周”。通过本次线上技...
    发表于 07-05 14:02 6324次 阅读
    【STM32中国线上技术周】聚焦五大主题、31场技术演讲、74个方案展示及答疑,全面展示STM32嵌入式技术创新和生态战略!

    【Sipeed M2 Dock开发板试用体验】给小车开开天眼

    一.前言 收到Sipeed M2 Dock开发板后,我就在想怎么做一个有趣的小作品,于是我就想到了做一个自动跟随的小车,我的车体采...
    发表于 07-03 23:44 1473次 阅读

    【STM32中国线上技术周】聚焦五大主题、31场技术演讲、74个方案展示及答疑,全面展示STM32嵌入式技术创新和生态战略!

    ▌STM32中国线上技术周简介 在STM32诞生15周年之际,意法半导体将首次举办 “STM32中国线上技术周”。通过本次线上技术...
    发表于 06-27 09:47 2495次 阅读
    【STM32中国线上技术周】聚焦五大主题、31场技术演讲、74个方案展示及答疑,全面展示STM32嵌入式技术创新和生态战略!

    基于RK3399 + RK1808的人工智能平台项目实战

    云计算与边缘计算 云计算 端侧仅负责发送输入数据,并接收计算结果 计算资源集中管理和分配,借助服务器的强大性能,可以实现...
    发表于 06-24 17:44 2482次 阅读

    RK1808计算棒Rock-X demo相关资料分享

    1、RK1808人工智能计算棒全平台RockX支持 Rock-X SDK是一组快捷AI组件库,支持RK3399Pro和RK1808平台。开发者仅...
    发表于 06-23 18:11 4447次 阅读

    TB-RK1808S0 AI 计算棒开发指南

    1、TB-RK1808S0 AI 计算棒开发介绍RK1808 人工智能计算棒是瑞芯微旗下 Toybrick 系列产品中的一员,计算棒搭载瑞芯微的...
    发表于 06-21 18:11 3816次 阅读

    英码RK3588开发套件限量首发!6大亮点内外兼修,超高性价比

    在“十四五”规划推动下,AIoT加快与产业融合并逐步落地,AI场景应用落地过程中,IoT终端硬件的智能化需求日益突出,芯片...
    发表于 06-07 11:07 1851次 阅读
    英码RK3588开发套件限量首发!6大亮点内外兼修,超高性价比