简述深度学习的基准目标检测及其衍生算法-电子发烧友网

1 基于深度学习的基准目标检测模型

基于深度学习的目标检测方法根据有无区域提案阶段划分为区域提案检测模型和单阶段检测模型，其最近发展历程在图1中画出。

▲ 图1 基于深度学习的目标检测模型的发展历程

1.1 区域提案目标检测基准模型

区域提案检测模型将目标检测任务分为区域提案生成、特征提取和分类预测三个阶段。在区域提案生成阶段，检测模型利用搜索算法如选择性搜索（Selective Search，SS）、EdgeBoxes、区域提案网络（Region Proposal Network， RPN）等在图像中搜寻可能包含物体的区域。在特征提取阶段，模型利用深度卷积网络提取区域提案中的目标特征。在分类预测阶段，模型从预定义的类别标签对区域提案进行分类和边框信息预测。

2012年，卷积神经网络AlexNet通过强大的分层特征学习能力在ImageNet分类任务中夺魁，其分类结果比传统算法要好得多。之后Girshirk等基于此提出通用的目标检测模型RCNN。

受空间金字塔匹配启发，He等提出空间金字塔池化网络（Spatial Pyramid Pooling Network， SPPNet）解决RCNN模型中固定大小图像输入的问题。尽管模型能解决固定大小图像输入的问题并大幅减少检测时间，但网络输出特征需要磁盘存储且网络不能通过反向传播更新卷积层参数。Fast RCNN，Faster RCNN解决了该问题。

尽管Faster RCNN运用RPN能有效地缩短检测时间，但图像中上百个区域提案仍需输入到区域子网络来分类与坐标回归，这是模型的计算瓶颈。若直接减少区域子网络的深度则会引起基于分类初始模型与检测模型的矛盾，因为分类会增加物体的平移不变性而检测则减少物体的平移不变性。为解决上述问题，代表性的方法有RFCN，Mask RCNN。上述模型的相关信息在表1中列出。

▲ 表1 区域提案目标检测基准模型

1.2 单阶段目标检测基准模型

虽然区域提案检测模型保持着高效的检测效率，但其耗费时间长难以得到实际应用。相较于区域提案检测模型，单阶段检测模型联合区域提案和分类预测，输入整张图像到卷积神经网络中提取特征，最后直接输出目标类别和边框位置信息。这类代表性的方法有：YOLO，YOLOv2，YOLOv3，YOLOv4，SSD，CornerNet等。

针对YOLO模型中目标定位不准确的问题，Liu等人提出更准确的单阶段实时检测模型SSD（Single Shot MultiBox Detector），其结合YOLO的回归思想与Faster RCNN的锚框机制。之后DSSD（DeconvolutionalSingle Shot Detector）用于小目标检测。然而，锚框机制也存在明显的缺陷，如正负样本不平衡、引入过多的超参数而折戟检测速度与性能等。基于此，研究者提出了无锚框单阶段检测模型，上述模型的相关信息在表2中列出。

▲ 表2 单阶段目标检测基准模型

2 基于深度学习的目标检测衍生算法

当前主流的基于深度学习的目标检测方法可分为检测部件、数据增强、优化方法和学习策略四个方面。其中检测部件包含基准模型和基准网络；数据增强包含几何变换、光学变换等；优化方法包含特征图、上下文模型、边框优化、区域提案方法、类别不平衡和训练策略六个方面，学习策略涵盖监督学习、弱监督学习和无监督学习。本节从优化方法和学习策略这两个大的方面归纳总结了深度学习下基准目标检测模型的衍生方法。基于深度学习的目标检测部件及其代表性的检测方法如图2所示。

▲ 图2 基于深度学习的目标检测部件及其代表性的检测方法

2.1 融合特征图的目标检测模型

特征图是图像经过卷积池化层输出的结果，大多数基准检测模型只在顶层特征图做预测，这在很大程度上限制了模型的性能。为了充分提取特征信息，现有检测模型从三个角度融合浅中深层特征，分别是：结合多层特征图单层预测模型（ION、HyperNet）、分层预测模型（MSCNN、SSD、RFBNet、TridentNet）和结合多层特征图多层预测模型（FPN、DSSD、STDN、DetNet、M2Det、FCOS、EfficientDet）。相关模型信息在表4中列出。

▲ 表4 融合特征图的目标检测模型

2.2 结合上下文信息的目标检测模型

在物体遮挡、背景信息杂乱或图像质量不佳的情况下，根据图像的上下文信息能更有效更精确地检测。现有的目标检测模型主要考虑将上下文信息分为全局上下文信息（DeepIDNet、ION、CPF）和局部上下文信息（MR‑CNN、GBDNet、ACCNN、CoupleNet）。相关模型的信息在表5中列出。

▲ 表5 上下文模型和边框优化模型

2.3 优化边框定位的目标检测模型

当前检测模型在小目标检测表现不佳的主要原因是定位错误偏多，包含定位偏差大和重复预测，因此部分研究着眼于优化边框定位来提升检测性能，代表性的模型有MRCNN、Cascade RCNN、Grid RCNN等。此外，一些算法使用后处理步骤来优化预测框位置，如NMS、Soft‑NMS、Softer‑NMS等。

2.4 高效区域提案的目标检测模型

区域提案是图像中可能包含物体的区域，它是两阶段检测模型中性能保障的关键。早期的检测模型DPM使用滑动窗口方法，存在计算复杂度高和定位性能差的问题。RCNN使用SS算法提取候选区域并利用卷积神经网络提取图像特征，其检测效率和性能上均有大幅提高。EdgeBox利用图像中低维线索如颜色、纹理、边缘、梯度等对其分类，表现出良好的检测性能。Kuo等人在EdgeBox基础上提出DeepBox检测模型，运行速度更快且提案窗口召回率更高。Ren等人提出使用RPN生成候选区域的Faster RCNN检测模型，在特征图上以每个像素点为中心生成三个尺度和三个长宽比总共九个锚框。Ghodrati等人提出DeepProposal检测模型，使用多个级联的卷积特征来生成对象提案再构建逆级联选择图像中可能存在的对象位置。

2.5 处理类别不平衡的目标检测模型

类别不平衡的主要矛盾是负样本数远多于正样本数，导致训练的深度模型效率低。传统检测算法常用Bootstrapping方法处理此问题，之后RCNN模型使用困难样本挖掘（Hard ExampleMining，HEM）方法来处理。Shrivastava等人在HEM基础上提出在线困难样本挖掘方法（OnlineHard Example Mining， OHEM），其根据区域提案损失有选择性地反向传播负样本区域更新梯度。最近，Lin等人提出使用Focal Loss的单阶段检测模型RetinaNet，使模型更关注于那些少量的困难样本。表6总结了类别不平衡处理模型和训练策略方法。