详解旋转目标检测方法与结果-电子发烧友网

极市导读本文是今年刚被CVPR接收的文章，关于CSL的优化版本Densely Coded Labels （DCL），优化了过于厚重的预测层以及对类正方形目标检测的不友好。附有相关代码与demo展示。》》加入极市CV技术交流群，走在计算机视觉的最前沿

一、介绍

Densely Coded Labels （DCL）是 Circular Smooth Label （CSL）（https://zhuanlan.zhihu.com/p/111493759）的优化版本。DCL主要从两方面进行了优化：过于厚重的预测层以及对类正方形目标检测的不友好。

文章地址：

Dense Label Encoding for Boundary Discontinuity Free Rotation Detection

https://arxiv.org/abs/2011.09670

代码地址：

DCL-Tensorflow

https://github.com/yangxue0827/RotationDetection

二、厚重的预测层

CSL编码方式与独热编码（one-hot）均属于稀疏编码（Sparsely Coded Label， SCL）。稀疏编码的一个明显缺点是需要较长的位数来进行编码，以CSL为例，下面这种公式是其编解码的具体过程：

CSL编解码过程

其中，和分别表示角度范围（默认是180）以及所划分的角度类别。

那我们就可以计算出使用CSL编码方式或独热编码时的预测层厚度：

CSL编码方式与独热编码的预测层厚度计算公式

其中表示anchor的数量。

而使用回归进行角度预测时的预测层厚度仅为：

回归方法的预测层厚度

以为例，CSL编码方式与独热编码的预测层厚度是1620，而基于回归的预测层厚度只有9。这使得基于稀疏编码方法的参数量（Params）和计算量（GFlops）相比基于回归方法增加了26.40%和32.34%，造成模型训练和测试的效率低下，如下表所示。

参数量（Params）和计算量（GFlops）的比较

因此，如何减短编码长度是提高模型效率的关键。因此我们想到了密集编码方法（Densely Coded Label， DCL），主要编码方法有二值编码（Binary Coded Label， BCL）和格雷编码（Gray Coded Label， GCL），它们的预测层厚度计算公式如下：

二值编码和格雷编码的预测层厚度计算公式

同样以为例，它们所对应的预测层厚度只有72，只增加1.03%的参数量和1.26%的计算量，和回归方法的效率几乎一样。下式是它们的编解码过程，以二值编码为例：

BCL编解码过程

其中二值编码和格雷编码的编码伪代码：

二值编码和格雷编码的编码伪代码

尽管编码长度大大减少，但会引入几个其他问题。

第一问题是二值编码在一定程度上失去了相邻角度之间的“距离远近”，也就是相邻值之间的编码结果可能发生巨大变化，没有了CSL方法中强调的容忍性。比如，3和4在三位的二进制编码结果分别为011和100，如下表所示。

十进制数所对应的三位二值编码和格雷编码

可以看到所有三个位置都发生了变化，导致两个角度预测的误差很大。而格雷码没有这样的问题，这是因为在一组数字的编码中，任何两个相邻数的格雷码只有一位不同。由于最大值和最小值之间也只有一位数字不同，因此格雷码也称为循环码。格雷编码的缺点也很明显，尽管相邻角度之间的编码形式差别不大，但是具有较大差异的角度的编码差异也不是很明显，例如1（001）和6（101）。

第二个问题是所划分的角度类别数需要是2的指数倍才能保证每一种编码都对应一种角度，否则会有大量冗余的编码（尽管实验验证这个问题影响不大）。如果将180度范围划分为个类别，则每个划分间隔的范围为。根据CSL文章中的计算公式，理论期望误差和最大误差分别是和，这种大小的误差在是可以忽略不计的。

为了更好比较稀疏编码和密集编码，下图就是一个具体例子：

稀疏编码和密集编码的比较例子

三、类正方形目标检测的不友好

不管是CSL还是DCL，为了避免角度周期性（PoA）和边的交换性（EoE）问题，它们均采用了“角度分类+长边定义法”的组合。长边定义法有这样一个问题，他无法较好定义一个类正方形目标，如下图所示：

类正方形检测问题

图的左边是gt，右边是一种“视觉可行”的预测结果，之所以说“视觉可行”是因为此时的计算误差非常大。这个误差主要来源于角度（类正方形目标两边近似相等，因此尽管wh的顺序相反，误差依然很小）。仔细观察可以发现这两种框的角度差约等于。其实使用周期为90的定义方法对类正方形目标来说更加合适（如OpenCV定义法），长边定义法有明显的缺陷。我的另一篇文章GWD详细讨论了这种问题，有一句话概括长边定义法出现这种问题的原因：目标长宽比的减小使得评估（IoU）和损失（ -norm）之间的不一致性逐渐被放大。

针对这个问题以及第一个问题中提到的容忍性的消失，我们设计了一个损失权重（ADARSW），具体公式如下：

ADARSW权重

具体的想法是通过预测和gt的十进制差值来引入容忍性，三角函数的引入来解决角度周期性和类正方形检测问题（通过长宽比来调整参数，从而调整三角函数的周期）。

四、实验结果

下表是对角度离散化粒度的消融实验。尽管理论上越小，理论误差越小，预测精度上限越高，但是会增加角度分类的难度。越大也不好，太大的话理论误差太大，预测精度上限太低。一个合适的取值范围是［180/32-180/256］。并且我们发现，基于分类的角度预测方法（CSL和DCL）比基于回归方法在高精度上更有优势，并且DCL比CSL效果更好，当然效率也更高。

角度离散化粒度的消融实验

下表是对所提权重的消融实验，主要列举了DOTA数据集中10种长宽比比较小的类正方形目标，并验证了ADARSW的有效性。

ADARSW的消融实验

下表是在不同数据集上对三种不同方法的比较，我们发现BCL》CSL》Reg.。

其他数据集上的效果验证

下面两个表格是所提方法在两种数据集上的SOTA对比，DCL-based方法具有一定的优势。

DOTA数据集上的SOTA方法对比

HRSC2016数据集上的SOTA方法对比

下图是对DCL方法的所预测角度的特征可视化：

RetinaNet-DCL角度特征可视化

五、总结

基于角度分类预测的方法基本告一段落，CSL和DCL验证了角度分类这条路子的可行性，那其实接下来可以研究如何更好分类，可以借鉴很多方向的分类损失设计，例如人脸识别。但是，这两篇方法并没有表现出角度分类这条路的优越性，我所看到的优势仅仅是方法本身不存在边界问题，也就是论文题目所写的Boundary Discontinuity Free，但是代价是存在理论误差以及模型参数量和计算量的增加。因此，最近我又回到了“角度回归预测+新loss设计”这条路，一个工作是GWD（https://arxiv.org/abs/2101.11952），欢迎大家交流讨论。

另外，简单介绍一下我所写的一个基于tensorflow框架的旋转检测benchmark：

https://github.com/yangxue0827/RotationDetection

支持的算法：RetinaNet、Faster-RCNN等baseline以及SCRDet （ICCV19）、R3Det （AAAI21）、RSDet （AAAI21）、CSL （ECCV20）、DCL （CVPR21）、GWD等创新方法；

支持的数据集：DOTA、HRSC2016、ICDAR2015、ICDAR2017 MLT、MSRA-TD500、UCAS-AOD、FDDB、OHD-SJTU、SSDD++；

提供大量不同的预训练权重和训练好的权重；

训练可视化分析，以R3Det （AAAI21）为例：

SCRDet （ICCV19）：https://arxiv.org/abs/1811.071263Det （AAAI21）：https://arxiv.org/abs/1908.05612RSDet （AAAI21）：https://arxiv.org/abs/1911.08299CSL （ECCV20）：https://arxiv.org/abs/2003.05597DCL （CVPR21）：https://arxiv.org/abs/2011.09670GWD：https://arxiv.org/abs/2101.11952R3Det （AAAI21）：https://arxiv.org/abs/1908.05612

训练可视化

统计量记录

5. RotationDetection的总体框如下：

RotationDetection框架结构

6. demo：https://www.zhihu.com/zvideo/1289379563034636288
编辑：lyn

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码

编码

+关注

关注
6

文章
835

浏览量
54457
目标检测

目标检测

+关注

关注
0

文章
185

浏览量
15453
计算机视觉

计算机视觉

+关注

关注
8

文章
1600

浏览量
45616

原文标题：旋转目标检测方法解读（DCL, CVPR2021）

文章出处：【微信号：cas-ciomp，微信公众号：中科院长春光机所】欢迎添加关注！文章转载请注明出处。

EMI电磁干扰：原理、影响及解决方法详解？

EMI电磁干扰：原理、影响及解决方法详解？|深圳比创达电子

发表于 03-21 10:02 •219次阅读

EMI电磁干扰：原理、影响及解决<b class='flag-5'>方法</b><b class='flag-5'>详解</b>？

AI驱动的雷达目标检测：前沿技术与实现策略

传统的雷达目标检测方法，主要围绕雷达回波信号的统计特性进行建模，进而在噪声和杂波的背景下对目标存在与否进行判决，常用的典型算法如似然比检测（

发表于 03-01 12:26 •411次阅读

AI驱动的雷达<b class='flag-5'>目标</b><b class='flag-5'>检测</b>：前沿技术与实现策略

Nullmax提出多相机3D目标检测新方法QAF2D

今天上午，计算机视觉领域顶会CVPR公布了最终的论文接收结果，Nullmax感知部门的3D目标检测研究《Enhancing 3D Object Detection with 2D Detection-Guided Query A

发表于 02-27 16:38 •558次阅读

Nullmax提出多相机3D<b class='flag-5'>目标</b><b class='flag-5'>检测</b>新<b class='flag-5'>方法</b>QAF2D

如何检测数控设备旋转编码器的故障呢？

旋转编码器检测是数控机床伺服体系的重要组成部分，它起着检测各操控轴的位移和速度的效果，它把检测到的信号反应回去，构成闭环体系。丈量方法

发表于 01-07 08:38 •208次阅读

旋转花键的检测和调整方法

旋转花键所产生的故障是多种多样的，没有固定的模式。有的故障是渐发性故障，要有一个发展的过程，随着使用时间的增加越来越严重，通过正确的检测来确定真正的故障原因，是快速准确维修的前提

发表于 01-02 17:48 •188次阅读

蔡司三坐标检测方法详解

将检测一个零件所需要的全部操作按照其执行顺序编程，以文件形式存入磁盘，检测时按运行程序控制三坐标测量机自动检测。该方法称为三坐标测量机的程序检测

发表于 11-09 11:41 •394次阅读

海基红外搜索和跟踪的区域自适应杂波抑制的小红外目标检测系统技术介绍

由于目标信号小而暗淡，远程小目标的检测相当困难。通过降低检测阈值可以实现检测率的标准。另一方面，由于背景混乱，这种简单的

发表于 08-30 15:28 •871次阅读

MATLAB的行人目标检测的方法有哪些？

MATLAB的行人目标检测的方法有哪些，就是主要的方法，基于背景的，基于目标的，还有其他的。都有哪些？

发表于 08-23 16:30

目标检测EDA方法有哪些 eda和pcb的区别

目标检测（Object Detection）是计算机视觉领域中的重要任务，用于在图像或视频中定位和识别出多个感兴趣的对象。EDA（Enhancement， Detection， and Augmentation）方法是一种综合的

发表于 07-20 14:43 •912次阅读

无Anchor的目标检测算法边框回归策略

R-CNN的边框回归策略。写在前面目标检测包括目标分类和目标定位2个任务，目标定位一般是用一个矩形的边界框来框出物体所在的位置，关于

发表于 07-17 11:17 •600次阅读

基于 FPGA 的目标检测网络加速电路设计

第一部分设计概述 /Design Introduction目前主流的目标检测算法都是用CNN来提取数据特征，而CNN的计算复杂度比传统算法高出很多。同时随着CNN不断提高的精度，其网络深度与参数

发表于 06-20 19:45

全面介绍小目标检测的各种解决方案

小目标检测广义是指在图像中检测和识别尺寸较小、面积较小的目标物体。通常来说，小目标的定义取决于具体的应用场景，但一般可以认为小

发表于 06-19 12:32 •2473次阅读

无图像单像素目标检测方法可用于自动驾驶汽车

据麦姆斯咨询报道，近期，北京理工大学边丽蘅研究员（通讯作者）、彭林涛（第一作者）等人提出一种无图像单像素目标检测（SPOD）方法

发表于 06-19 09:49 •482次阅读

目标检测多模型集成方法总结

模型集成是一种提升模型能力的常用方法，但通常也会带来推理时间的增加，在物体检测上效果如何，可以看看。

发表于 06-07 17:39 •794次阅读

目标检测的相关知识

目标检测共有以下四个核心问题：（1）目标可能出现在图像的任何位置；（2）目标有各种不同的大小；（3）目标有各种不同的形状；（4）光照、遮挡等

发表于 05-22 09:43 •910次阅读