0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

FPN(特征金字塔网络)的直觉、架构和表现简要介绍

zhKF_jqr_AI 来源:未知 作者:李倩 2018-08-08 09:20 次阅读

编者按:深度学习知名博主Jonathan Hui简要介绍了FPN(特征金字塔网络)的直觉、架构和表现。

检测不同尺度的目标(尤其是其中的小目标)很有挑战性。我们可以使用同一图像的不同尺度版本来检测目标(下图左部)。然而,处理多尺度图像很费时,内存需求过高,难以同时进行端到端训练。因此,我们可能只在推理阶段使用这种方法,以尽可能提高精确度,特别是在竞赛之类不顾及速度的场景中。我们也可以创建特征金字塔来检测目标(下图右部)。然而接近图像的、由低层结构组成的特征映射在精确目标预测上效果不佳。

来源:FPN论文

特征金字塔网络(Feature Pyramid Network,FPN)是为这一金字塔概念设计的特征提取器,设计时考虑到了精确性和速度。它代替了Faster R-CNN之类的检测模型的特征提取器,生成多层特征映射(多尺度特征映射),信息的质量比普通的用于特征检测的特征金字塔更好。

数据流

来源:FPN论文

FPN由自底向上和自顶向下两个路径组成。自底向上的路径是通常的提取特征的卷积网络。自底向上,空间分辨率递减,检测更多高层结构,网络层的语义值相应增加。

FPN特征提取(修改自FPN论文中的图片)

SSD基于多个特征映射进行检测。然而,低层并不用于目标检测——这些层的分辨率很高,但语义值不够高,因此,为了避免显著的速度下降,目标检测时不使用这些层。因为SSD检测时仅适用高层,所以在小目标上的表现要差很多。

修改自FPN论文中的图片

而FPN提供了自顶向下的路径,基于语义较丰富的层构建分辨率较高的层。

修改自FPN论文中的图片

尽管重建的层语义足够丰富,但经过这些下采样和上采样过程,目标的位置不再准确了。因此FPN在重建层和相应的特征映射间增加了横向连接,以帮助检测器更好地预测位置。这些横向连接同时起到了跳跃连接(skip connection)的作用(类似残差网络的做法)。

修改自FPN论文中的图片

自底向上路径

自底向上路径由很多卷积模块组成,每个模块包含许多卷积层。自底向上的过程中,空间维度逐模块减半(步长翻倍)。每个卷积模块的输出将在自顶向下的路径中使用。

自顶向下路径

上图中,FPN使用一个1x1的卷积过滤器将C5(最上面的卷积模块)的频道深度降至256维,得到M5。接着应用一个3x3的卷积得到P5,P5正是用于目标预测的第一个特征映射。

沿着自顶向下的路径往下,FPN对之前的层应用最近邻上采样(x2)。同时,FPN对自底向上通路中的相应特征映射应用1x1卷积。接着应用分素相加。最后同样应用3x3卷积得到目标检测的特征映射。这一过滤器减轻了上采样的混叠效应。

这一过程在P2后停止,因为C1的空间维度太高了。如果不停,依法炮制得到P1的话,会大大拖慢进程。

FPN搭配RPN

FPN自身并不是目标检测器,而是一个配合目标检测器使用的特征检测器。例如,使用FPN提取多层特征映射后将其传给RPN(基于卷积和锚的目标检测器)检测目标。RPN在特征映射上应用3x3卷积,之后在为分类预测和包围盒回归分别应用1x1卷积。这些3x3和1x1卷积层称为RPN头(head)。其他特征映射应用同样的RPN头。

FPN搭配Fast R-CNN和Faster R-CNN

首先简短地概览下Fast R-CNN和Faster R-CNN的数据流。它基于特征映射层创建ROI(感兴趣区域)。然后使用ROI和特征映射层创建特征片,以传给ROI池化。

FPN生成了特征映射金字塔后,应用RPN(见上一节)生成ROI。根据ROI的尺寸,选择最合适的尺度上的特征映射以提取特征片。

基于ROI尺寸选择特征映射的具体公式为:

其中,w和h为ROI的宽度和高度,k0= 4,k对应FPN中的Pk层。

所以,如果k = 3,我们将选择P3作为特征映射,应用ROI池化,并将结果传给Fast R-CNN/Faster R-CNN头(两者的头一致),以完成预测。

分割

类似Mask R-CNN,FPN也是一个优良的图像分割提取掩码。下图中,应用5x5的滑窗于特征映射,以生成14x14分割。之后,合并不同尺度的掩码以形成最终的掩码预测。

来源:FPN论文

结果

FPN搭配RPN,提升AR(average recall,平均召回)至56.3,相比RPN基线提升了8. 在小目标上的提升更是达到了12.9.

来源:FPN论文

基于FPN的Faster R-CNN的推理时间为0.148秒/张(单Nvidia M40 GPU,ResNet-50),单尺度ResNet-50基线的速度是0.32秒/张。

来源:FPN论文

FPN和当前最先进的检测器实力相当。事实上,FPN击败了COCO 2016和2015挑战的赢家。

来源:FPN论文

经验总结

下面是从试验数据中总结出的一些经验。

在单个高分辨率特征映射层上增加更多锚不足以提升精确度。

自顶向下路径重建了富含语义信息的分辨率。

但我们需要横向连接,以便将更多准确的目标空间信息加回来。

在COCO数据集上,自顶向下路径和横向连接将精确度提升了8。小目标的提升达到了12.9.

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 检测器
    +关注

    关注

    1

    文章

    811

    浏览量

    47292
  • 图像
    +关注

    关注

    2

    文章

    1063

    浏览量

    40041
  • 数据流
    +关注

    关注

    0

    文章

    112

    浏览量

    14208

原文标题:特征金字塔网络FPN的直觉与架构

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    LED金字塔详细教程步骤

    转自网络:首先要说一下哪些人适合做这个金字塔:完全不懂程序的是可以的,但是一定要有焊接基础。如果你自己焊接不出51最小系统,也搞不定8X8的点阵,那我不建议你来做这个金字塔。以后我还会上传简单的51
    发表于 04-26 17:09

    PCB工程师金字塔分级标准

    PCB工程师金字塔分级标准
    发表于 08-06 13:21

    音乐金子

    送了女生绝对喜欢,音控金字塔
    发表于 08-23 17:13

    自制for循环打印金字塔

    自制for循环打印金字塔
    发表于 09-18 08:46

    试试用keil串口窗口打印倒金字塔图形设计

    原来keil也有串口窗口,现在就试试打印倒金字塔图形。1.程序设计#include#include//使用print打印必需函数 void main() {unsigned char i,j,k
    发表于 02-28 07:02

    绘制金字塔程序实现

    用c语言编程绘制金字塔
    发表于 11-27 16:24 698次阅读

    可控特性的金字塔变换

    本文设计了一种具有平移不变性、方向和尺度联合可控特性的金字塔变换,称为几何变形可控金字塔变换(DPT)。此DPT从一种数值形式表示的方向可控金字塔变换(SPT)发展而来。我们以SPT的每一个方向可控
    发表于 12-14 16:41 4次下载
    可控特性的<b class='flag-5'>金字塔</b>变换

    基于梯度方向直方图与高斯金字塔的车牌模糊汉字识别方法

    针对现有车牌识别方法中对模糊车牌识别率不高的问题,提出一种结合高斯金字塔与梯度方向直方图(HOG)特征的车牌识别算法。利用金字塔模型多尺度表达的方法,首先对车牌模糊汉字图像建立两层高斯金字塔
    发表于 12-25 10:43 0次下载
    基于梯度方向直方图与高斯<b class='flag-5'>金字塔</b>的车牌模糊汉字识别方法

    一种金字塔注意力网络,用于处理图像语义分割问题

    基于以上观察,我们提出了特征金字塔注意力模块 (FPA),该模块能够融合来自 U 型网络 (如特征金字塔
    的头像 发表于 06-05 09:21 1.1w次阅读
    一种<b class='flag-5'>金字塔</b>注意力<b class='flag-5'>网络</b>,用于处理图像语义分割问题

    FAIR何恺明团队最新论文提出“全景FPN”,聚焦于图像的全景分割任务

    特征金字塔网络(Feature Pyramid Network):首先简要回顾一下FPNFPN
    的头像 发表于 01-11 08:57 5904次阅读

    谷歌大脑采用神经结构搜索发现了一种新的特征金字塔结构NAS-FPN

    学习视觉特征表示是计算机视觉中的一个基本问题。近年来,针对图像分类和目标检测的深度卷积网络(ConvNets)模型架构的设计取得了很大进展。与预测图像类别概率的图像分类任务不同,目标检测有其自身
    的头像 发表于 04-21 09:35 4809次阅读
    谷歌大脑采用神经结构搜索发现了一种新的<b class='flag-5'>特征</b><b class='flag-5'>金字塔</b>结构NAS-<b class='flag-5'>FPN</b>

    如何实现多聚焦图像融合的拉普拉斯金字塔方法

    本文档的主要内容详细介绍的是如何实现多聚焦图像融合的拉普拉斯金字塔方法。
    发表于 02-03 11:40 2次下载
    如何实现多聚焦图像融合的拉普拉斯<b class='flag-5'>金字塔</b>方法

    采用多任务金字塔重叠匹配特征识别行人

    组合形成金字塔重叠匹配网络,获得全局特征向量并经全局平均池化得到包含多尺度特征的多个局部特征向量,联合使用 Softmax损失函数、三元组损
    发表于 03-11 16:05 10次下载

    基于全局特征金字塔网络的信息融合方法

    特征不平衡问题是影响神经网络检测效率的关键因素。针对 Mask r-CNN中的特征不平衡问题,提出种基于全局特征金字塔
    发表于 03-24 14:51 13次下载
    基于全局<b class='flag-5'>特征</b><b class='flag-5'>金字塔</b><b class='flag-5'>网络</b>的信息融合方法

    基于规范化函数的深度金字塔模型算法

    传统深度金字塔模型作为一种有效的行人检测算法备受关注,融合可变形部件模型和卷积神经网络模型,但特征提取部分使用的算法像素区堿的大小不冋,导致模型之间不能完全融合,在行人数量多、姿势复杂和有遮挡情况
    发表于 03-30 14:09 14次下载
    基于规范化函数的深度<b class='flag-5'>金字塔</b>模型算法