0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软亚洲研究院视觉计算组提出高分辨率深度神经网络

电子工程师 来源:lq 2019-05-25 10:43 次阅读

对于视觉识别中的区域层次和像素层次问题,分类网络(如ResNet、VGGNet等)学到的表征分辨率比较低,在此基础上恢复的高分辨率表征空间区分度仍然不够强,使其在对空间精度敏感的任务上很难取得准确的预测结果。为此,微软亚洲研究院视觉计算组提出高分辨率深度神经网络(HRNet),对网络结构做了基础性的改变,由传统的串行连接高低分辨率卷积,改成并行连接高低分辨率卷积,通过全程保持高分辨率和对高低分辨率表征的多次信息交换来学到丰富的高分辨率表征,在多个数据集的人体姿态估计任务中取得了最佳的性能。

前言

视觉识别主要包括三大类问题:图像层次(图像分类),区域层次(目标检测)和像素层次(比如图像分割、人体姿态估计和人脸对齐等)。最近几年,用于图像分类的卷积神经网络成为解决视觉识别问题的标准结构,比如图1所示的LeNet-5。这类网络的特点是学到的表征在空间分辨率上逐渐变小。我们认为分类网络并不适合区域层次和像素层次的问题,因为学到的表征本质上具有低分辨率的特点,在分辨率上的巨大损失使得其在对空间精度敏感的任务上很难取得准确的预测结果。

图1. 典型的卷积神经网络:LeNet-5。其它典型的卷积神经网络,如AlexNet、VGGNet、GoogleNet、ResNet、DenseNet等,表征的空间分辨率均从大逐渐变小。

为了弥补空间精度的损失,研究者们在分类卷积神经网络结构的基础上,通过引入上采样操作和/或组合空洞卷积减少降采样次数来提升表征的分辨率,典型的结构包括Hourglass、U-Net等(如图2)。

在这类网络结构中,最终的高分辨表征主要来源于两个部分:第一是原本的高分辨率表征,但是由于只经过了少量的卷积操作,其本身只能提供低层次的语义表达;第二是低分辨率表征通过上采样得到的高分辨率表征,其本身虽然拥有很好的语义表达能力,但是上采样本身并不能完整地弥补空间分辨率的损失。所以,最终输出的高分辨率表征所具有的空间敏感度并不高,很大程度上受限于语义表达力强的表征所对应的分辨率。

图2. 从低分辨率表征恢复高分辨率表征

我们认为不应该局限于从分类卷积神经网络生成的低分辨率表征来恢复高分辨率表征这一路线,而应该为高分辨率表征学习建立新的网络结构。基于此,我们提出了高分辨率深度神经网络(High-Resolution Network,HRNet),在网络整个过程中始终保持高分辨率表征,同时多次在高低分辨率表征之间进行信息交换,从而学到足够丰富的高分辨率表征。

实验证明HRNet在人体姿态估计,以及图像分割、人脸对齐和目标检测等问题上取得了不错的结果。我们相信HRNet将取代分类深度神经网络成为计算机视觉识别等应用的新的标准结构。关于人体姿态估计的论文已发表在CVPR 2019 [1],相关代码已在GitHub上开源[2, 3]。

GitHub链接:

https://github.com/HRNet

高分辨率网络

我们在HRNet的整个网络中始终保持高分辨率表征,逐步引入低分辨率卷积,并且将不同分辨率的卷积并行连接。同时,我们通过不断在多分辨率表征之间进行信息交换,来提升高分辨率和低分辨率表征的表达能力,让多分辨率表征之间更好地相互促进,结构如图3所示。HRNet与先前的分类卷积神经网络有着基础性的区别:先前的分类将分辨率从高到低的卷积串行连接,HRNet则是并行连接。

图3. 高分辨率网络 (High-Resolution Network,HRNet)

关于多分辨率表征信息交换,这里以三个分辨率输入和三个分辨率输出为例,如图4所示。每一个分辨率的输出表征都会融合三个分辨率输入的表征,以保证信息的充分利用和交互。将高分辨率特征降到低分辨率特征时,我们采用stride为2的3x3卷积;低分辨率特征到高分辨率特征时,先利用1x1卷积进行通道数的匹配,再利用最近邻插值的方式来提高分辨率。相同分辨率的表征则采用恒等映射的形式。

图4. 多分辨率表征信息交换

实验

HRNet保持高分辨率表征,利用重复的多分辨率表征信息交换增强其表达能力,使模型所学的表征在空间精度上有显著的提升。实验中,我们首先在MS COCO数据集中的关键点检测任务上进行了消融实验,验证了表征分辨率的重要性和重复的多分辨率表征信息交换的有效性;然后在MS COCO、PoseTrack等标准数据集中与最先进的方法进行公平对比,都取得了更好的性能。

1. 表征分辨率对性能的影响

HRNet可输出4种分辨率的表征(1x、2x、4x、以及8x),我们针对不同的网络输出分辨率在两组模型上做了对比实验,如图5所示。

图5. 网络输出分辨率对结果的影响,1x、2x和4x分辨率表征在人体姿态估计的性能。

从图5中,我们可以清楚地看到,网络输出表征的分辨率降低会使得模型的性能有巨大的损失。分辨率在2x时,性能降低了接近6% AP,4x时降低了20% AP。这体现了表征分辨率对于空间精度的重要性。

2. 多分辨率表征信息交换对性能的影响

图6. 蓝色框内为阶段内的多分辨率表征信息交换(Int. exchange within),绿色框为阶段间的多分辨率表征信息交换(Int. exchange across),红色框为最终的多分辨率表征信息交换(Final exchange)。

表1. 多尺度特征融合对性能的影响,实验中每个网络是从随机初始化开始训练的。

我们考虑了三种信息交换(如图6),结果如表1。可以看到,多分辨率表征信息交换可以将不同分辨率的表征信息进行充分的交换利用,对表征增强的作用十分明显,可以到达2.6% AP的提升。

3. 在标准数据集上的性能

MS COCO数据集是关键点检测的最权威的数据集之一,我们在该数据上对我们的方法进行验证,结果如表2所示。

表2. COCO test-dev上与最先进方法的性能比较

我们可以看到,在相同的输入图像大小下,我们的小模型HRNet-W32在参数量和计算量都小于SimpleBaseline(ResNet-152)一半的情况下,取得了1.2% AP的提高,而大模型HRNet-W48取得了1.8% AP的提升,在引入额外数据的情况下,大模型展现了更强的表达能力,有更显著的提升。

表3. 在Pose-Track数据集上与最先进方法的性能比较

在表3中,我们在Pose-Track数据集的两个任务上进行了验证:(1)多帧人体姿态估计,可以利用其他帧的信息估计某帧的姿态;(2)多帧人体姿态跟踪,需要把不同帧间的同一个人的姿态关联起来。前者性能用mAP来评价,后者性能用MOTA来评价。可以看到在两个任务上,我们都取得了最好的性能。

结语

我们改变了现有的基于分类网络的人体姿态估计的网络结构,提出了高分辨率深度神经网络(HRNet)。该网络能够成功学到足够丰富的高分辨率表征的原因在于,整个过程保持高分辨率,以及多次对高低分辨率表征进行信息补足。HRNet在多个数据集的人体姿态估计任务中取得了当前最好的性能,也在图像分割、人脸对齐和目标检测等问题上取得了不错的结果。我们相信HRNet将取代以分类网络为基础的网络架构,成为计算机视觉识别等应用的新标准结构。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6237

    浏览量

    103076
  • 神经网络
    +关注

    关注

    42

    文章

    4570

    浏览量

    98710
  • 视觉识别
    +关注

    关注

    3

    文章

    86

    浏览量

    16504

原文标题:告别低分辨率网络,微软提出高分辨率深度神经网络HRNet | CVPR 2019

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    高分辨率相机的设计,分辨率6千万,有没有做相机方面的大神们!

    高分辨率相机的设计,分辨率6千万,有没有做相机方面的大神们!
    发表于 11-12 10:48

    高分辨率示波器测量微小信号

    WaveRunner HRO 6Zi,简称HRO(高分辨率示波器)。其ADC位数达12位,同时具备较高的采样-2GS/s。存储深度(记录长度)可以达到每通道256M采样点。HRO示波器高分辨
    发表于 03-21 10:43

    【AD新闻】中国深圳先进高分辨率超声成像领域取得重要进展

    日前,中国科学院深圳先进技术研究院郑海荣研究员领衔的劳特伯医学成像研究中心在高分辨率超声成像方向取得新进展,劳特伯医学成像研究中心邱维宝博士
    发表于 03-23 14:59

    从AlexNet到MobileNet,带你入门深度神经网络

    (Residual Neural Network)由微软亚洲研究院的Kaiming He等提出,通过使用Residual Unit成功训练152层深的
    发表于 05-08 15:57

    增强高分辨率图像捕获的选择

    计算一个规则球场的高尔夫球数量,在检验电子或监测大面积如机场终端时提供所需的关键成像细节。虽然它可能不是我们最高分辨率的器件(最高分辨率的是5000万像素的KAF-50100),但它结合极
    发表于 10-25 09:04

    康耐视两款高分辨率Checker视觉传感器

      康耐视公司(纳斯达克:CGNX)为其备受好*的 Checker? 视觉传感器系列增加了两款全新的高分辨率型号。  全新的 Checker 3G7 拥有 752 x 480 像素分辨率,可更好
    发表于 11-14 14:55

    所谓“鹰眼”,即为高分辨率测量模式

    情况。  当熔接完成时,实时测量的光纤末端会越过我们设置的检查点,这时AQ7280给出提示信息(信息提示和报警声)表示安装已经结束。  2“鹰眼”  所谓“鹰眼”,即为高分辨率测量模式。将仪表的采样点
    发表于 01-25 14:40

    解析深度学习:卷积神经网络原理与视觉实践

    解析深度学习:卷积神经网络原理与视觉实践
    发表于 06-14 22:21

    如何设计高速高分辨率ADC电路?

    影响ADC信噪比因素有哪些?如何设计高速高分辨率ADC电路?基于AD6644AST一65的高速高分辨率ADC电路设计实例
    发表于 04-23 06:01

    如何实现DCP的高分辨率控制?

    实现高分辨率的原理是什么如何使用X9241实现高分辨率
    发表于 04-27 06:54

    如何实现连续脉冲信号的高分辨率延迟?

    如何实现连续脉冲信号的高分辨率延迟?
    发表于 04-30 06:07

    如何在基于机器视觉的应用中通过单线传输高分辨率视频数据

    为可能。机器人辅助内窥镜平台和机器视觉相机等应用需要从安装在极小的探头尖端上的传感器传输高分辨率图像数据,并通过非常细的电缆物理连接到视频捕获和分析系统。来自视频捕获系统的控制信息同时流回探头尖端,提供了
    发表于 09-07 11:25

    卷积神经网络模型发展及应用

    分析了目前的特殊模型结构,最后总结并讨论了卷积神经网络在相关领域的应用,并对未来的研究方向进行展望。卷积神经网络(convolutional neural network,CNN) 在计算
    发表于 08-02 10:39

    深度反卷积神经网络的图像超分辨率算法

    图像超分辨率一直是底层视觉领域的研究热点。现有基于卷积神经网络的方法直接利用传统网络模型,未对图像超分辨
    发表于 12-15 10:41 2次下载

    分辨率神经网络原理

    而我们在深度学习中的卷积神经网络(如下图为例),就是模仿了人类视觉系统的处理过程。正因此,计算视觉
    的头像 发表于 07-12 15:07 6664次阅读
    超<b class='flag-5'>分辨率</b><b class='flag-5'>神经网络</b>原理