0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

当UNet与HRNet碰撞会产生怎样的火花?U-HRNet不做选择

OpenCV学堂 来源:OpenCV学堂 作者:OpenCV学堂 2022-11-07 14:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

高分辨率和高级语义表示对于密集预测都至关重要。从经验上看,低分辨率特征地图通常实现更强的语义表示,而高分辨率特征地图一般可以更好地识别边缘等局部特征,但包含较弱的语义信息。现有的最先进的框架(如HRNet)保持了低分辨率和高分辨率特征地图的并行性,并在不同分辨率之间反复交换信息。然而,我们认为,最低分辨率的特征地图往往包含最强的语义信息,需要经过更多层才能与高分辨率特征地图合并,而对于高分辨率特征图,每个卷积层的计算成本非常大,不需要经过这么多层。因此,我们设计了一个U形高分辨率网络(U-HRNet),它在语义表示最强的特征图之后添加更多的阶段,并放松了HRNet中的约束,即新添加的阶段需要并行计算所有分辨率。为低分辨率特征图分配了更多计算,这大大改善了整体语义表示。U-HRNet是HRNet主干的替代品,可以在完全相同的训练和推理设置下,在多个语义分割和深度预测数据集上实现显著改进,而计算量几乎没有增加。

代码可从PaddleSeg获取:https://github.com/PaddlePaddle/PaddleSeg

1、简介

密集的预测任务,包括语义分割和深度估计等,是视觉理解系统的重要组成部分。密集预测任务需要预测像素级类别标签或回归特定值,这比图像级预测任务更具挑战性。同时保持高分辨率和强语义信息是有效处理密集预测任务的关键。高分辨率可确保最终预测粒度尽可能接近像素级别,并可获得更精确的局部判别,例如更精确的边缘。强大的语义信息确保了整体预测的准确性,特别是对于难以区分或面积较大的实例。

深度卷积神经网络,如U-Net、DeepLab、HRNet,在FCN的设计之后,在密集预测任务中取得了令人兴奋的结果。特别是高分辨率网络(HRNet)在密集预测任务中取得了最先进的结果,例如语义分割、人体姿势估计等。HRNet能够学习高分辨率表示,同时确保低分辨率特征图和高分辨率特征图之间的语义信息传输。

4d3b053c-5e61-11ed-a3b6-dac502259ad0.png

然而,作者发现HRNet仍有很大的改进空间。经常可以看到大面积的区域被错误地分类。例如,在图1中,第2行显示HRNet的结果。在图1(a)和(b)中,整个实例被错误分类,而在(c)中,一个大面积实例中的一些块被错误分类。这表明HRNet实现的语义表示仍然不够好。作者认为,这可能归因于HRNet的宏观结构,可以概括为以下两个方面:

HRNet最低分辨率分支的最终块具有最强的语义表示,直接输出,而不完全传播到更高分辨率分支。

HRNet的低分辨率分支不够深入,使得网络的语义能力受到限制。然而,由于计算成本的显著增加,在HRNet的最后两个阶段为更深的网络增加模块数显然是不可取的。

U-Net在一定程度上缓解了上述两个问题。然而,在U-Net中,每个阶段只保留一个分辨率,不同尺度之间没有融合,只有与残差分支合并。作者认为,HRNet的最大优势是能够并行维护多尺度并始终执行多尺度融合。

为了在不增加额外计算成本的情况下改进高分辨率网络的整体语义表示,作者提出了一种简单有效的网络,称为U形高分辨率网络(U-HRNet)。它继承了UNet的编解码器结构,有利于从最强语义特征映射到最高分辨率特征映射的嵌入传播。同时,它完美地保留了HRNet的优点,保持了多尺度并行,并始终执行多尺度融合。

此外,它减少了高分辨率分支上的块数,并将其计算重新分配给低分辨率分支,以获得更大的语义容量,而无需添加更多计算。如图1所示可以看到U-HRNet在困难对象和大面积实例的语义表示方面比HRNet更具优势。幸运的是,U-HRNet也与OCR头一起工作得很好,因为U-HRNet专注于提高整个网络的语义能力,这与OCR的优势没有重叠,OCR旨在借助对象和类别之间的语义关系更好地标记。

因此,本文的贡献有两点。

提出了一种简单有效的网络U-HRNet,它在密集预测任务上的性能优于HRNet而计算量几乎没有增加。

U-HRNet与OCR的结合为多个语义分割数据集设置了新的技术水平。

2、U型高分辨率网络

2.1、Review of HRNet

HRNet是一种用于人体姿态估计的优秀神经网络。之后,进一步证明了HRNet可以很好地处理其他许多任务,如目标检测、语义分割。由此可见,HRNet不仅在高级语义表示方面很强,而且在低级空间细节方面也很强。如图2(a)所示,1/4分辨率从网络的开始到结束都是一致的,随着网络深度的增加,语义表示学习增加了更多的低分辨率,从而通过多分辨率融合提高了高分辨率表示。

4d8aa22c-5e61-11ed-a3b6-dac502259ad0.png

然而,HRNet对于一些密集的预测任务可能并不完美。例如,语义分割是一个典型的密集分类任务,为了帮助像素预测其语义类别,引入高级全局信息非常重要。从这个角度来看发现HRNet有以下几个缺点:

具有最强语义表示的1/32分辨率分支的最后一个块直接输出,而没有得到充分利用。

高分辨率和低分辨率分支之间的计算分配没有优化,应更多关注语义表示强的低分辨率分支。

2.2、Architecture of U-HRNet

1、主体结构

4d9c9c2a-5e61-11ed-a3b6-dac502259ad0.png

继HRNet之后,将图像输入到一个干块中,将分辨率降低到1/4,主体输出与1/4分辨率相同的特征图。图2(c)显示了U-HRNet的主体。与U-Net一样,其布局如图2(b)所示,主体在宏观范围内似乎是U形网络,而在微观范围内,它由几个hr模块组成。然而,每个hr模块由不超过两个分辨率分支组成。这种设计方式旨在解决第3.1节中提到的HRNet的缺点。重组的细节如下所述。

首先,删除了HRNet最后两个阶段的高分辨率分支(阶段3和阶段4的1/4分辨率分支,阶段4的1/8分辨率分支),这使得许多计算被释放。

然后,为了改进高分辨率输出的语义表示,在最低分辨率阶段之后添加了几个阶段。这些阶段逐渐对要素图进行上采样,并与之前阶段特征合并。这使得最低分辨率阶段输出的语义表示最强的特征可以更早地与low-level高分辨率特征合并,从而通过充分分析最强的表示,后续阶段能够更精确地推断空间细节。

4dc35a0e-5e61-11ed-a3b6-dac502259ad0.png

最后,在不同阶段重新安排表征模块。在低分辨率阶段增加了模块,而在高分辨率阶段减少了模块,这在很大程度上改善了语义表示。此外,添加了一个具有1/32和1/64分辨率分支的stage,以生成更丰富的语义表示,而无需添加额外的更高分辨率分支。与UNet类似,在网络的深度方向上设置了几个Shortcut,分别连接第2阶段和第8阶段、第3阶段和第7阶段、第4阶段和第6阶段。这些Shortcut使网络可以同时利用High-Level特征和Low-Level特征,同时使渐变可以直接传播到前面的阶段。

2、融合模块

对应于主体中的Shortcut,在第8阶段、第7阶段和第6阶段之前有三个融合模块,分别将第2阶段、第3阶段和第4阶段的高分辨率分支输出的Low-Level特征与第7阶段、第6阶段和第5阶段的高分辨分支的上采样特征合并。

4dd092aa-5e61-11ed-a3b6-dac502259ad0.png

直觉上,可以简单地应用高分辨率模块中使用的融合方法,即添加两个输入特征,然后执行ReLU函数进行激活,如图3中的fusion a所示。然而,假设根据U-Net的融合方法连接两个输入特征可以增强网络的连通性。因此,首先将核大小为2的通道维度上的两个输入特性合并在一起,然后将它们作为输出特性在通道之间连接起来,如图3的Fusion B所示。

3、表征Head

对于表征Head,基本遵循HRNetV2。输出的多分辨率特征来自阶段5、阶段6、阶段7、阶段8和阶段9的较低分辨率分支。但是,由于增加了1/64分辨率,U-HRNet表征头中卷积的输入通道数是HRNetV2的两倍。为了保持与HRNetV1表征头类似的计算成本,通过一个核大小为2的池化操作传递多分辨率特性,然后将它们连接到通道维度中,作为表征头的输入。

2.3、Instantiation

U-HRNet的主体包含9个阶段和5个分辨率流。分辨率为1/4、1/8、1/16、1/32、1/64。第一阶段包含1个分支hr模块,由4个瓶颈残差块组成,每个块的宽度为64,然后是一个3×3卷积,将特征图的宽度更改为C,表示为1/4分辨率流的宽度。第2至第8阶段分别包含1、5、2、2、1、1、1hr模块。所有这些模块都由两个分支组成,每个分支由4个基本残差块组成。与第一阶段一样,最后一阶段也包含1个分支hr模块,而该模块由4个基本残差块组成。最后,五个分辨率流的卷积宽度分别为C、2C、4C、8C和16C。

U-HRNet的布局如图2(c)所示。此外,与U-HRNet相比,U-HRNet-slim有两点不同,

第三阶段由2hr模块组成,而其他阶段与U-HRNet相同

U-HRNet-small的hr模块中的所有分支都包含2个瓶颈块或基本块。

2.4、分析

在U-HRNet中,除了第一级和最后一级之外,主要采用两个分支hr模块作为组成网络的基本单元,而不是HRNet使用的多分辨率(两个或多个)并行卷积和U-Net中的一个分支卷积序列。它带来了一些有助于改进语义表示的好处。

与HRNet相比,这两个分支hr模块放宽了在一定阶段内所有分辨率都需要并行计算的限制,同时又不失多分辨率推理的优势。这使得U-HRNet可以在低分辨率分支上附加比HRNet更多的计算,并进一步改进最强的语义表示。

与U-Net相比,双分支hr模块在多尺度表示学习上明显优于单分支卷积序列。此外,当进入下一个分辨率时,无论是下采样还是上采样,U-HRNet都会继续保持之前的一个分辨率,并不断融合两个分辨率的特性。这使得网络能够充分利用之前学习到的信息,同时避免因分辨率变化而导致的空间或语义知识的丢失。

3、实验

3.1、消融实验

4df71f06-5e61-11ed-a3b6-dac502259ad0.png

3.2、SOTA对比

4e0d7008-5e61-11ed-a3b6-dac502259ad0.png

4、参考

[1].U-HRNet: Delving into Improving Semantic Representation of High Resolution Network for Dense Prediction.

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1095

    浏览量

    42154
  • 分辨率
    +关注

    关注

    2

    文章

    1118

    浏览量

    43246
  • 编解码器
    +关注

    关注

    0

    文章

    278

    浏览量

    25233
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    鸿蒙系统对手机市场产生怎样的影响?现在汽车是不是也用上鸿蒙系统了?

    鸿蒙系统对手机市场产生怎样的影响?现在汽车是不是也用上鸿蒙系统了?
    发表于 12-04 20:47

    乐鑫科技ESP32-S3遇到摄像头,秒变AI相机

    跨越算法到硬件的鸿沟,启明云端不断凭借完整的AI硬件解决方案帮助各个企业实现了AI创意落地。这次“AI梦想实现家”又抓住了谁的灵感让它成真了?AI与相机的碰撞能擦出怎样火花?这款新版AI相机给出
    的头像 发表于 10-21 18:05 331次阅读
    <b class='flag-5'>当</b>乐鑫科技ESP32-S3遇到摄像头,秒变AI相机

    CherryUSB怎样实现U盘动态加载?

    ,致使二者不能同时工作。使用CherryUSB怎样实现U盘动态挂载和卸载呢?即在不插USB线时,挂载文件系统,应用可正常使用文件系统,插入USB线时,动态卸载文件系统并挂载U盘,
    发表于 10-14 07:31

    如何在香橙派5 Plus上移植deepin 25操作系统

    开源生态遇上极客硬件,碰撞怎样火花 deepin 25 遇上香橙派 5 Plus 开
    的头像 发表于 10-11 10:29 506次阅读

    ARMxy+AI边缘计算落地水泵行业就碰撞怎样火花

    水泵,这个看似再普通不过的设备, 正在城市供水、楼宇二次供水、农业灌溉、工业循环水等场景里默默运行。 它们是“水的搬运工”,也是能耗大户、运维难点。然而,在 数字化浪潮下,水泵行业也开始面临三个迫切问题: 能耗高 :传统 PID 调节方式,难以精准匹配用水曲线; 运维难 :多数故障要“停了才知道”; 数据闲置 :运行数据没有被利用,无法形成价值。 所以一个问题浮现:  如果让水泵“更聪明”,会是什么样子? 深圳市钡铼技术有
    的头像 发表于 09-18 10:35 335次阅读
    <b class='flag-5'>当</b>ARMxy+AI边缘计算落地水泵行业就<b class='flag-5'>碰撞</b>出<b class='flag-5'>怎样</b>的<b class='flag-5'>火花</b>?

    EtherCAT高速I/O模块遇上蓝牙耳机生产线,擦出怎样火花

    蓝牙耳机作为现代科技的热门产品,其生产流程的高效与精准至关重要。本文将深入剖析蓝牙耳机的生产流程,并重点介绍一套兼顾稳定、快速与性价比的系统搭建方案,带您领略科技生产背后的精细工艺与智慧选择。蓝牙
    的头像 发表于 09-04 11:39 419次阅读
    <b class='flag-5'>当</b>EtherCAT高速I/O模块遇上蓝牙耳机生产线,<b class='flag-5'>会</b>擦出<b class='flag-5'>怎样</b>的<b class='flag-5'>火花</b>?

    2025紫光同创FPGA技术研讨武汉站和北京站圆满收官

    盛夏八月,全力以赴,紫光同创FPGA技术研讨先后走入武汉、北京两座科技创新城市,吸引了来自通信、工业控制、医疗、图像视频、消费电子等领域近200位专业观众,共同交流和探索FPGA技术趋势和应用前景,现场交流氛围热烈非凡,相互碰撞创新
    的头像 发表于 08-18 15:05 3841次阅读

    信捷视觉平台全新升级

    当机器视觉的精准遇上AI的智能,碰撞怎样火花?信捷视觉平台全新升级——XINJE VISION STUDIO 3.7 + Vision AI算法平台双剑合璧,覆盖从规则化检测到复
    的头像 发表于 07-28 15:56 622次阅读
    信捷视觉平台全新升级

    声智科技与蚂蚁集团共探声学AI前沿技术

    声学AI遇上金融科技,碰撞怎样火花声学AI模型赋能AI硬件产品,又将如何重塑人机交互
    的头像 发表于 07-24 10:18 794次阅读

    触想安卓工控一体机在智慧办公3D打印设备上的应用特点分析

    在科技飞速发展的当下,3D打印技术作为制造业领域的创新力量,正不断改变着产品的设计与制造方式。而安卓工控一体机作为工业自动化领域的重要设备,也在众多行业中展现出强大的适用性。这两者相遇,又会碰撞怎样
    的头像 发表于 04-27 11:14 485次阅读

    PCS老化测试是否产生磁场?

    答案: 。在PCS(电力转换系统)老化测试过程中,由于电力电子器件的高频开关和电流变化,必然产生一定强度的磁场。以下从产生原理、影响因素、测试场景及防护措施等角度展开分析: 一、磁
    的头像 发表于 03-24 17:49 608次阅读

    无法在在DL Workbench中导入unet-camvid-onnx-0001模型之前下载CamVid数据集?

    无法在在 DL Workbench 中导入 unet-camvid-onnx-0001 模型之前下载 CamVid 数据集
    发表于 03-06 07:12

    DLP4500选择pattern sequence模式投影正弦条纹图时,产生非线性误差,怎么解决?

    (1)选择pattern sequence模式投影正弦条纹图时,产生非线性误差,条纹状的投影结果,而不是平滑的正弦,如图所示,应该怎么解决? (2)相机拍摄到的正弦图抽取其中一行,可以看到有很明显的高频误差,这个问题应当
    发表于 02-28 08:27

    上拉电阻阻值怎么选择

    在电子电路设计中,上拉电阻是一种常用的元件,它的阻值选择至关重要,需要综合考虑多个因素来确定合适的阻值。 一、功耗因素 功耗是选择上拉电阻阻值时需要考虑的一个重要方面。电阻两端有电压时,就会
    的头像 发表于 02-05 17:25 1313次阅读

    非线性负载为什么产生谐波?

    常见的非线性负载包括变压器、整流器、逆变器、开关电源等。变压器由于铁芯的磁饱和特性,导致电流波形的畸变,从而产生谐波。整流器和逆变器则由于其内部的电力电子器件如二极管和晶体管的工作特性,也
    的头像 发表于 12-10 15:41 1769次阅读
    非线性负载为什么<b class='flag-5'>会</b><b class='flag-5'>产生</b>谐波?