RGPNET：复杂环境下实时通用语义分割网络-电子发烧友网

本文介绍的论文提出了一种新的实时通用语义分割体系结构RGPNet，在复杂环境下取得了显著的性能提升。
作者： Tom Hardy
首发：3D视觉工坊微信公众号

论文：RGPNet: A Real-Time General Purpose Semantic Segmentation （文末可下载）
论文链接：https://arxiv.org/abs/1912.01394

一、主要思想

本文提出了一种新的实时通用语义分割体系结构RGPNet，在复杂环境下取得了显著的性能提升。RGPNet由一个轻量级的非对称编码器-解码器和一个适配器组成。适配器有助于从编码器和解码器之间的多层分布式表示中保留和细化抽象概念。它也有助于从较深层到较浅层的梯度流动。大量实验表明，与目前最先进的语义分割网络相比，RGPNet具有更好的性能。

此外还证明了在保持性能的同时，使用改进的标签松弛技术和逐步调整大小可以减少60%的训练时间。论文还对应用在资源受限的嵌入式设备上的RGPNet进行了优化，使推理速度提高了400%，性能损失可以忽略不计。RGPNet在多个数据集之间获得了更好的速度和精度权衡。

二、创新点

1、提出的RGPNet作为一种通用的实时语义分割体系结构，它可以在单分支网络中获得高分辨率的深层特征，从而提高准确性和降低延迟，在复杂的环境中具有竞争力。

2、引入一个适配器模块来捕获多个抽象级别，以帮助细分的边界细化，适配器还通过添加较短的路径来辅助渐变梯度流。

3、对于green AI，在训练期间采用渐进式调整大小技术，从而使训练时间和环境影响减少60%，并且采用一种改进的标签松弛来消除低分辨率标签映射中的混叠效应。

4、使用TensorRT（一个高性能深度学习推理平台）优化RGPNet，以便部署在边缘计算设备上，从而使推理速度提高400%。

5、RGPNet在Cityscpes、CamVid和Mapillary数据集上分别实现了Resnet-101作为backbone 下80.9%、69.2%和50.2% mIoU以及Resnet-18作为backbone下74.1%、66.9%和41.7% mIoU。对于1024×2048分辨率的图像，RGPNet在CityScapes数据集上单NVIDIA GTX2080Ti GPU下达到37.4 FPS。

三、网络结构

RGPNet的整体结构如下所示，每个箭头都有对应的操作模式：

中间一列操作为编码器
最右边操作为解码器
“+”操作为适配器（Adaptor）

其中“+”详细操作如下所示：
1、T（：）是一个转换函数，它用来减少编码器模块输出通道数量并将其传输到adaptor。
2、D（：）和U（：）是下采样和上采样功能。

Adaptor有许多优点：

1、Adaptor聚合来自不同上下文和空间级别的特征。
2、通过引入较短的路径，有助于梯度从较深的层流向较浅的层。
3、Adaptor允许使用轻量解码器的不对称设计，这将减少卷积层，进一步增强梯度流。因此，Adaptor使网络适合于实时应用，因为它在保留空间信息的同时提供了丰富的语义信息。

针对带标签松弛的渐进式调整：

论文采取了最大化像素周围区域相似度分布，而不是单个像素级别的标签最大可能化，针对边界类别，提出了边界损失函数。

四、实验结果

多种网络在Mapillary Vistas数据集上的测试结果：

几种网络在Mapillary Vistas数据集上的性能对比：

在CamVid数据集上的性能对比：

RGPNet使用TensorRT在GTX2080Ti和Xavier上速度对比：

综合速度和准确率以及实际部署下的性能，RGPNet都非常具有竞争力~!

推荐阅读

3D U-Net：从稀疏注释中学习密集的体积分割
超全的3D视觉数据集汇总

重点介绍：1、3D视觉算法；2、vslam算法;3、图像处理；4、深度学习;5、自动驾驶;6、技术干货。博主及合伙人分别来国内自知名大厂、海康研究院，深研3D视觉、深度学习、图像处理、自动驾驶、目标检测、VSLAM算法等领域。
欢迎关注微信公众号

审核编辑：符乾江

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1776

文章
43845

浏览量
230605
计算机视觉

计算机视觉

+关注

关注
8

文章
1600

浏览量
45616

fpga通用语言是什么

FPGA（现场可编程门阵列）的通用语言主要是指用于描述FPGA内部逻辑结构和行为的硬件描述语言。目前，Verilog HDL和VHDL是两种最为广泛使用的FPGA编程语言。

发表于 03-15 14:36 •175次阅读

三项SOTA！MasQCLIP：开放词汇通用图像分割新网络

MasQCLIP在开放词汇实例分割、语义分割和全景分割三项任务上均实现了SOTA，涨点非常明显。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM：VINS-Fusion原理精讲与

发表于 12-12 11:23 •280次阅读

三项SOTA！MasQCLIP：开放词汇<b class='flag-5'>通用</b>图像<b class='flag-5'>分割</b>新<b class='flag-5'>网络</b>

一种在线激光雷达语义分割框架MemorySeg

本文提出了一种在线激光雷达语义分割框架MemorySeg，它利用三维潜在记忆来改进当前帧的预测。传统的方法通常只使用单次扫描的环境信息来完成语义分割

发表于 11-21 10:48 •240次阅读

深度学习图像语义分割指标介绍

深度学习在图像语义分割上已经取得了重大进展与明显的效果，产生了很多专注于图像语义分割的模型与基准数据集，这些基准数据集提供了一套统一的批判模型的标准，多数时候我们评价一个模型的性能会从

发表于 10-09 15:26 •165次阅读

一个动态环境下的实时语义RGB-D SLAM系统

大多数现有的视觉SLAM方法严重依赖于静态世界假设，在动态环境中很容易失效。本文提出了一个动态环境下的实时语义RGB-D SLAM系统，该系统能够检测已知和未知的运动物体。为了减少计算

发表于 08-25 16:49 •312次阅读

实时语义建图与潜在先验网络和准平面分割

论文在III-B部分描述了论文方法背后的SLAM管道。论文的2D潜在先验网络(LPN)在III-C中描述。LPN输出融合到论文在III-D中描述的论文新颖的准平面超分段(QPOS)方法分割的地图

发表于 07-19 15:55 •301次阅读

CVPR 2023 | 华科&MSRA新作：基于CLIP的轻量级开放词汇语义分割架构

Adapter Network (SAN)的新框架，用于基于预训练的视觉语言模型进行开放式语义分割。该方法将语义分割任务建模为区域识别问题，并通过附加一个侧面的可学习

发表于 07-10 10:05 •590次阅读

CVPR 2023 中的领域适应: 一种免反向传播的TTA语义分割方法

TTA 在语义分割中的应用，效率和性能都至关重要。现有方法要么效率低（例如，需要反向传播的优化），要么忽略语义适应（例如，分布对齐）。此外，还会受到不稳定优化和异常分布引起的误差积累的困扰。

发表于 06-30 15:13 •619次阅读

基于通用的模型PADing解决三大分割任务

1. 研究动机图像分割旨在将具有不同语义的像素进行分类进而分组，例如类别或实例，近年来取得飞速的发展。然而，由于深度学习方法是数据驱动的，对大规模标记训练样本的强烈需求导致了巨大的挑战，这些训练

发表于 06-26 10:39 •318次阅读

自动驾驶深度多模态目标检测和语义分割:数据集、方法和挑战

了许多解决深度多模态感知问题的方法。然而，对于网络架构的设计，并没有通用的指导方针，关于“融合什么”、“何时融合”和“如何融合”的问题仍然没有定论。本文系统地总结了自动驾驶中深度多模态目标检测和语义

发表于 06-06 10:37 •0次下载

PyTorch教程-14.9. 语义分割和数据集

14.9. 语义分割和数据集¶ Colab [火炬]在 Colab 中打开笔记本 Colab [mxnet] Open the notebook in Colab Colab [jax

发表于 06-05 15:44 •414次阅读

PyTorch教程14.9之语义分割和数据集

电子发烧友网站提供《PyTorch教程14.9之语义分割和数据集.pdf》资料免费下载

发表于 06-05 11:10 •0次下载

使用LabVIEW实现 DeepLabv3+ 语义分割含源码

使用LabVIEW实现 DeepLabv3+ 语义分割含源码

发表于 05-26 10:23 •584次阅读

AI算法说-图像分割

语义分割是区分同类物体的分割任务，实例分割是区分不同实例的分割任务，而全景分割则同时达到这两个目

发表于 05-17 14:44 •886次阅读

语义分割标注：从认知到实践

随着人工智能技术的不断发展，语义分割标注已经成为计算机视觉领域的一个热门话题。语义分割是指将图像中的每个像素分配给一个预定义的语义类别，以便

发表于 04-30 21:20 •768次阅读