0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

语义分割模型 SegNeXt方法概述

lhl545545 来源:CVer 作者:CVer 2022-09-27 15:27 次阅读

语义分割是对图像中的每个像素进行识别的一种算法,可以对图像进行像素级别的理解。作为计算机视觉中的基础任务之一,其不仅仅在学术界广受关注,也在无人驾驶工业检测、辅助诊断等领域有着广泛的应用。

近期,计图团队与南开大学程明明教授团队、非十科技刘政宁博士等合作,提出了一种全新的语义分割模型 SegNeXt,该方法大幅提高了当前语义分割方法的性能,并在Pascal VOC 分割排行榜上名列第一。该论文已被 NeurIPS 2022 接收。

Part1

语义分割模型SegNeXt

研究背景 自2015年FCN[2] 被提出以来,语义分割开始逐渐走向深度学习算法,其常用架构为编码-解码器结构(Encoder-Decoder)。在 vision transformer 被提出之前,人们通常采用卷积神经网络(如 ResNet、VGGNet、GoogleNet 等) 作为其编码器部分;最近,由于vision transformer 在视觉领域的成功,语义分割编码器部分开始逐渐被换成基于vision transformer的模型(如 ViT、SegFormer、HRFormer等)。但是,基于 vision transformer编码器的方法真的比基于卷积神经网络的方法更好么?为了回答这个问题,Jittor团队重新思考了语义分割任务对神经网络的要求,并针对语义分割的任务专门设计了一个基于卷积神经网络的编码器MSCAN 和一个语义分割模型 SegNeXt。

cd9d8030-3c22-11ed-9e49-dac502259ad0.png

图1. SegNeXt 和其他语义分割方法的性能对比,其中红色为SegNeXt

方法概述

论文首先分析了语义分割任务本身以及之前的相关工作,总结出四点语义分割任务所需的关键因素。1)强大的骨干网络作为编码器。与之前基于 CNN 的模型相比,基于Transformer 的模型的性能提升主要来自更强大的骨干网络。2)多尺度信息交互。与主要识别单个对象的图像分类任务不同,语义分割是一项密集的预测任务,因此需要在单个图像中处理不同大小的对象,这就使得针对语义分割任务的网络需要多尺度信息的交互。3)注意力机制:注意力可以使得模型关注到重点的部分,并且可以使得网络获得自适应性。4)低计算复杂度:这对于常常处理高分辨率图像的语义分割任务来说至关重要。

cda70fa6-3c22-11ed-9e49-dac502259ad0.png

表 1 不同方法所具有的的属性对比

为了满足上述四点要求,作者设计了一种简单的多尺度卷积注意力机制 (MSCA)。如图 2 所示,MSCA 主要是采用大卷积核分解、多分支并行架构以及类似VAN[3]的注意力机制。这使得 MSCA 可以获得大感受野、多尺度信息以及自适应性等有益属性。基于 MSCA,该论文搭建了一种层次化神经网络 MSCAN 作为SegNeXt 的编码器部分。除此之外,作者采用了 UNet 架构,并选择了HamNet[4] 作为 SegNeXt 的解码器部分。分析和实验证明,MSCAN和 Ham 优势互补,两者相互配合,使得 SegNeXt 实现了优异的性能。

cdb2dd5e-3c22-11ed-9e49-dac502259ad0.png

图 2:多尺度卷积注意力(MSCA) 示意图 实验结果 本文在五个常见分割数据集上 ADE20K, Cityscapes,COCO-Stuff, Pascal VOC, Pascal Context 和一个遥感分割数据集 iSAID做了测评,SegNeXt均超过了之前的方法。限于篇幅,我们仅展示部分结果。

表2:在 ADE20K、Cityscapes, COCO-Stuff 上的实验结果

cdd3f5e8-3c22-11ed-9e49-dac502259ad0.png

表 3 SegNeXt 在遥感数据集上的实验结果

cde6a774-3c22-11ed-9e49-dac502259ad0.png

Part2 计图语义分割算法库JSeg Jittor团队基于自主深度学习框架Jittor[5],并借鉴MMSegmentation语义分割算法库的特点,开发了语义分割算法库JSeg。MMSegmentation是广泛使用的功能强大的语义分割算法库,新推出的JSeg可以直接加载MMSegmentation的模型,同时借助Jittor深度学习平台的优势,使其更高效、稳定运行,可以实现训练和推理快速的从PyTorch向Jittor迁移。 目前JSeg已经支持4个模型、4个数据集,其中模型包括在Pascal VOC test dataset斩获第一的SegNeXt模型,数据集包括经典的ADE20K Dataset、CityScapes Dataset以及遥感分割中的iSAID Dataset等,后续JSeg也将支持更多的模型和数据集! 性能提升 我们使用SegNeX-Tiny模型,与Pytorch实现的版本在NVIDIA TITAN RTX上进行了对比,可以显著缩短模型训练所需要的时间。

表1JSeg和mmseg(PyTorch)的训练时间对比

ce026cd4-3c22-11ed-9e49-dac502259ad0.png

易用性提升

由于Jittor动态编译的特性及code算子对python内联C++及CUDA的支持,JSeg在不同环境下无需对任何算子进行手动编译,即可轻松运行不同模型,免去了用户对不同模型分别配置环境的负担,同时方便用户对不同方法进行更公平的比较。此外,JSeg的设计易于拓展,用户可以基于JSeg已有的模型和功能方便地开展进一步的研究和开发。

实践案例

下面,我们将简要介绍如何使用JSeg训练一个基础模型。

首先,下载数据集到原始数据集目录。

ce13a83c-3c22-11ed-9e49-dac502259ad0.png

通过tools/convert_datasets下的数据处理脚本对原始数据进行预处理,得到处理后的数据集。然后即可对模型进行单卡或者多卡训练、评估和测试,同时提供了推理接口,用户可以使用10行代码完成一张图片的语义分割,尽可能地降低了用户的使用成本。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1070

    浏览量

    40078
  • 模型
    +关注

    关注

    1

    文章

    2671

    浏览量

    47571
  • 计算机视觉
    +关注

    关注

    8

    文章

    1575

    浏览量

    45555
  • 深度学习
    +关注

    关注

    73

    文章

    5200

    浏览量

    119803

原文标题:NeurIPS 2022 | 清华&南开提出SegNeXt:重新思考语义分割的卷积注意力设计

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    目标检测和图像语义分割领域性能评价指标

    目标检测和图像语义分割领域的性能评价指标
    发表于 05-13 09:57

    基于四层树状语义模型的场景语义识别方法

    场景分类的主要方法是基于底层特征的方法和基于视觉词包模型方法,前者缺乏语义描述能力并且时间复杂度大,后者识别率低。借鉴两类
    发表于 12-07 11:17 0次下载
    基于四层树状<b class='flag-5'>语义</b><b class='flag-5'>模型</b>的场景<b class='flag-5'>语义</b>识别<b class='flag-5'>方法</b>

    DeepLab进行语义分割的研究分析

    DeepLab是谷歌使用tensorflow基于CNN开发的语义分割模型,至今已更新4个版本。最新版本是DeepLabv3+,在此模型中进一步将深度可分离卷积应用到孔空间金字塔池化和解
    发表于 10-24 08:00 11次下载
    DeepLab进行<b class='flag-5'>语义</b><b class='flag-5'>分割</b>的研究分析

    用图卷积网络解决语义分割问题

    为了避免上述问题,来自中科院自动化所、北京中医药大学的研究者们提出一个执行图像语义分割任务的图模型 Graph-FCN,该模型由全卷积网络(FCN)进行初始化。
    的头像 发表于 05-13 15:21 6746次阅读

    语义分割方法发展过程

    语义分割的最简单形式是对一个区域设定必须满足的硬编码规则或属性,进而指定特定类别标签. 编码规则可以根据像素的属性来构建,如灰度级强度(gray level intensity). 基于该技术的一种
    的头像 发表于 12-28 14:28 4593次阅读

    分析总结基于深度神经网络的图像语义分割方法

    随着深度学习技术的快速发展及其在语义分割领域的广泛应用,语义分割效果得到显著提升。对基于深度神经网络的图像语义
    发表于 03-19 14:14 21次下载
    分析总结基于深度神经网络的图像<b class='flag-5'>语义</b><b class='flag-5'>分割</b><b class='flag-5'>方法</b>

    结合双目图像的深度信息跨层次特征的语义分割模型

    为改善单目图像语义分割网络对图像深度变化区域的分割效果,提出一种结合双目图像的深度信息和跨层次特征进行互补应用的语义分割
    发表于 03-19 14:35 20次下载
    结合双目图像的深度信息跨层次特征的<b class='flag-5'>语义</b><b class='flag-5'>分割</b><b class='flag-5'>模型</b>

    基于深度学习的三维点云语义分割研究分析

    近年来,深度传感器和三维激光扫描仪的普及推动了三维点云处理方法的快速发展。点云语义分割作为理解三维场景的关键步骤,受到了研究者的广泛关注。随着深度学习的迅速发展并广泛应用到三维语义
    发表于 04-01 14:48 16次下载
    基于深度学习的三维点云<b class='flag-5'>语义</b><b class='flag-5'>分割</b>研究分析

    基于深度神经网络的图像语义分割方法

    对应用于图像语义分割的几种深度神经网络模型进行简单介绍,接着详细阐述了现有主流的基于深度神经网络的图像语义分割
    发表于 04-02 13:59 11次下载
    基于深度神经网络的图像<b class='flag-5'>语义</b><b class='flag-5'>分割</b><b class='flag-5'>方法</b>

    基于SEGNET模型的图像语义分割方法

    使用原始 SEGNET模型对图像进行语义分割时,未对图像中相邻像素点间的关系进行考虑,导致同一目标中像素点类别预测结果不一致。通过在 SEGNET结构中加入一条自上而下的通道,使得 SEGNET包含
    发表于 05-27 14:54 15次下载

    图像语义分割的概念与原理以及常用的方法

    从最简单的像素级别“阈值法”(Thresholding methods)、基于像素聚类的分割方法(Clustering-based segmentation methods)到“图划分”的分割
    的头像 发表于 04-20 10:01 1957次阅读

    语义分割数据集:从理论到实践

    语义分割是计算机视觉领域中的一个重要问题,它的目标是将图像或视频中的语义信息(如人、物、场景等)从背景中分离出来,以便于进行目标检测、识别和分类等任务。语义
    的头像 发表于 04-23 16:45 484次阅读

    PyTorch教程-14.9. 语义分割和数据集

    14.9. 语义分割和数据集¶ Colab [火炬]在 Colab 中打开笔记本 Colab [mxnet] Open the notebook in Colab Colab [jax
    的头像 发表于 06-05 15:44 377次阅读
    PyTorch教程-14.9. <b class='flag-5'>语义</b><b class='flag-5'>分割</b>和数据集

    每日一课 | 智慧灯杆视觉技术之语义分割

    3.2.4语义分割图3-7所示为机器视觉语义分割示例。计算机视觉的核心是分割,它将整个图像分成一个个像素组,然后对其进行标记和分类。
    的头像 发表于 03-07 09:35 286次阅读
    每日一课 | 智慧灯杆视觉技术之<b class='flag-5'>语义</b><b class='flag-5'>分割</b>

    深度学习图像语义分割指标介绍

    深度学习在图像语义分割上已经取得了重大进展与明显的效果,产生了很多专注于图像语义分割模型与基准数据集,这些基准数据集提供了一套统一的批判
    发表于 10-09 15:26 124次阅读
    深度学习图像<b class='flag-5'>语义</b><b class='flag-5'>分割</b>指标介绍