0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

3D UX-Net:超强的医学图像分割新网络

CVer 来源:CVHub 2023-02-01 15:57 次阅读

2a2a3e3c-a187-11ed-bfe3-dac502259ad0.png

Title: 3D UX-Net: a Large Kernel Volumetric ConvNet Modernizing Hierarchical Transformer for Medical Image Segmentation

Author: Ho Hin Lee et al. (范德堡大学)

Paper: https://arxiv.org/abs/2209.15076

Github: https://github.com/MASILab/3DUX-Net

引言

众所周知,大多数医学图像如 MRI 和 CT 是属于 volumetric data 类型。因此,为了更加充分的利用体素信息,近几年已经提出了不少 3D CNNs 的模型,如 SwinUNETRUNETR以及笔者前段时间分享过的UNETR++等。

整体来说,这些模型性能是越来越高,在几个主流的 3D 数据基准测试中也实现了大大小小的 SOTA,特别是 3D 医学图像分割这块。当然,时代在进步,作为一名高科技前沿从业者本身也是需要不断汲取新的知识营养才能不被轻易的淘汰。今天小编就带大家解读下 ICLR 2023 新鲜出炉的 3D 医学图像分割之星——3D UX-Net

3D UXNet 是一种轻量级3D卷积神经网络,其使用 ConvNet 模块调整分层 Transformer 以实现稳健的体素分割,在三个具有挑战性的脑体积和腹部成像公共数据集与当前的 SOTA 模型如 SwinUNETR 对比,同时在以下三大主流数据集性能均达到了最优:

  • MICCAI Challenge 2021 FLARE
  • MICCAI Challenge 2021 FeTA
  • MICCAI Challenge 2022 AMOS

具体的,相比于 SwinUNETR,3D UX-Net 将 Dice 从 0.929 提高到 0.938 (FLARE2021),Dice 从 0.867 提高到 0.874 (Feta2021)。此外,为了进一步评估 3D UX-Net 的迁移学习能力,作者在 AMOS2022 数据集上训练得到的模型在另一个数据集上取得了 2.27% Dice 的提升(0.880 → 0.900)。

动机

先来看看最近提出的一众基于 Transformer 架构的 ViT 模型有什么优劣势。以 SwinUNETR 为例,其将 ConvNet 的一些先验引入到了 Swin Transformer 分层架构中,进一步增强了在 3D 医学数据集中调整体素分割的实际可行性。此类 "Conv+Transforemr" 的组合拳的有效性在很大程度上归功于以下两个因素:

  • 非局部自注意力所带来的大感受野
  • 大量的模型参数

为此,本文作者想到了应用深度卷积以更少的模型参数来模拟这些方法让网络学会如何捕获更大感受野的行为。这一点笔者在前文《关于语义分割的亿点思考》中也提过,文中对整个任务进行了深度剖析,有兴趣的读者可以自行翻阅公众号历史文章:

语义分割任务的核心思想是如何高效建模上下文信息,它是提升语义分割性能最为重要的因素之一,而有效感受野则大致决定了网络能够利用到多少上下文信息。

回到正文,本文的设计思路主要是受 ConvNeXt 启发,还没了解过的同学也可自行移动到公众号翻阅历史文章,笔者之前对该系列也讲解过了,此处不再详述。3D UX-Net 核心理念是设计出一种简单、高效和轻量化的 网络,其适用于 hierarchical transformers 的能力同时保留使用 ConvNet 模块的优势,如归纳偏置。具体地,其编码器模块设计的基本思想可分为: 1) block-wise(微观层面) 及 2) layer-wise(宏观层面)【可以类比下 ConvNeXt】。

block-wise

首先,我们先从下列三个不同的视角进行讨论。

Patch-wise Features Projection

对比 ConvNets 和 ViTs 之间的相似性,两个网络都使用一个共同的基础模块将特征表示缩小到特定的尺寸。以往的方法大都没有将图像块展平为具有线性层的顺序输入,因此作者采用具备大卷积核的投影层来提取 patch-wise 特征作为编码器的输入。

Volumetric Depth-wise Convolution with LKs

Swin transformer 的内在特性之一是用于计算非局部 MSA 的滑动窗口策略。总的来说,有两种分层方法来计算 MSA:基于窗口的 MSA (W-MSA) 和 移动窗口 MSA (SW-MSA)。这两种方式都生成了跨层的全局感受野,并进一步细化了非重叠窗口之间的特征对应关系。

受深度卷积思想的启发,作者发现自注意力中的加权和方法与每通道卷积基础之间的相似之处,其认为使用 LK 大小的深度卷积可以在提取类似于 MSA 块的特征时提供大的感受野。因此,本文建议采用 LK 大小(例如,从 7 × 7 × 7 开始)通过深度卷积压缩 Swin transformer 的窗口移动特性。如此一来便可以保证每个卷积核通道与相应的输入通道进行卷积运算,使得输出特征与输入具备相同的通道维度。

Inverted Bottleneck with Depthwise Convolutional Scaling

Swin transformer 的另一个固有结构是,它们被设计为 MLP 块的隐藏层维度比输入维度宽四倍,如下图所示。有趣的是,这种设计与 ResNet 块中的扩张率相关。因此,我们利用 ResNet 块中的类似设计并向上移动深度卷积来计算特征。此外,通过引入了具有 1 × 1 × 1 卷积核大小的深度卷积缩放(DCS),以独立地线性缩放每个通道特征。通过独立扩展和压缩每个通道来丰富特征表示,可以最小化跨通道上下文产生的冗余信息,同时在每个阶段增强了与下采样块的跨通道特征对应。最后,通过使用 DCS,可以进一步将模型复杂度降低 5%,并展示了与使用 MLP 模型的架构相当的结果。

2a35a11e-a187-11ed-bfe3-dac502259ad0.png

layer-wise

介绍完微观层面的设计思想,再让我们从宏观层面出发,以另外三个崭新的视角去理解作者的动机。

Applying Residual Connections

从上图左上角可以看到,标准的 3D U-Net 模型内嵌的模块为 2 个 3 x 3 x 3 卷积的堆叠,其展示了使用小卷积核提取具有增加通道的局部表示的朴素方法;而其右手边的 SegResNet 则应用了类似 3D 版本的瓶颈层,先降维再升维最后再接残差表示;紧接着左下角的便是 Swin Transformer,其基于窗口注意力+MLP层的组合;最后右下角便是本文所提出的模块,其在最后一个缩放层之后应用输入和提取特征之间的残差连接。此外,在残差求和前后并没有应用到任何的归一化层和激活层。

Adapting Layer Normalization

我们知道,在卷积神经网络中,BN 是一种常用策略,它对卷积表示进行归一化以增强收敛性并减少过拟合。然而,之前的工作已经证明 BN 会对模型的泛化能力产生不利影响。因此作者这里跟 ConvNeXt 一致,将 BN 替换为 LN。

Using GELU as the Activation Layer

ReLU 是个好东西,几乎是现代 CNNs 模型的首选激活函数。作者在这里提倡使用 GELU,这是一种基于高斯误差的线性变换单元,相对 ReLU 更加平滑,也是其中一种变体,解决 ReLU 因负梯度被硬截断而导致的神经元失活问题。

方法

2a3d3cc6-a187-11ed-bfe3-dac502259ad0.png

可以看出,整体的设计思路非常简洁,框架也是一目了然,就一个标准的 3D U-Net 架构,由编码器-解码器组成,同时结合长跳跃连接操作帮助网络更好的恢复空间细节的定位。也没啥好分析的,下面就简单拆开来看看,带大家快速的过一遍就行。

DEPTH-WISE CONVOLUTION ENCODER

首先,输入部分应用一个大卷积核将原始图像映射到一个低维空间分辨率的潜在空间特征表示,一来降低显存参数量计算量等,二来可以增大网络感受野,顺便再处理成编码器输入所需的格式,总之好处多多,不过都是基操。

处理完之后就输入到编码器中进行主要的特征提取,该编码器共4个stage,也是标准的16倍下采样。每个stage由多个不同的 3D UX-Net Block 构成,具体长啥样自己看下左图一点就通。主要的特点就是主打轻量化和大感受野。

DECODER

编码器中每个阶段的多尺度输出通过长跳跃连接链接到基于 ConvNet 的解码器,并形成一个类似U形的网络以用于下游的分割任务。这一块就跟标准的 3D U-Net 几乎没啥两样了。

实验

消融实验

2a4968c0-a187-11ed-bfe3-dac502259ad0.png

可视化效果

2a517ac4-a187-11ed-bfe3-dac502259ad0.png

可以看到,与 GT 相比,3D UX-Net器官和组织的形态得到了很好的保存。

与 SOTA 方法的对比

2a5b742a-a187-11ed-bfe3-dac502259ad0.png

从上述表格可以看出,3D UX-Net 在所有分割任务中均展示出最佳性能,并且 Dice 分数有了显着提高(FeTA2021:0.870 到 0.874,FLARE2021:0.929 到 0.934)。

总结

本文为大家介绍了 3D UX-Net,这是第一个将分层 Transformer 的特征与用于医学图像分割的纯 ConvNet 模块相适应的3D网络架构。具体地,本文重新设计了具有深度卷积的编码器块,以更低的代价实现与 Transformer 想媲美的能力。最后,通过在三个具有挑战性的公共数据集上进行的广泛实验表明所提方法的高效性。

审核编辑 :李倩


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4576

    浏览量

    98823
  • 图像分割
    +关注

    关注

    4

    文章

    173

    浏览量

    17864
  • 数据集
    +关注

    关注

    4

    文章

    1179

    浏览量

    24366

原文标题:ICLR 2023 | 3D UX-Net:超强的医学图像分割新网络

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    友思特C系列3D相机:实时3D点云图像

    3D相机
    虹科光电
    发布于 :2024年01月10日 17:39:25

    三项SOTA!MasQCLIP:开放词汇通用图像分割新网络

    MasQCLIP在开放词汇实例分割、语义分割和全景分割三项任务上均实现了SOTA,涨点非常明显。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》。
    的头像 发表于 12-12 11:23 284次阅读
    三项SOTA!MasQCLIP:开放词汇通用<b class='flag-5'>图像</b><b class='flag-5'>分割</b><b class='flag-5'>新网络</b>

    为什么需要分割?U-Net能提供什么?U-Net和自编码器的区别

    U-Net是一种卷积神经网络(CNN)方法,由Olaf Ronneberger、Phillip Fischer和Thomas Brox于2015年首次提出,它可以更好的分割生物医学
    的头像 发表于 11-25 11:38 1770次阅读
    为什么需要<b class='flag-5'>分割</b>?U-<b class='flag-5'>Net</b>能提供什么?U-<b class='flag-5'>Net</b>和自编码器的区别

    机器视觉(六):图像分割

    基于阈值的分割方法是一种应用十分广泛的图像分割技术,其实质是利用图像的灰度直方图信息获取用于分割的阈值,一个或几个阈值将
    的头像 发表于 10-22 11:34 544次阅读
    机器视觉(六):<b class='flag-5'>图像</b><b class='flag-5'>分割</b>

    深度学习在医学图像分割与病变识别中的应用实战

    技术中,卷积神经网络(Convolutional Neural Networks, CNNs)在医学图像处理中得到了广泛应用。其能够自动从图像中学习到特征表示,从而在
    发表于 09-04 11:11

    使用PyTorch加速图像分割

    使用PyTorch加速图像分割
    的头像 发表于 08-31 14:27 505次阅读
    使用PyTorch加速<b class='flag-5'>图像</b><b class='flag-5'>分割</b>

    光学3D表面轮廓仪可以测金属吗?

    测量金属制品的长度、宽度、高度等维度参数。 除了测量金属表面的形状和轮廓外,光学3D表面轮廓仪还可以生成三维点云数据和色彩图像,用于进一步分析和展示: 1、三维点云数据可以用于进行CAD模型比对、工艺
    发表于 08-21 13:41

    什么是图像分割图像分割的体系结构和方法

    图像分割(Image Segmentation)是计算机视觉领域中的一项重要基础技术,是图像理解中的重要一环。前端时间,数据科学家Derrick Mwiti在一篇文章中,就什么是图像
    的头像 发表于 08-18 10:34 2634次阅读
    什么是<b class='flag-5'>图像</b><b class='flag-5'>分割</b>?<b class='flag-5'>图像</b><b class='flag-5'>分割</b>的体系结构和方法

    CVPR 2023 中的领域适应:用于切片方向连续的无监督跨模态医学图像分割

    如上图所示,以前的医学图像分割 UDA 方法大多采用 2D UDA,当将预测堆叠在一起时,会导致切片方向上的预测不一致。SDC-UDA 在翻译和分割过程中考虑了体积信息,从而改善了
    的头像 发表于 08-17 16:35 1384次阅读
    CVPR 2023 中的领域适应:用于切片方向连续的无监督跨模态<b class='flag-5'>医学</b><b class='flag-5'>图像</b><b class='flag-5'>分割</b>

    实时3D艺术最佳实践-纹理技术解读

    纹理贴图获取2D曲面图像并将其映射到3D多边形上。 本指南涵盖了几种纹理优化,可以帮助您的游戏运行得更流畅、看起来更好。 在本指南的最后,您可以检查您的知识。您将了解有关主题,包括纹理图谱
    发表于 08-02 06:12

    加快骨科图像分割的重要技巧

      从MRI和CT进行医学图像分割的过程可能非常耗时。扫描数据的质量通常使得难以识别重要的感兴趣区域,而导出到有限元(FE)仿真或3D打印等应用的最终模型可能并不坚固,在使用之前需要做
    的头像 发表于 05-24 16:16 1245次阅读

    AI算法说-图像分割

    语义分割是区分同类物体的分割任务,实例分割是区分不同实例的分割任务,而全景分割则同时达到这两个目标。全景
    的头像 发表于 05-17 14:44 891次阅读
    AI算法说-<b class='flag-5'>图像</b><b class='flag-5'>分割</b>

    没你想的那么难 | 一文读懂图像分割

    来源:图灵Topia(ID:turingtopia)图像分割(ImageSegmentation)是计算机视觉领域中的一项重要基础技术,是图像理解中的重要一环。近日,数据科学家
    的头像 发表于 05-16 09:21 623次阅读
    没你想的那么难 | 一文读懂<b class='flag-5'>图像</b><b class='flag-5'>分割</b>

    ImgX-DiffSeg:基于DDPMs的3D医学图像分割

    DDPM 是一种生成模型,可用于图像去噪和分割。工作原理是模拟干净图像的概率分布,然后在图像中添加噪点以生成噪声版本。相反的,模型尝试通过移除添加的噪点来对
    的头像 发表于 05-15 09:19 708次阅读
    ImgX-DiffSeg:基于DDPMs的<b class='flag-5'>3D</b><b class='flag-5'>医学</b><b class='flag-5'>图像</b><b class='flag-5'>分割</b>

    基于Diffusion Probabilistic Model的医学图像分割

    MedSegDiff 在原版 DPM 的基础上引入了动态条件编码,增强 DPM 在医学图像分割上的分步注意力能力。
    的头像 发表于 05-04 18:14 3027次阅读
    基于Diffusion Probabilistic Model的<b class='flag-5'>医学</b><b class='flag-5'>图像</b><b class='flag-5'>分割</b>