什么是图像分割？图像分割的体系结构和方法-电子发烧友网

图像分割（Image Segmentation）是计算机视觉领域中的一项重要基础技术，是图像理解中的重要一环。前端时间，数据科学家Derrick Mwiti在一篇文章中，就什么是图像分割、图像分割架构、图像分割损失函数以及图像分割工具和框架等问题进行了讨论，让我们一探究竟吧。

01 什么是图像分割?

顾名思义，这是将一个图像分割成多个片段的过程。在这个过程中，图像中的每个像素都与一个对象类型相关联。图像分割主要有两种类型:语义分割和实例分割。

在语义分割中，同一类型的所有对象都使用一个类标签进行标记，而在实例分割中，相似的对象使用各自独立的标签。

02 图像分割的体系结构

图像分割的基本结构包括编码器和解码器。

编码器通过过滤器从图像中提取特征。解码器负责生成最终的输出，通常是一个包含对象轮廓的分割掩码。大多数体系结构都有这种结构或其变体，看几个例子：

U-Net

U-Net是最初用于分割生物医学图像的卷积神经网络。可视化时，其架构看起来像字母U，因此名称为U-Net。

它的体系结构由两部分组成，左边部分是收缩路径，右边部分是扩展路径。收缩路径的目的是捕获上下文，而扩展路径的作用是帮助精确定位。

U-Net由右边的扩展路径和左边的收缩路径组成。收缩路径由两个3×3的卷积组成，卷积之后是一个整流的线性单元和一个用于降采样的两乘二最大池计算。

FastFCN —Fast Fully-connected network

在这种结构中，联合金字塔上采样(JPU)模块被用来代替扩展卷积，因为它们消耗大量的内存和时间。它的核心是一个全连接网络，同时使用JPU进行上采样。JPU将低分辨率特征图提升为高分辨率特征图。

Gated-SCNN

该架构由双流CNN架构组成。在此模型中，一个单独的分支用于处理图像形状信息。形状流用于处理边界信息。

你可以通过检查这里的代码来实现

DeepLab

在这种结构中，卷积与上采样滤波器用于涉及密集预测的任务。多个对象的分割是通过空间金字塔池来完成的。最后，用DCNNs改进对象边界的定位。通过插入零点或对输入特征图进行稀疏采样来对滤波器进行上采样，从而实现空洞卷积。

可以在PyTorch或TensorFlow上尝试其实现。

Mask R-CNN

在这种体系结构中，使用bounding box和语义分割对对象进行分类和定位，并将每个像素分类为一组类别。每个感兴趣的区域都有一个分割掩码，最终的输出是一个类标签和一个bounding box。该体系结构是Faster R-CNN的扩展，Faster R-CNN由提出区域的深度卷积网络和利用区域的检测器组成。

这是在COCO测试集上得到的结果的图像

03 图像分割损失函数

语义分割模型在训练过程中通常使用一个简单的交叉熵损失函数。但是，如果对获取图像的粒度信息感兴趣，则必须恢复到稍微高级一些的损失函数，来看几个例子：

Focal Loss

这种损失是对标准交叉熵准则的改进。这是通过改变其形状来实现的，使得分配给分类良好的示例的损失权重降低了。最终，确保不存在类不平衡。

在这个损失函数中，交叉熵损失是会随着缩放系数衰减为零而缩，训练时，比例因数自动降低了简单示例的权重，并将重点放在困难示例上。