语义分割、分类与定位、目标检测、实例分割几个应用程序和方法-电子发烧友网

【导读】神经网络在计算机视觉领域有着广泛的应用。只要稍加变形，同样的工具和技术就可以有效地应用于广泛的任务。在本文中，我们将介绍其中的几个应用程序和方法，包括语义分割、分类与定位、目标检测、实例分割。

Detection andSegmentation through ConvNets

——计算机视觉-目标检测与分割

神经网络在计算机视觉领域有着广泛的应用。只要稍加变形，同样的工具和技术就可以有效地应用于广泛的任务。在本文中，我们将介绍其中的几个应用程序和方法。最常见的四个是：

语义分割（Semantic segmentation）

分类与定位（Classification and localization）

目标检测（Object detection）

实例分割（Instance segmentation）

1、语义分割

我们输入图像并输出每个像素的类别决策。换句话说，我们希望将每个像素划分为几个可能的类别之一。这意味着，所有携带绵羊的像素都会被分类为一个类别，有草和道路的像素也会被分类。更重要的是，输出不会区分两种不同的绵羊。

解决这个问题的一个可能的方法是把它当作一个滑动窗口的分类问题[1]。这样我们就把输入图像分解成几个大小相同的crop。然后每一种crop都会被传送给CNN，作为输出得到该crop的分类类别。像素级的crop会对每一个像素进行分类。这是非常容易的，不是吗？

滑动窗口的语义分割

嗯，甚至不需要研究生学位就能看出这种方法在实际中的计算效率有多低。我们需要的是一种尽量将图像的传送次数减少到单道的方法。幸运的是，有一些技术可以用所有卷积层来同时对所有像素进行预测。

语义分割的全卷积层

如你所见，这样的网络将是下采样和上采样层的混合，以保持输入图像的空间大小(在像素级进行预测)。下采样是通过使用strides或max/avg pooling来实现的。另一方面，上采样需要使用一些巧妙的技术，其中两个是-最近邻[2]和转置卷积[3]。

上采样技术

简而言之，最近邻只是在它的接受域中复制特定元素（在上面的例子中是2x2）。另一方面，转置卷积努力学习适当的权重,为滤波器执行上采样。在这里，我们从左上角值开始，这是一个标量，与过滤器相乘，并将这些值复制到输出单元格中。然后，我们将滤波器中的一些特定像素与输入中的一个像素成比例地移动。这就是输出和输入之间的比率，这将给我们提供我们想要使用的步幅。在有重叠的情况下，我们只对数值进行汇总。这样，这些过滤器也构成了这些网络的可学习参数，而不是一些固定的值集，就像最近的邻居一样。最后，利用像素级的交叉熵损失[4]对整个网络进行反向传播训练[5]。

2、分类和定位

图像分类[6]处理的是将类别标签分配给图像。但是有时，除了预测类别之外，我们还感兴趣的是该对象在图像中的位置。从数学的角度来说，我们可能希望在图像的顶部画一个包围框。幸运的是，我们可以重用图像分类学到的所有工具和技术。

用于分类定位的卷积网络

我们首先将输入图像输入到某个巨大的ConvNet中，这将给出每个类别的分数。但是现在我们有了另一个完全连接的层，它从先前层次生成的特征Map中预测对象的边界框坐标(x，y坐标以及高度和宽度)。因此，我们的网络将产生两个输出，一个对应于图像类，另一个对应于边界。为了训练这个网络，我们必须考虑两个损失：分类的交叉熵损失和边界预测的L1/L2损失[7](某种回归损失)。

广义上，这种预测固定数目集的思想可以应用于除定位以外的各种计算机视觉任务，如人体姿态估计。

人体姿态估计

在这里，我们可以定义人体姿势的固定点集上的身体，例如关节。然后将我们的图像输入到ConvNet并输出相同的固定点集（x，y）坐标。然后我们可以在每一点上应用某种回归损失来通过反向训练来训练网络.

3、目标检测

目标检测的思想是从我们感兴趣的一组固定类别开始，每当这些类别中的任何一种出现在输入图像中时，我们就会在图像周围画出包围框，并预测它的类标签。这与图像分类和定位的不同之处在于，在前一种意义上，我们只对单个对象进行分类和绘制边框。而在后一种情况下，我们无法提前知道图像中期望的对象数量。同样，我们也可以采用蛮力滑动窗口方法[8]来解决这个问题。然而，这又是一种计算效率低下的问题，很少有算法能有效地解决这一问题，比如基于Region proposal的算法，及基于yolo目标检测的算法[9]。

基于Region proposal的算法

给定一个输入图像，一个Regionproposal算法会给出成千上万个可能出现对象的框。当然，在没有对象的情况下，输出框中存在噪声的可能性。但是，如果图像中有任何对象，该算法就会选择它作为候选框。

区域搜索的选择性搜索

为了使所有的候选框都是一样大小的，我们需要把它们变形到固定的方格大小，这样我们最终就可以给网络输入了。然后，我们可以将一个巨大的ConvNets应用到从region proposal输出的每个候选框中以获得最终类别。当然，与蛮力滑动窗口算法相比，它最终的计算效率要高得多。这就是R-CNN背后的整个想法。为了进一步降低复杂度，采用Fast R-CNN的方法，Fast R-CNN的思想首先是通过ConvNet传递输入图像，得到高分辨率的特征图，然后将这些region proposals强加到这个特征图上，而不是实际的图像上。这使得我们可以在有大量crops的情况下，在整个图像中重用大量代价昂贵的卷积运算。

YOLO（You only look once）

YOLO目标检测

Yolo背后的想法是，不要在所有提议的区域进行独立的处理，而是将所有的预测都重组为一个单一的回归问题，从图像像素到包围框坐标和分类概率。

我们首先将整个输入图像划分为SXS网格，每个网格单元与b边界(x，y，w，h)一起预测c条件的类概率(Pr(Class | Object))，每个边界盒(x，y，w，h)都有一个置信度分数。(x，y)坐标表示边框的中心相对于网格单元格的边界，而宽度和高度则是相对于整个图像预测。概率是以包含对象的网格单元为条件的。我们只预测每个网格单元格的一组类概率，而不管方框B的数量。置信度分数反映了模型对框中包含对象的信心程度，如果框中没有对象，则置信度必须为零。在另一个极端，置信度应与预测框与ground truth标签之间的交集(IOU)相同。

Confidence score =Pr(Object) * IOU

在测试时，我们将条件类概率和单个边框置信度预测相乘，这给出了每个框的特定类别的置信度分数。这些分数既编码了该类出现在盒子中的概率，也表示了预测的盒适合对象的程度。

Pr(Class | Object) ∗(Pr(Object) ∗ IOU) = Pr(Class) ∗ IOU

4、实例分割

实例分割采用语义分割和目标检测相结合的技术。给定一幅图像，我们希望预测该图像中目标的位置和身份(类似于目标检测)，但是，与其预测这些目标的边界框，不如预测这些目标的整个分割掩码，即输入图像中的哪个像素对应于哪个目标实例。在此基础上，我们对图像中的每一只绵羊分别得到了分割掩码，而语义分割中所有的绵羊都得到了相同的分割掩码。

基于Mask R-CNN的实例分割

Mask R-CNN是这类任务的首选网络。在这个多阶段的处理任务中，我们通过一个ConvNet和一些学习region proposal网络传递输入图像。一旦我们有了这些region proposal，我们就把这些proposals投影到卷积特征图上，就像我们在R-CNN的情况下所做的那样。然而现在，除了进行分类和边界框预测之外，我们还预测了每个region proposal的分割掩码。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4572

浏览量
98746
计算机视觉

计算机视觉

+关注

关注
8

文章
1600

浏览量
45616

原文标题：【计算机视觉】检测与分割详解

文章出处：【微信号：Imgtec，微信公众号：Imagination Tech】欢迎添加关注！文章转载请注明出处。

目标检测和图像语义分割领域性能评价指标

目标检测和图像语义分割领域的性能评价指标

发表于 05-13 09:57

聚焦语义分割任务，如何用卷积神经网络处理语义图像分割？

CNN架构图像语义分割图像分割是根据图像内容对指定区域进行标记的计算机视觉任务，简言之就是「这张图片里有什么，其在图片中的位置是什么？」本文聚焦于语义

发表于 09-17 15:21 •444次阅读

Facebook AI使用单一神经网络架构来同时完成实例分割和语义分割

这一新架构“全景 FPN ”在 Facebook 2017 年发布的 Mask R-CNN 的基础上添加了一个用于语义分割的分支。这一新架构可以同时对图像进行实例和语义

发表于 04-22 11:46 •2641次阅读

Facebook AI使用单一神经网络架构来同时完成<b class='flag-5'>实例</b><b class='flag-5'>分割</b>和<b class='flag-5'>语义</b><b class='flag-5'>分割</b>

语义分割算法系统介绍

图像语义分割是图像处理和是机器视觉技术中关于图像理解的重要任务。语义分割即是对图像中每一个像素点进行分类，确定每个点的类别，从而进行区域划分

发表于 11-05 10:34 •4744次阅读

在一个很小的Pascal VOC数据集上训练一个实例分割模型

的应用，如自动驾驶汽车或医疗诊断。在这些任务中，我们依靠机器的能力来识别物体。我们经常看到的与目标识别相关的任务有4个：分类和定位、目标检测

发表于 12-26 11:26 •5660次阅读

分析总结基于深度神经网络的图像语义分割方法

随着深度学习技术的快速发展及其在语义分割领域的广泛应用，语义分割效果得到显著提升。对基于深度神经网络的图像语义

发表于 03-19 14:14 •21次下载

基于深度学习的三维点云语义分割研究分析

近年来，深度传感器和三维激光扫描仪的普及推动了三维点云处理方法的快速发展。点云语义分割作为理解三维场景的关键步骤，受到了研究者的广泛关注。随着深度学习的迅速发展并广泛应用到三维语义

发表于 04-01 14:48 •16次下载

基于深度神经网络的图像语义分割方法

对应用于图像语义分割的几种深度神经网络模型进行简单介绍，接着详细阐述了现有主流的基于深度神经网络的图像语义分割方法，依据实现技术的区别对图像

发表于 04-02 13:59 •11次下载

点云分割相较图像分割的优势是啥？

自动驾驶领域的下游任务，我认为主要包括目标检测、语义分割、实例分割和全景

发表于 12-14 14:25 •1941次阅读

图像语义分割的概念与原理以及常用的方法

从最简单的像素级别“阈值法”（Thresholding methods）、基于像素聚类的分割方法（Clustering-based segmentation methods）到“图划分”的分割

发表于 04-20 10:01 •2357次阅读

语义分割数据集：从理论到实践

语义分割是计算机视觉领域中的一个重要问题，它的目标是将图像或视频中的语义信息（如人、物、场景等）从背景中分离出来，以便于进行目标

发表于 04-23 16:45 •528次阅读

语义分割标注：从认知到实践

随着人工智能技术的不断发展，语义分割标注已经成为计算机视觉领域的一个热门话题。语义分割是指将图像中的每个像素分配给一个预定义的语义类别，以便

发表于 04-30 21:20 •768次阅读

AI算法说-图像分割

语义分割是区分同类物体的分割任务，实例分割是区分不同实例的分

发表于 05-17 14:44 •882次阅读

PyTorch教程-14.9. 语义分割和数据集

划分为属于不同语义类的区域。与目标检测不同，语义分割在像素级别识别和理解图像中的内容：它对语义区

发表于 06-05 15:44 •412次阅读

每日一课 | 智慧灯杆视觉技术之语义分割

3.2.4语义分割图3-7所示为机器视觉语义分割示例。计算机视觉的核心是分割，它将整个图像分成一个个像素组，然后对其进行标记和

发表于 03-07 09:35 •322次阅读