戴维斯分校提出实时分割框架YOLACT突破速度边界-电子发烧友网

深度学习在计算机视觉领域取得了巨大成功，在分类、检测甚至跟踪任务上都有了巨大的进步，可以产生实时的高质量预测，但高速的实例分割的发展却落后于目标检测的进步。在目标检测领域，我们已经拥有了高效的SSD和YOLO，但实例分割领域对于模型表现更多的重视、使得网络的速度进展缓慢。

SSD和YOLO的加速主要通过移除Faster R-CNN这类网络的第二个阶段，通过单阶段来提升速度，并通过其他的手段来弥补精度的下降。但实例分割的难度远大于目标检测，这样的方法不能简单的拓展到实例分割中。先进的实例分割算法强烈依赖于特征的定位来预测mask，通过将特定区域的特征进行“池化”后输入到mask预测器中，这种串行的运行的方法难以加速。虽然也有像FCIS等单阶段的方法，但他们却需要较为复杂的后处理操作，难以保证实时性。

为了解决这个问题、提高实例分割的速度，研究人员提出了一种快速、单阶段的实例分割模型YOLACT，在单个Titan Xp上实现了30帧以上的实例分割速度，并在MS COCO上实现了约30mAP的表现。这种方法抛弃了先前方法中的定位步骤，将实例分割分为了两个并行的任务：一方面在整幅图像上生成一系列mask原型，另一方面为每个实例预测出一系列线性叠加系数。随后对于图中的每个实例，基于线性叠加系数对原型mask进行组合并利用预测框进行剪切实现最后的实例输出。在此过程中，网络学会了如何定位不同位置、颜色和语义实例的mask。

此外，由于mask原型的预测不依赖于类别的数量，这一模型学习到如何组合mask原型的表示可以被所用类别所共享。这种表示的学习使得原型空间可以表示图像中不同的位置、定位实例、检测边缘和编码位置敏感信息，并对这些结果进行有效组合。

YOLACT通过并行的计算架构和轻量化的组合过程加速了实例分割的过程，在单阶段检测基础网络上仅仅添加了少量的计算，使得它可以轻松达到30fps。

YOLACT预测的mask由于充分利用了图像空间的信息，不受特征池化的影响，对于大物体预测有着明显的提升。而这种基于mask原型和mask系数的思想可以移植到很多先进的目标检测架构上，实现快速精确的实例分割。

具体实现

先前的实例分割主要在提升精度上下功夫，Mask-RCNN是两阶段方法的代表，而单阶段的方法主要基于位置敏感图池化来实现实例分割，这些计算极大的限制了模型运行的速度。而目前的实时实例分割方法要么在精度上无法与先进的实例分割方法比拟，要么所面对的分割情形较为简单。

在这篇文章的工作中，研究人员通过在现有的单阶段目标检测网络上加上mask预测分支，但去除了精确的定位步骤（eg feature repooling）。在模型中一个分支利用FCN来产生一系列不依赖与实例的原型mask，第二个分支则是在目标检测模块后加上了预测mask系数的结构（每个 anchor），用于编码实例在原型空间中的表示。

研究人员首先利用FCN实现了对于原型mask的预测。在基础网络特征层后添加了输出为k通道的Protonet，它将生成k个独立的mask原型。为了保证生成原型mask的稳定，研究人员选用了基础网络中更深层的特征图，这还有益于提高原型mask的分辨率，对于提高mask的质量和小物体的效果有着重要的作用。

对于mask系数的预测，研究人员对现有的单阶段目标检测网络进行了改造，为每个anchor添加了k个预测，并利用tanh对k个系数进行操作提高稳定性。

最后对生成的mask原型和系数进行线性组合即可得到最终的mask。

值得一提的是，研究人员还在这一工作中实现了一种快速非极大值抑制方法Fast NMS，比传统的方法提高了11-16ms的速度。通过基于GPU实现的批量排序算法和IoU计算实现了加速，并利用矩阵运算和阈值找到每类需要保留的检测结果。最后，研究人员还使用了语义分割损失在训练中补偿FastNMS带来的下降（0.1-0.3mAP）,通过在基础网络P3上添加1*1卷积，和sigmoid激活实现了0.4mAP的提升。

下表显示了YOLACT在不同基础网络与输入图像尺寸上的表现，可以看到在保持较高mAP时实现了较快的速度。

FastNMS算法只会造成算法表现轻微的下降，但在速度上有较大的提升：

让我们再来围观一下网络的表现，对于重叠的物体表现依旧优异：

目前这一代码已经开源，可以在下面的地址中找到：code：https://github.com/dbolya/yolact它基于Pytorch 1.0.1实现，并依赖于一些额外的python包：

# Cython needs to be installed before pycocotoolspip install cython opencv-python pillow pycocotools matplotlib

直接将代码下载到本地即可开始调试：

git clone https://github.com/dbolya/yolact.gitcd yolact

现在就可以开始进行训练或者测试了，当然测试之前需要先下载coco数据集

# Train setsh data/scripts/COCO.sh# Test setsh data/scripts/COCO.sh

# Display qualitative results on the specified image.python eval.py --trained_model=weights/yolact_base_54_800000.pth --score_threshold=0.3 --top_k=100 --image=my_image.png# Display qualitative results on the specified image.python eval.py --trained_model=weights/yolact_base_54_800000.pth --score_threshold=0.3 --top_k=100 --image=input_image.png:output_image.png# Process a whole folder of images.python eval.py --trained_model=weights/yolact_base_54_800000.pth --score_threshold=0.3 --top_k=100 --images=path/to/input/folder:path/to/output/folder

愉快的开始分割吧！

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

图像

图像

+关注

关注
2

文章
1063

浏览量
40040
计算机视觉

计算机视觉

+关注

关注
8

文章
1600

浏览量
45613
深度学习

深度学习

+关注

关注
73

文章
5237

浏览量
119904

原文标题：实例分割太慢怎么破？戴维斯分校提出实时分割框架YOLACT突破速度边界

文章出处：【微信号：thejiangmen，微信公众号：将门创投】欢迎添加关注！文章转载请注明出处。

基于GAC模型实现交互式图像分割的改进算法

，不仅存在工作量大、效率低的问题，而且准确度和一致性也难以得到保证。在交互式图像分割方法研究中，如何提高自动化程度，尽量减少人工干与，一直是人们努力的方向。　　本文提出一种可为用户自动提供候选边界

发表于 09-19 09:19

一种基于音调的语音/音乐实时分类算法

【作者】：吴顺妹;许丽净;许洪光;张钦宇;【来源】：《电声技术》2010年02期【摘要】：语音/音乐的实时分类,在语音/音乐通用编码器中是尤其重要的。分析了语音和音乐的区别性特征,提出了一种利用音调

发表于 04-23 11:13

通过任务分割提高嵌入式系统的实时性

分析长任务对嵌入式系统实时性的影响，在此基础上提出任务分割是提高嵌入式系统实时性的一种有效途径；总结长任务分割的方法，给出一个通过任务

发表于 05-15 15:07 •4次下载

时分多路复用（TDM）,时分多路复用（TDM）是什么意思

时分多路复用（TDM）,时分多路复用（TDM）是什么意思这种方法是把传输信道按时间来分割，为每个用户指定一个时间间隔，每个间隔里传输信号

发表于 04-03 15:28 •5472次阅读

图像分割和图像边缘检测

　图像分割的研究多年来一直受到人们的高度重视，至今提出了各种类型的分割算法。Pal把图像分割算法分成了6类：阈值分割，像素

发表于 12-19 09:29 •1w次阅读

加州大学戴维斯分校利用RFID跟踪蜂鸟活动

由加州大学戴维斯分校兽医学院和该大学的疾病动力学中心进行的这项研究，并不是第一个使用RFID跟踪蜂鸟的研究，加州大学戴维斯分校兽医学院的兽医、蜂鸟健康和保护项目负责人Lisa Tell

发表于 02-11 14:01 •2089次阅读

如何进行面向农业应用的无人机遥感影像地块边界提取资料说明

针对无人机（UAV）影像农田场景地块边界提取过程中由于大幅面、高分辨率和地块尺寸大小不一致等带来的过分割问题，提出了一种基于多尺度分割的地块边界

发表于 03-28 16:21 •7次下载

FAIR何恺明、Ross等人最新提出实例分割的通用框架TensorMask

然而，尽管目前性能最好的对象检测器依赖于滑动窗口预测来生成初始候选区域，但获得更准确的预测主要来自对这些候选区域进行细化的阶段，如 Faster R-CNN 和 Mask R-CNN，分别用于边界框目标检测和实例分割。这类方法已经主导了 COCO 目标检测挑战赛。

发表于 04-08 12:00 •1.1w次阅读

算法 | 超Mask RCNN速度4倍,仅在单个GPU训练的实时实例分割算法

YOLACT——Real-time Instance Segmentation提出了一种简洁的实时实例分割全卷积模型，速度明显优于以往已有的

发表于 06-11 10:34 •6999次阅读

使用无人机进行农业边界提取的遥感影像说明

针对无人机（ UAV）影像农田场景地块边界提取过程中由于大幅面、高分辨率和地块尺寸大小不一致等带来的过分割问题，提出了一种基于多尺度分割的地块边界

发表于 10-24 16:18 •4次下载

如何使用无人机遥感影像地块边界提取应用在农业方面详细资料概述

针对无人机影像农田场景地块边界提取过程中由于大幅面、高分辨率和地块尺寸大小不一致等带来的过分割问题，提出了一种基于多尺度分割的地块边界自动化

发表于 07-13 17:09 •18次下载

详解ENet：CPU可以实时的道路分割网络

OpenCV DNN模块支持的图像语义分割网络FCN是基于VGG16作为基础网络，运行速度很慢，无法做到实时语义分割。2016年提出的ENe

发表于 12-15 00:18 •397次阅读

基于遥感数据的海岛边界快速分割模型

基于遥感数据的海岛边界快速分割模型

发表于 06-11 15:32 •4次下载

用于弱监督大规模点云语义分割的混合对比正则化框架

为了解决大规模点云语义分割中的巨大标记成本，我们提出了一种新的弱监督环境下的混合对比正则化（HybridCR）框架，该框架与全监督的框架相比

发表于 09-05 14:38 •1061次阅读

中科院提出FastSAM快速分割一切模型！比Meta原版提速50倍！

通过将分割⼀切任务重新划分为全实例分割和提⽰指导选择两个⼦任务，⽤带实例分割分⽀的常规 CNN 检测器以⾼出50倍的运⾏速度实现了与SAM⽅法相当的性能，是⾸个

发表于 06-28 14:33 •1208次阅读

搜索历史

戴维斯分校提出实时分割框架YOLACT突破速度边界

评论

基于GAC模型实现交互式图像分割的改进算法

一种基于音调的语音/音乐实时分类算法

通过任务分割提高嵌入式系统的实时性

时分多路复用（TDM）,时分多路复用（TDM）是什么意思

图像分割和图像边缘检测

加州大学戴维斯分校利用RFID跟踪蜂鸟活动

如何进行面向农业应用的无人机遥感影像地块边界提取资料说明

FAIR何恺明、Ross等人最新提出实例分割的通用框架TensorMask

算法 | 超Mask RCNN速度4倍,仅在单个GPU训练的实时实例分割算法

使用无人机进行农业边界提取的遥感影像说明

如何使用无人机遥感影像地块边界提取应用在农业方面详细资料概述

详解ENet：CPU可以实时的道路分割网络

基于遥感数据的海岛边界快速分割模型

用于弱监督大规模点云语义分割的混合对比正则化框架

中科院提出FastSAM快速分割一切模型！比Meta原版提速50倍！