未来实例分割中更具挑战性的一个问题将单个对象进行细分-电子发烧友网

近日，Yann LeCun 等人发表了一篇针对未来实例分割预测的论文。该论文提出了一种预测模型，可通过预测卷积特征来对未来实例分割进行预测。该算法有以下几大优势：

可以处理模型输出大小不固定的情况，如对象检测和实例分割；

不需要使用带有标记的视频序列进行训练，可以直接从未标记的数据中计算出中间的 CNN 特征映射图；

支持可生成多个场景解释的模型，如曲面法线、对象边界框和人体部分标签，而不需要针对这些任务设计合适的编码器和损失函数。

▌简介

预测未来事件是实现智能行为的一个重要的先决条件，而视频预测就是其中一项任务。最近的研究表明，在对未来帧进行语义分割时，在语义层面上的预测，比先预测 RGB 帧，然后将其分段更加有效。本文考虑了未来实例分割中更具挑战性的一个问题——将单个对象进行细分。为了处理各图像中不同数量的输出标签，我们在 Mask R-CNN 实例分割模型的固定尺寸卷积特征空间中开发了一个预测模型。

我们将 Mask R-CNN 框架的“探测头（detection head）”应用于预测特征，以产生未来帧的实例分割。实验表明，与基于光流（optical flow）的基线相比，该算法在性能上有显著提升。

图 1：预测未来 0.5 秒。光流基线（a）和本文算法（b）的实例分割比较。来自文献 [8] 的算法（c）和本文的实例语义分割算法（d）的语义分割比较。实例建模显着提高了单个行人的分割精度。

我们的贡献如下：

引入未来实例预测这一新任务，在语义上比之前研究的预期识别任务更为丰富。

基于预测未来帧的高维卷积神经网络特征的自监督算法，支持多种预期识别任务。

实验结果表明我们的特征学习算法相对于强光流基线有所改进。

预测未来实例分割的特征

本节简要回顾了 Mask R-CNN 框架实例分割框架，然后介绍了如何通过预测未来帧的内部 CNN 特征，将该框架用于预期识别（anticipated recognition）。

使用 Mask R-CNN 进行实例分割

Mask R-CNN 模型主要由三个主要阶段组成。首先，使用一个 CNN 主干框架结构提取高层特征映射图。其次，候选区域生成网络（RPN）利用这些特征以包含实例边界框坐标的形式产生兴趣区域（ROI）。候选边界框用作兴趣区域层的输入，通过在每个边界框中插入高级特征，为每个边界框获取固定大小的表示（不管大小）。将每个兴趣区域的特征输入到检测分支，并产生精确的边界框坐标、类别预测以及用于预测类别的固定二进制掩码。最后，在预测的边界框内将掩码插入到图像分辨率中，并报告为预测类的一个实例分割。

图2 ：左，自上而下的特征采样结合相同分辨率吧的自下而上的特征，从而获得的 FPN（feature pyramid network）算法主干框架中的特征。右，为了得到未来实例分割，我们从 t-τ 到 t 帧提取 FPN 特征，并预测 t + 1 帧的 FPN 特征。

预测卷积特征

对处于不同 FPN 层级的特征进行训练，并将其作为共享“探测头（detection head）”的输入。然而，由于分辨率在不同层级上会发生改变，每层上的“空间-时间”动态特性也会不同。因此，我们提出了一种多尺度算法，对每一级采用单独的网络进行预测。每级网络都经过训练，彼此完全独立地工作。对于每一级，我们关注的是特征维度输入序列的特征。

实验评估

我们使用的是 Cityscapes 数据集，数据来自于汽车在驾驶过程中录制的城市环境视频，每个视频片段时长 1.8 秒，一共分为 2,975 个训练集，500 个验证集和 1,525 个测试集。

我们使用在 MS-COCO 数据集上预先训练好的的 Mask R-CNN 模型，并在 Cityscapes 数据集上以端到端的形式对其进行微调。

未来实例分割：表1为未来特征预测算法（F2F）的实例分割结果，并将其与 Oracle、Copy 和光流基线的性能做比较。由表可知，F2F 算法效果最好，比最佳的中期基线提高了 74％以上。

表1：Cityscapes val.数据集上实例分割的精确度

未来语义分割：我们发现，F2F 算法在 IoU 方面比所有的短期分割方法都有明显的改进，以61.2 %的成绩排名第一。

表2：不同算法在 Cityscapes val. 数据集上的移动对象（ 8 类）短期和中期语义分割表现。

图4显示，与 Warp 基线相比， F2F 算法能够与对象的实际布局更好地对齐，这表明该算法已经学会了对场景和对象的动态建模，且效果比基线好。如预期所示，预测的掩码也比那些 S2S 算法更加精确。

图4：对三个序列的中期预测(未来 0.5 秒)。

通过图5展示的示例，我们可以更好地理解，为什么在语义分割度量标准方面，F2F 和 Warp 基线之间的差异比实例分割度量标准要小很多。

图5：用 Warp 基线和 F2F 模型获得的中期预测的实例和语义分割。不准确的实例分割会导致精确的语义分割区域，请看图中的橙色矩形高光部分。

失败案例讨论

在图6(a) 的第一个例子中，由于前面的所有模型认为白色轿车完全被另一辆车遮挡，因此没有检测到。这是不可避免的一种情况，除非对象在较早的帧中可见，在这种情况下，长期记忆机制可能会避免不必要的错误。

在图 6(b) 中，卡车和行人的预测掩码在形状和位置上都不连贯。用明确建模遮挡机制或许可以获得更一致的预测。

最后，由于对象本身比较模糊，某些运动和形状转换很难得到准确的预测，如图 6(c)中的行人的腿部，对于这种情况，确切的姿势存在高度的不确定性。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码器

编码器

+关注

关注
41

文章
3355

浏览量
131421
图像

图像

+关注

关注
2

文章
1063

浏览量
40028
人工智能

人工智能

+关注

关注
1775

文章
43688

浏览量
230472

原文标题：Yann LeCun等最新研究：如何对未来实例分割进行预测？

文章出处：【微信号：AI_Thinker，微信公众号：人工智能头条】欢迎添加关注！文章转载请注明出处。

基于GAC模型实现交互式图像分割的改进算法

些，也就是说，不要集中在一个局部取点，所选点之间应该有一定的几何距离。这可以通过简单的删选程序实现。3.3 对多个对象进行图像

发表于 09-19 09:19

如何选择LTE系统测试方法，存在哪些挑战？

TD-LTE、FDD-LTE和LTE-Advanced(LTE-A)无线技术使用了几种不同的多种输入多路输出(MIMO)技术。鉴于MIMO系统的复杂性正在日益提高，因此相关的测试方法也将更具挑

发表于 02-28 11:18

AMIC110 SoC助力工业通信

开发可用于多个不同网络的解决方案更具挑战性。一个解决方案是拥有一个可针对不同协议

发表于 07-15 08:13

是否有可能进行设计细分?

嗨，我想问一下是否有可能进行设计细分。我有一个平面设计，所有实例都已修复，我想将设计

发表于 04-21 10:06

JavaScript 【2】对象

;white"};在以上实例中，3 个值 ("Fiat", 500, "white") 赋予变量 car。 JavaScript 对象是变量的容器。

发表于 07-17 10:33

中国人工智能的现状与未来

中国人工智能的现状与未来，人工智能是目前最火热的技术领域，也是一门极富挑战性的科学，从事这项工作的人必须懂得计算机知识，数学、心理学，甚至哲学。人工智能是包括十分广泛的科学，它由不同的领域组成，如

发表于 07-27 06:40

设计了一个定制形状的圣诞树

描述圣诞树我们设计了一个定制形状的 PCB，并将其发送到 PCBWAY 进行制造。它是从美国俄亥俄州到中国的往返行程，8 天后返回。为了制作我们的自定义形状，我们将绘图导入 PCB 设

发表于 08-02 07:58

什么是对象存储？

与传统的文件存储不同，对象存储将数据存储为单个对象，每个对象具有唯一标识符（Object ID）

发表于 03-10 14:42

如何使用Wemos D1 mini制作一款简单但具有挑战性的游戏？

我使用 Wemos D1 mini 制作了一款简单但具有挑战性的游戏。我尽量使说明尽可能详细，但如果您对此有任何疑问，请告诉我。您所要做的就是将魔杖从电线的一端拿到另

发表于 05-23 06:14

KiCad中如何分割平面？

”、“负片”之分。如果需要创建一个完整的电源平面或者分割电源平面，都必须以“敷铜”的方式进行。注意，在某些EDA工具中(比如Altium

发表于 06-26 11:50

基于视频对象的区域分割及其应用

为适应MPEG-4 基于对象的应用，提出一种基于视频对象的区域分割算法。在视频对象的指导下，利用均值漂移进行

发表于 10-04 14:06 •12次下载

深度学习在视频对象分割中的应用及相关研究

了视频对象分割的主要任务，并总结了该任务所面临的挑战。其次，对开放的视频对象分割常用数据集进行了

发表于 03-24 15:47 •9次下载

什么是图像实例分割？常见的图像实例分割有哪几种？

图像实例分割是在对象检测的基础上进一步细化，分离对象的前景与背景，实现像素级别的对象分离。

发表于 06-17 11:15 •2.4w次阅读

深度学习部分监督的实例分割环境

实例分割的任务是将图像中的像素分组为单个事物的实例，并用类标签（可计数的对象，如人、动物、汽车等，并为每个

发表于 10-21 14:05 •1617次阅读

每日一课 | 在智慧灯杆视觉技术中的实例分割技术简介

3.2.5实例分割图3-9所示为实例分割示意图。图3-9实例分割

发表于 03-08 09:19 •248次阅读

搜索历史

未来实例分割中更具挑战性的一个问题将单个对象进行细分

评论

基于GAC模型实现交互式图像分割的改进算法

如何选择LTE系统测试方法，存在哪些挑战？

AMIC110 SoC助力工业通信

是否有可能进行设计细分?

JavaScript 【2】对象

中国人工智能的现状与未来

设计了一个定制形状的圣诞树

什么是对象存储？

如何使用Wemos D1 mini制作一款简单但具有挑战性的游戏？

KiCad中如何分割平面？

基于视频对象的区域分割及其应用

深度学习在视频对象分割中的应用及相关研究

什么是图像实例分割？常见的图像实例分割有哪几种？

深度学习部分监督的实例分割环境

每日一课 | 在智慧灯杆视觉技术中的实例分割技术简介

搜索历史

未来实例分割中更具挑战性的一个问题 将单个对象进行细分

评论

未来实例分割中更具挑战性的一个问题将单个对象进行细分