NeurlPS'23开源 | 首个！开放词汇3D实例分割！-电子发烧友网

0. 笔者个人体会

实例分割是CV领域很经典的任务，应用也非常广泛。但一个比较头疼的点是需要预定义类别，训练和测试都只能针对固定的类别。

最近，笔者阅读了一篇NeurlPS 2023开源的方案OpenMask3D，可以根据输入词汇直接分割模型，关键是输入的词汇非常任意，比如"印有花卉图案的扶手椅"，可以很好得跟其他类别区分开。

今天笔者将为大家分享这项工作，当然笔者水平有限，如果有理解不当的地方欢迎大家一起讨论~

1. 效果展示

OpenMask3D声称是第一个开放词汇3D实例分割模型，也就是输入词汇，分割对应的3D实例。神奇的是它甚至可以识别颜色、几何、材料、位置、临近关系等语义信息。比如输入"脚凳"、"上面有一个花瓶的边桌""一个白色的枕头"、"放着花瓶的边桌"、"空垃圾桶"，感觉深度学习越来越偏向人类的思维模式了。

代码已经开源了，感兴趣的小伙伴可以运行代码测试一下。下面来看具体的论文信息。

2. 摘要

我们介绍了开放词汇3D实例分割的任务。当前的3D实例分割方法通常只能从训练数据集中标注的预定义的封闭类集中识别对象类别。这给现实世界的应用程序带来了很大的限制，在现实世界的应用程序中，人们可能需要执行由与各种各样的对象相关的新颖、开放的词汇表查询所指导的任务。最近，开放词汇3D场景理解方法已经出现，通过学习场景中每个点的可查询特征来解决这个问题。虽然这种表示可以直接用于执行语义分割，但是现有的方法不能分离多个对象实例。在这项工作中，我们解决了这一限制，并提出了OpenMask3D，这是一个开放词汇三维实例分割的zero-shot方法。在预测的类别不可知的3D实例掩模的指导下，我们的模型通过基于剪辑的图像嵌入的多视图融合来聚集每个掩模的特征。在ScanNet200和Replica上的实验和消融研究表明，OpenMask3D优于其他开放词汇方法，尤其是在长尾分布上。定性实验进一步展示了OpenMask3D基于描述几何图形、启示和材料的自由形式查询来分割对象属性的能力。

3. 算法解析

OpenMask3D声称是第一个开放词汇的3D实例分割模型，其Pipeline由四个步骤组成：

1、输入带位姿的RGB-D和重建的点云；

2、对每个点云计算与类无关的实例Mask；

3、使用预训练的视觉-语言模型CLIP，对每个Mask计算一个特征表示。

4、计算开放词汇的三维实例分段表示，查询概念相关的对象。

类别无关的实例分割怎么做的？

这个方法的关键新颖之处，在于它遵循一个实例mask引导的策略，而现有方法是基于点引导的。具体流程是先使用预训练的3D实例分割模型进行预测，预测得到二进制mask以及对应的类别和置信度。OpenMask3D直接抛弃类别和置信度，将二进制mask送到下游计算mask-特征。

每个实例的Mask-特征怎么计算的？

对每个Mask，首先选择在RGB序列中可见性最好的k个视角。在每个视角内，由3D实例分割投影为2D分割，用SAM（分割一切）优化，再经过裁剪获得仅包括目标的多尺度mask图。之后使用CLIP编码器来获得2D Mask的图像embedding，这些图像级的embedding再根据k个视角聚合得到mask-特征的表征。

k个视角图像是如何计算的呢？

这里是计算的共视得分然后排序，用vis表示投影点云个数，其中第i个mask在第j帧图像的得分为：

直接投影不就得到2D分割了，为啥还要加SAM？

作者认为，直接投影的话目标轮廓非常不准，而且会产生很多噪声，因此使用了之前大火的分割一切模型来优化。这里也不是直接用SAM来分割，而是使用RANSAC采样点+SAM分割的方案，得到置信度最高的2D分割区域。

经过这一步，就将类别无关的实例mask转换为了语言特征，无论是使用文本查询还是图像查询都非常方便。

4. 实验结果

ScanNet200验证集上的定量对比，对比了全监督方案Mask3D，还有另一个开放词汇模型OpenScene。结果显示OpenMask3DAP指标达到最优，尤其是长尾类别，对全监督方案还是有很大差距，这个也能理解。

ScanNet200验证集上的消融实验，对比top k视角选择（也分析k值多少合适）、2D Mask生成（是否使用SAM）、多尺度裁剪对性能的影响。

下面这个实验很有意思，之前的3D实例分割是使用预训练模型生成的，现在作者测试了直接使用3D实例分割真值的效果，后面的流程都一样。结果显示，使用真值后，在长尾类上的精度甚至超越了全监督方案Mask3D 9.1% AP。

定性结果，测试开放词汇3D实例分割性能。借助zero-shot性能，OpenMask3D能够分割"一个绿色的座位"、"印有花卉图案的扶手椅"、"上面没有衣服的床"、"壁纸前的沙发"这样很特殊的目标。而且OpenMask3D还可以识别颜色、纹理、情境、背景等对象属性，这个非常新奇。

OpenMask3D和OpenScene的定性比对比，由于OpenMask3D计算的是embedding和每个对象实例的每个mask特征向量之间的相似性，所以会产生更好的分割边界。这里也推荐「3D视觉工坊」新课程《彻底搞懂基于Open3D的点云处理教程！》。

5. 总结

感觉大模型在场景理解上越来越偏向人类的思维方式了，以前的实例分割只能检测预定义的类别，现在居然可以分割"印有花卉图案的扶手椅"这样的实例，不得不感叹AI的发展速度。OpenMask3D声称是第一个开放词汇的3D实例分割模型，给定任意文本就可以查询3D目标，甚至可以识别几何信息、材料、颜色、位置关系这种语义信息，关键还是zero-shot的。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉