0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NeurlPS'23开源 | 首个!开放词汇3D实例分割!

3D视觉工坊 来源:3D视觉工坊 2023-11-14 15:53 次阅读

0. 笔者个人体会

实例分割是CV领域很经典的任务,应用也非常广泛。但一个比较头疼的点是需要预定义类别,训练和测试都只能针对固定的类别。

最近,笔者阅读了一篇NeurlPS 2023开源的方案OpenMask3D,可以根据输入词汇直接分割模型,关键是输入的词汇非常任意,比如"印有花卉图案的扶手椅",可以很好得跟其他类别区分开。

今天笔者将为大家分享这项工作,当然笔者水平有限,如果有理解不当的地方欢迎大家一起讨论~

1. 效果展示

OpenMask3D声称是第一个开放词汇3D实例分割模型,也就是输入词汇,分割对应的3D实例。神奇的是它甚至可以识别颜色、几何、材料、位置、临近关系等语义信息。比如输入"脚凳"、"上面有一个花瓶的边桌""一个白色的枕头"、"放着花瓶的边桌"、"空垃圾桶",感觉深度学习越来越偏向人类的思维模式了。

6f70ad6a-828b-11ee-939d-92fbcf53809c.png

6f91d792-828b-11ee-939d-92fbcf53809c.png

代码已经开源了,感兴趣的小伙伴可以运行代码测试一下。下面来看具体的论文信息。

2. 摘要

我们介绍了开放词汇3D实例分割的任务。当前的3D实例分割方法通常只能从训练数据集中标注的预定义的封闭类集中识别对象类别。这给现实世界的应用程序带来了很大的限制,在现实世界的应用程序中,人们可能需要执行由与各种各样的对象相关的新颖、开放的词汇表查询所指导的任务。最近,开放词汇3D场景理解方法已经出现,通过学习场景中每个点的可查询特征来解决这个问题。虽然这种表示可以直接用于执行语义分割,但是现有的方法不能分离多个对象实例。在这项工作中,我们解决了这一限制,并提出了OpenMask3D,这是一个开放词汇三维实例分割的zero-shot方法。在预测的类别不可知的3D实例掩模的指导下,我们的模型通过基于剪辑的图像嵌入的多视图融合来聚集每个掩模的特征。在ScanNet200和Replica上的实验和消融研究表明,OpenMask3D优于其他开放词汇方法,尤其是在长尾分布上。定性实验进一步展示了OpenMask3D基于描述几何图形、启示和材料的自由形式查询来分割对象属性的能力。

3. 算法解析

OpenMask3D声称是第一个开放词汇的3D实例分割模型,其Pipeline由四个步骤组成:

1、输入带位姿的RGB-D和重建的点云;

2、对每个点云计算与类无关的实例Mask;

3、使用预训练的视觉-语言模型CLIP,对每个Mask计算一个特征表示。

4、计算开放词汇的三维实例分段表示,查询概念相关的对象。

6fae55b6-828b-11ee-939d-92fbcf53809c.png

类别无关的实例分割怎么做的?

这个方法的关键新颖之处,在于它遵循一个实例mask引导的策略,而现有方法是基于点引导的。具体流程是先使用预训练的3D实例分割模型进行预测,预测得到二进制mask以及对应的类别和置信度。OpenMask3D直接抛弃类别和置信度,将二进制mask送到下游计算mask-特征。

每个实例的Mask-特征怎么计算的?

对每个Mask,首先选择在RGB序列中可见性最好的k个视角。在每个视角内,由3D实例分割投影为2D分割,用SAM(分割一切)优化,再经过裁剪获得仅包括目标的多尺度mask图。之后使用CLIP编码器来获得2D Mask的图像embedding,这些图像级的embedding再根据k个视角聚合得到mask-特征的表征。

k个视角图像是如何计算的呢?

这里是计算的共视得分然后排序,用vis表示投影点云个数,其中第i个mask在第j帧图像的得分为:

6fc5136e-828b-11ee-939d-92fbcf53809c.png

直接投影不就得到2D分割了,为啥还要加SAM?

作者认为,直接投影的话目标轮廓非常不准,而且会产生很多噪声,因此使用了之前大火的分割一切模型来优化。这里也不是直接用SAM来分割,而是使用RANSAC采样点+SAM分割的方案,得到置信度最高的2D分割区域。

经过这一步,就将类别无关的实例mask转换为了语言特征,无论是使用文本查询还是图像查询都非常方便。

6fd192c4-828b-11ee-939d-92fbcf53809c.png

4. 实验结果

ScanNet200验证集上的定量对比,对比了全监督方案Mask3D,还有另一个开放词汇模型OpenScene。结果显示OpenMask3DAP指标达到最优,尤其是长尾类别,对全监督方案还是有很大差距,这个也能理解。

6fdd0a64-828b-11ee-939d-92fbcf53809c.png

ScanNet200验证集上的消融实验,对比top k视角选择(也分析k值多少合适)、2D Mask生成(是否使用SAM)、多尺度裁剪对性能的影响。

6ffc60b2-828b-11ee-939d-92fbcf53809c.png

下面这个实验很有意思,之前的3D实例分割是使用预训练模型生成的,现在作者测试了直接使用3D实例分割真值的效果,后面的流程都一样。结果显示,使用真值后,在长尾类上的精度甚至超越了全监督方案Mask3D 9.1% AP。

701542b2-828b-11ee-939d-92fbcf53809c.png

定性结果,测试开放词汇3D实例分割性能。借助zero-shot性能,OpenMask3D能够分割"一个绿色的座位"、"印有花卉图案的扶手椅"、"上面没有衣服的床"、"壁纸前的沙发"这样很特殊的目标。而且OpenMask3D还可以识别颜色、纹理、情境、背景等对象属性,这个非常新奇。

7028b798-828b-11ee-939d-92fbcf53809c.png

OpenMask3D和OpenScene的定性比对比,由于OpenMask3D计算的是embedding和每个对象实例的每个mask特征向量之间的相似性,所以会产生更好的分割边界。这里也推荐「3D视觉工坊」新课程《彻底搞懂基于Open3D的点云处理教程!》。

704c7ef8-828b-11ee-939d-92fbcf53809c.png

5. 总结

感觉大模型在场景理解上越来越偏向人类的思维方式了,以前的实例分割只能检测预定义的类别,现在居然可以分割"印有花卉图案的扶手椅"这样的实例,不得不感叹AI的发展速度。OpenMask3D声称是第一个开放词汇的3D实例分割模型,给定任意文本就可以查询3D目标,甚至可以识别几何信息、材料、颜色、位置关系这种语义信息,关键还是zero-shot的。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    2756

    浏览量

    106455
  • AI
    AI
    +关注

    关注

    87

    文章

    26455

    浏览量

    264070
  • 大模型
    +关注

    关注

    2

    文章

    1527

    浏览量

    1116

原文标题:NeurlPS'23开源 | 首个!开放词汇3D实例分割!

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    开放原子开源大赛—基于OpenHarmony的团结引擎应用开发赛正式启动!

    创造出精彩的游戏与3D应用。 大赛分为“创新游戏”与“创新3D 化应用”两大赛道,每个赛道又分“大众组”与“高校组”,无论你是游戏开发者还是应用创意者,都可以在这里找到属于你的竞技平台! 本次大赛面向
    发表于 03-13 10:45

    powerpoint(PPT)课件制作实例:如何制作3D效果

    powerpoint(PPT)课件制作实例:如何制作3D效果想制作简单的3D课件,却对专业的3D软件望而生畏?不必苦恼,用powerpoint也可解燃眉之急。只要巧妙利用它的三维设置功
    发表于 12-04 03:07

    【原创&整理】Altium 常用3D设计封装库

    本帖最后由 first-tech 于 2013-4-3 23:28 编辑 Altium designer 3D设计应用越来越广,应网友要求,在此发布常用的3D设计封装库,欢迎大家
    发表于 04-03 15:28

    为什么没人用stm32做3d打印机

    3d打印机发展了怎么久都开源了为什么这么多人选择了arduino做3d打印机 而不选择stm32做3d打印机呢arduino做3d打印机的优
    发表于 09-15 17:49

    友善3D打印外壳资料

    `友善3D打印外壳资料网站,为玩家提供开源的外壳资料http://www.thingiverse.com/FriendlyARM3DPrinter/designs`
    发表于 10-25 13:58

    为什么说FPGA主导了3D视频处理市场?

    和Neytiri对世界美好的愿望和共同的追求,使双方互相看到了地球人和纳威人之间不可分割的联系,而观众则通过先进的3D视频处理技术,观赏到了3D电影的逼真效果,感受到这部电影带来的震撼。那么有谁知道,为什么说FPGA主导了
    发表于 08-06 08:26

    国内唯一开源基金会“开放原子开源基金会“正式成立!

    昨日,中国首个开源软件的基金会“开放原子开源基金会”,官方对外宣布已正式成立。据悉,开放原子开源
    发表于 09-10 17:24

    3D制图软件中多体设计的使用技巧

    、STEPS分割单体在3D设计过程中,我们总会遇到需要对零部件进行局部处理的情况。以往使用传统的3D制图软件进行局部处理时,免不了会影响模型整体的设计,给设计工作带来困扰,而通过浩辰3D
    发表于 02-04 17:18

    浩辰3D的「3D打印」你会用吗?3D打印教程

    3D打印技术是综合了三维数字技术、控制技术、信息技术众多技术的创新研发技术,具有设计样式多元化、试制成本低、制作材料丰富等特点。通过数字化设计工具+3D打印技术相结的模式,可以帮助企业高效实现创新
    发表于 05-27 19:05

    分享一些开源3D打印创新

    嵌入式顶级程序员 开源继续推动3D打印行业的快速创新。 如果您停下来想一想,这很有道理-存在3D打印机可以做其他事情。 将这一理念与免费软件和开源硬件相结合,可以帮助其他人参与改进其制
    发表于 12-21 07:27

    首个无监督3D点云物体实例分割算法

    本文旨在寻求一种无监督的3D物体分割方法。我们发现,运动信息有望帮助我们实现这一目标。如下图1所示,在左图中的蓝色/橙色圆圈内,一辆汽车上的所有点一起向前运动,而场景中其他的点则保持静止。那么理论上,我们可以基于每个点的运动,将场景中属于汽车的点和其他点
    的头像 发表于 11-09 15:15 1639次阅读

    CVPR 2023 | 华科&MSRA新作:基于CLIP的轻量级开放词汇语义分割架构

    本文提出了 SAN 框架,用于开放词汇语义分割。该框架成功地利用了冻结的 CLIP 模型的特征以及端到端的流程,并最大化地采用冻结的 CLIP 模型。 简介 本文介绍了一种名为Side
    的头像 发表于 07-10 10:05 591次阅读
    CVPR 2023 | 华科&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;MSRA新作:基于CLIP的轻量级<b class='flag-5'>开放</b><b class='flag-5'>词汇</b>语义<b class='flag-5'>分割</b>架构

    NeurlPS&;apos;23开源 | 大规模室外NeRF也可以实时渲染

    神经辐射场 (NeRF)是一种新颖的隐式三维重建方法,显示出巨大的潜力,受到越来越多的关注。它能够仅从一组照片中重建3D场景。然而,它的实时渲染能力,尤其是对于大规模场景的交互式实时渲染,仍然具有显著的局限性。
    的头像 发表于 11-08 16:41 609次阅读
    <b class='flag-5'>NeurlPS&</b>;<b class='flag-5'>apos</b>;<b class='flag-5'>23</b><b class='flag-5'>开源</b> | 大规模室外NeRF也可以实时渲染

    基于深度学习的3D点云实例分割方法

    3D实例分割(3DIS)是3D领域深度学习的核心问题。给定由点云表示的 3D 场景,我们寻求为每个点分配语义类和唯一的
    发表于 11-13 10:34 612次阅读
    基于深度学习的<b class='flag-5'>3D</b>点云<b class='flag-5'>实例</b><b class='flag-5'>分割</b>方法

    三项SOTA!MasQCLIP:开放词汇通用图像分割新网络

    MasQCLIP在开放词汇实例分割、语义分割和全景分割三项任务上均实现了SOTA,涨点非常明显。
    的头像 发表于 12-12 11:23 280次阅读
    三项SOTA!MasQCLIP:<b class='flag-5'>开放</b><b class='flag-5'>词汇</b>通用图像<b class='flag-5'>分割</b>新网络