0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深入解析SAMPro3D的三维场景零样本分割技术

jf_pmFSk4VX 来源:GiantPandaCV 2024-01-26 14:31 次阅读

2. 引言

这篇论文提出了一种创新的3D室内场景分割方法,这在增强现实、机器人技术等领域是一个关键的任务。该任务的核心是从多种3D场景表现形式(如网格或点云)中预测3D物体掩膜。历史上,传统方法在分割训练过程中未遇到的新物体类别时常常遇到困难,这限制了它们在陌生环境中的有效性。

最近的进展,如Segment Anything Model(SAM),在2D图像分割方面显示出潜力,能够在无需额外训练的情况下分割陌生的图像。本文探讨了将SAM原理应用于3D场景分割的可能性,具体研究了是否可以直接将SAM应用于2D帧,以分割3D场景,而无需额外训练。这一探索基于SAM的一个独特特点:它的提示功能,即它接受各种输入类型来指定图像中的分割目标。

作者指出了一个关键挑战:确保同一3D物体在不同帧中的2D分割的一致性。他们观察到,像SAM3D这样的现有方法,它将自动化SAM应用于单个帧,但在不同帧中存在不一致性,导致3D分割效果不佳。另一种方法,SAM-PT,在视频跟踪中效果显著,但在3D场景中失败,因为物体并非始终出现在所有帧中。

为了应对这些挑战,论文提出了一个名为SAMPro3D的新框架,该框架在输入场景中定位3D点作为SAM提示。这些3D提示被投影到2D帧上,确保了跨帧一致的像素提示和相应的掩膜。这种方法确保了同一3D物体在不同视角下的分割掩膜的一致性。

SAMPro3D首先初始化3D提示,使用SAM在各个帧中生成相应的2D掩膜。然后,它根据所有帧中相应掩膜的质量过滤3D提示,优先选择在所有视图中都能产生高质量结果的提示。为了解决部分物体分割的问题,该框架合并了重叠的3D提示,整合信息以实现更全面的分割。SAMPro3D累积跨帧的预测结果,以得出最终的3D分割。值得注意的是,该方法不需要额外的领域特定训练或3D预训练网络,这保持了SAM的零样本能力,是之前方法所不具备的显著优势。

该论文通过广泛的实验验证了SAMPro3D的有效性,展示了它在实现高质量和多样化分割方面的能力,通常甚至超过了人类级别的标注和现有方法。此外,它还展示了在2D分割模型(如HQ-SAM和Mobile-SAM)中的改进可以有效地转化为改进的3D结果。这篇论文为3D室内场景分割引入了一种开创性的方法,巧妙地利用了2D图像分割模型的能力,并将其创新地应用于3D领域。结果是一种强大的、零样本的分割方法,显著推进了3D视觉理解领域的最新发展。

3. 方法

78209588-bb7a-11ee-8b88-92fbcf53809c.png

本文提出的方法名为SAMPro3D,旨在直接应用Segment Anything Model (SAM) 对室内场景的3D点云及其关联的2D帧进行零样本3D场景分割。

3D Prompt Proposal

首先,针对一个3D场景的点云 ,包含 个点,我们使用最远点采样(Furthest-Point Sampling, FPS)从中采样 个点作为初始3D提示 。FPS帮助我们实现了场景中物体的良好覆盖。简化地,我们用 和 分别表示单个输入点和一个3D提示。

接着,我们仅考虑针孔相机配置。具体来说,给定帧 的相机内参矩阵 和世界到相机的外参矩阵 ,我们通过以下公式计算点提示 的对应像素投影 :

其中, 和 分别是 和 的齐次坐标。我们通过深度值执行遮挡测试,以确保当且仅当点 在帧 中可见时,像素 才有效。

然后,在图像帧上执行SAM分割。SAM能接受像素坐标、边界框或掩膜等多种输入,并预测与每个提示相关的分割区域。在我们的框架中,我们将所有计算出的像素坐标用于提示SAM,并在所有帧上获取2D分割掩膜。通过在3D空间中定位提示,源自不同帧但由同一3D提示投影的像素提示将在3D空间中对齐,从而带来帧间一致性。

2D-Guided Prompt Filter

784d69fa-bb7a-11ee-8b88-92fbcf53809c.png

在之前的提示初始化过程中,某些提示可能会生成低质量且冗余的掩膜,这将降低最终结果的质量。为解决这个问题,我们引入了一个机制来“收集所有帧的反馈”。我们首先采用自动化SAM提出的策略在每个单独的帧上过滤提示。基本上,这种策略会消除那些对应掩膜置信度低或与其他掩膜重叠度大的提示。如果一个3D提示 在某帧中有有效的像素投影 ,则它的计数器 会增加。如果该提示在该帧的过滤阶段成功存活,则它的得分 会累积。在评估所有帧后,我们计算保留一个3D提示的概率 ,并在其概率超过预定义阈值 时保留该提示。这个算法使我们能够通过考虑所有2D视图的反馈来"让所有帧都满意"。它优先选择高质量的提示,同时在帧间保持提示的一致性,最终提升3D分割结果。

Prompt Consolidation

有时,由单个3D提示对齐的2D掩膜可能只分割了对象的一部分,因为2D帧的覆盖范围有限。为解决这个问题,我们设计了一个提示合并策略。该策略涉及检查不同3D提示生成的掩膜,并识别它们之间的一定重叠。在这种情况下,我们认为这些提示可能正在分割同一个对象,并将它们合并为单个伪提示。这个过程促进了提示间信息的整合,导致更全面的对象分割。

3D Scene Segmentation

在前面的步骤之后,我们获得了最终的3D提示集合及其在帧间的2D分割掩膜。此外,我们还确保了每个3D对象由单个提示分割,允许提示ID自然地作为对象ID。

为了分割3D场景中的所有点,我们继续将 extit{所有}场景输入点投影到每个分割帧上,并使用以下步骤计算它们的预测:对于场景中的每个单独输入点 ,如果它被投影到帧 中由提示 分割的掩膜区域内,我们将其在该帧中的预测指定为提示ID 。我们累积 在所有帧中的预测,并根据最多次分配给它的提示ID确定其最终预测ID。通过对所有输入点重复此过程,我们可以实现输入场景的完整3D分割。

4. 实验

786c94e2-bb7a-11ee-8b88-92fbcf53809c.png

从这个表格中提供的实验数据中,我们可以得出一些结论关于3D室内场景分割性能。这些数据基于ScanNet200数据集的标注,评价指标是mIoU(mean Intersection over Union),一个常用的衡量图像分割效果的指标。

与其他方法的比较:在mIoU 和mIoU 这两个指标上,我们的方法与其他两个主要对比方法Mask3D和SAM3D相比,表现更优。特别是在mIoU 上,我们的方法达到了82.60%,高于Mask3D的79.03%和SAM3D的74.82%。

过滤和合并提示的重要性:不使用2D引导的提示过滤(w/o Fil.)和不使用提示合并(w/o Con.)的情况下,性能有所下降,这表明这两个步骤对于最终的分割效果是重要的。

提示数量的影响:在不同数量的提示下(即 ),我们的方法表现出相对稳定的性能,其中使用时性能最佳。

投票机制的影响:在提示过滤时使用的两种不同投票机制(soft和top-k)中,soft策略略优于top-k策略,尤其是在mIoU 指标上。

增强SAM的作用:引入HQ-SAM(+HQ.)和Mobile-SAM(+Mob.)后,可以观察到性能提升,尤其是HQ-SAM,它在mIoU 指标上达到了83.19%,显示了进一步优化SAM模型在3D室内场景分割中的潜力。

这些实验结果表明,本文提出的方法在3D室内场景分割任务上具有强大的性能,尤其是在采用2D引导的提示过滤和提示合并策略,以及进一步增强SAM模型时。此外,这些结果还揭示了不同提示数量和投票机制对性能的影响,以及优化3D提示的潜力。

5. 讨论

788905aa-bb7a-11ee-8b88-92fbcf53809c.png

这篇论文在3D室内场景分割领域提出了一种创新的方法,展示了显著的性能提升,尤其是在处理具有挑战性的零样本场景时。其主要优势在于有效地利用了Segment Anything Model(SAM),通过一系列精心设计的步骤,如3D提示提议、2D引导的提示过滤和提示合并策略,来改善3D场景的分割效果。这种方法充分利用了SAM在2D图像分割领域的强大能力,并巧妙地将其扩展到3D场景,显示了跨领域应用的巨大潜力。

特别是,该方法通过3D提示的初始化和精确过滤,确保了3D分割的精度和一致性。此外,通过集成HQ-SAM和Mobile-SAM,该方法进一步提升了其性能,显示了在不断发展的深度学习领域中,通过集成新技术以适应更复杂应用场景的重要性。

然而,该方法也存在一些潜在的限制。首先,尽管实验结果表明该方法在多个指标上表现出色,但它依赖于SAM模型,这可能限制了其在没有大规模预训练数据时的适用性。此外,3D提示的初始化和过滤策略虽然有效,但可能需要显著的计算资源,尤其是在处理大规模或复杂的3D场景时。此外,该方法的泛化能力尚需在更多不同类型的3D场景中进行测试和验证。

综上所述,尽管这篇论文在3D室内场景分割方面取得了显著进展,但其依赖于特定的深度学习模型和可能需要较高计算资源的处理流程,这些因素可能会影响其在实际应用中的广泛可行性。

6. 结论

78a95b8e-bb7a-11ee-8b88-92fbcf53809c.png

总的来说,这篇论文提出了一种创新且有效的方法,用于提升3D室内场景分割的准确度和效率。其通过集成先进的2D图像分割模型并将其扩展到3D领域,展示了显著的性能提升。尽管存在一些潜在的限制,如对预训练数据的依赖和高计算资源需求,但这项工作无疑为3D视觉理解领域带来了新的见解和方法。

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    206

    文章

    27064

    浏览量

    201453
  • 图像分割
    +关注

    关注

    4

    文章

    173

    浏览量

    17864
  • 增强现实
    +关注

    关注

    1

    文章

    664

    浏览量

    44731

原文标题:三维场景零样本分割新突破:SAMPro3D技术解读

文章出处:【微信号:GiantPandaCV,微信公众号:GiantPandaCV】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    三维逆向工程的成果及应用案例

    扫描仪精细的对三维数据的采集和严谨认真的内业三维数据处理(工程用到了Geomagic、3Dmax、Mudbox、Zbrush等专业的3D模型动画制作软件),完成了巩义石窟的
    发表于 03-02 15:12

    三维触控技术突破“二向箔”的束缚

    》中被二向箔击中的文明一。很自然地,我们会想到:既然人类生活在三维的空间里,为什么用户与设备的交互只能是在二空间里呢?有没有可能实现三维的交互方法呢?要实现
    发表于 12-19 15:53

    如何快速高效的完成汽车前盖板的三维检测?

    软件参数实时提高选定区域的扫描点间距,保证细节,同时也提高了效率。配合原始3D图纸通过3D比较精准快速获取偏差注释图,数据保存直观方便。2.所需设备及型号 手持式激光三维扫描仪HSCAN3313.
    发表于 08-11 14:16

    三维检测汽车件 帮助汽车性能达标

    三维检测汽车件 帮助汽车性能达标行业现状汽车件在流水线生产出来后,距离汽车整车还有一大步——装配。件的装配不是简单的把两块积木搭在一起。无论是把
    发表于 08-21 10:48

    三维快速建模技术三维扫描建模的应用

    相关处理,构建其三维模型和对模型进行纹路映射,最终完成物体的三维模型构建。该三维扫描建模流程方法对复杂物件的三维建模可取得较好的效果。 同时,三维
    发表于 08-07 11:14

    整车三维扫描及其部件三维扫描解决方案

    `整车三维扫描及其部件三维扫描解决方案中科院广州电子在汽车整车三维扫描和汽车部件三维扫描方面
    发表于 08-21 10:17

    电厂三维安全定位系统迎考察获盛赞

    `河北云酷科技有限公司为神***能天津大港电厂量身打造的基于三维安全管控平台的人员定位系统,利用虚拟三维技术、UWB技术、物联网技术,将复杂
    发表于 10-12 09:55

    三维设计应用案例

    三维CAD的使用,不仅能提高设计质量,还能缩短设计周期,创作良好的经济效益和社会效益。所以,越来越多的企业将三维CAD作为企业进行产品设计和创新最通用的手段和工具。而随着我国计算机技术的迅速发展
    发表于 07-03 07:06

    MetraSCAN三维扫描仪对汽车钣金件三维扫描检测解决方案

    都比较困难2. 刚性差,检测过程中易因形变引起误差3. 通常要将汽车覆盖件的尺寸基准置于车身坐标系中来处理所以,采用非接触的MetraSCANSAOMIAO3D,CN手持式三维扫描仪进行检测,就能规避
    发表于 07-15 10:48

    Handyscan三维扫描仪对户外大型灯箱三维扫描解决方案

    )进行清除,耗时耗力,还对灯箱表面具有一定的伤害。跟我司工程师沟通后,我们根据客户的产品的特点,决定采用全新一代的HandyscanSAOMIAO3D,CN手持式蓝色激光三维扫描设备,为客户上门进行扫描
    发表于 07-15 10:52

    Handyscan三维扫描仪机械部件三维扫描抄数服务

    的样件进行了分析,在和技术沟通完其主要的需求后,我们向客户推荐了这款便携式的Handyscan SAOMIAO3D,CN激光三维扫描仪。 因客户平时测量的是这类圆形产品,需要对其形状和一些孔位进行尺寸
    发表于 07-21 16:52

    广州工件形变量三维扫描全尺寸检测尺寸比对服务

    中科院广州电子技术有限公司经营三维验证方案已有十余年经验,目前我们销售的手持式三维激光扫描仪SAOMIAO3D,CN在行业中也是居于领先地位,近几年我司不断完善和升级
    发表于 07-21 16:54

    SMARTSCAN三维扫描仪电子产品配件三维扫描服务

    后,3天内给出完整的CAD数据。跟据与客户的深入沟通后,我司就采用了这款最新的smartscansaomiao3d,cn桌面型全自动三维扫描仪对工件进行了抄数,并根据扫描后的
    发表于 09-17 16:16

    智能芯片的三维内存解析

    三维内存对人们生产生活方面的贡献智能芯片的三维内存
    发表于 12-24 06:54

    上海黄浦三维媒体动画技术

    Stndia Mnx,早期主要应用于军事领域,这是一个非常严谨的软件。3D Studio Max,简称3ds Max 或MAX,目前是操作系统相对庞大的技术平台,支持三维动画渲染和制
    发表于 06-30 09:26