0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何利用CLIP 的2D 图像-文本预习知识进行3D场景理解

3D视觉工坊 来源:3D视觉工坊 2023-10-29 16:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

前言:

3D场景理解是自动驾驶机器人导航等领域的基础。当前基于深度学习的方法在3D点云数据上表现出了十分出色的性能。然而,一些缺点阻碍了它们在现实世界中的应用。第一个原因是他们严重依赖大量的带注释点云,尤其是当高质量的3D注释获取成本高昂时。此外,他们通常不能识别训练数据中从未见过的新物体。因此,可能需要额外的注释工作来训练模型识别这些新的对象,这既繁琐又费时。

OpenAI的CLIP为缓解2D视觉中的上述问题提供了一个新的视角。该方法利用网站上大规模免费提供的图文对进行训练,建立视觉语言关联,以实现有前景的开放词汇识别。基于此,MaskCLIP做了基于CLIP的2D图像语义分割的扩展工作。在对CLIP预训练网络进行最小修改的情况下,MaskCLIP可以直接用于新对象的语义分割,而无需额外的训练工作。PointCLIP将CLIP的样本分类问题从2D图像推广到3D点云。它将点云框架透视投影到2D深度图的不同视图中,以弥合图像和点云之间的模态间隙。上述研究表明了CLIP在2D分割和3D分类性能方面的潜力。然而,CLIP是否可以及如何有利于3D场景理解仍有待探索。

本文探讨了如何利用 CLIP 的2D 图像-文本预习知识进行3D 场景理解。作者提出了一个新的语义驱动的跨模态对比学习框架,它充分利用 CLIP 的语义和视觉信息来规范3D 网络。

作者主要的贡献如下:

1、作者是第一个将CLIP知识提炼到3D网络中用于3D场景理解的。

2、作者提出了一种新的语义驱动的跨模态对比学习框架,该框架通过时空和语义一致性正则化来预训练3D网络。

3、作者提出了提出了一种新的语义引导的时空一致性正则化,该正则化强制时间相干点云特征与其对应的图像特征之间的一致性。

4、该方法首次在无注释的三维场景分割中取得了良好的效果。当使用标记数据进行微调时,本文的方法显著优于最先进的自监督方法。这里也推荐「3D视觉工坊」新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》

相关工作:

三维零样本学习:

零样本学习(ZSL)的目标是识别训练集中看不见的对象。但是目前的方法主要都是基于2D识别的任务,对三维领域执行ZSL的研究特别有限。本文进一步研究了 CLIP 中丰富的语义和视觉知识对三维语义分割任务的影响。

自监督表征学习:

自我监督学习的目的是获得有利于下游任务的良好表现。主流的方法是使用对比学习来与训练网络。受CLIP成功的启发,利用CLIP的预训练模型来完成下游任务引起了广泛的关注。本文利用图像文本预先训练的CLIP知识来帮助理解3D场景。

跨模式知识蒸馏:

近年来,越来越多的研究集中于将二维图像中的知识转化为三维点云进行自监督表示学习。本文首先尝试利用 CLIP 的知识对一个三维网络进行预训练。

具体方法:

本文研究了用于3D场景理解的CLIP的跨模态知识转移,称为CLIP2Scene。本文的工作是利用CLIP知识进行3D场景理解的先驱。本文的方法由三个主要组成部分组成:语义一致性正则化、语义引导的时空一致性规则化和可切换的自我训练策略。

66151314-7633-11ee-939d-92fbcf53809c.png

图1 语义驱动的跨模态对比学习图解。首先,本文分别通过文本编码器、图像编码器和点编码器获得文本嵌入、图像像素特征和点特征。本文利用CLIP知识来构建用于对比学习的正样本和负样本。这样就得到了点-文本对和短时间内的所有像素点文本对。因此,和分别用于语义一致性正则化和时空一致性规则化。最后,通过将点特征拉到其相应的文本嵌入来执行语义一致性正则化,并通过将时间上相干的点特征模仿到其对应的像素特征来执行时空一致性正则化。

CLIP2Scene

语义一致性正则化

由于CLIP是在2D图像和文本上预先训练的,作者首先关注的是2D图像和3D点云之间的对应关系。具体的,使用既可以获得图像和点云的因此,可以相应地获得密集的像素-点对应,其中和表示第i个成对的图像特征和点特征,它们分别由CLIP的图像编码器和3D网络提取。M是对数。

661e7012-7633-11ee-939d-92fbcf53809c.png

图2 图像像素到文本映射的图示。密集像素-文本对应关系是通过MaskCLIP的方法提出的。

本文提出了一种利用CLIP的语义信息的语义一致性正则化。具体而言,本文通过遵循off-the-shelf方法MaskCLIP(图2)生成密集像素文本对,其中是从CLIP的文本编码器生成的文本嵌入。请注意,像素文本映射可从CLIP免费获得,无需任何额外的训练。然后,我们将像素文本对转换为点文本对,并利用文本语义来选择正点样本和负点样本进行对比学习。目标函数如下:其中,代表由第个类名生成,并且是类别的数量。表示标量积运算,是温度项()。由于文本是由放置在预定义的模板中的类名组成,因此文本嵌入表示相应的类的语义信息。因此那些具有相同语义的点将被限制在相同的文本嵌入附近,而那些具有不同语义的点将被推开。为此,语义一致性正则化会减少对比学习中的冲突。

语义引导的时空一致性正则化

除了语义一致性正则化之外,本文还考虑图像像素特征如何帮助正则化3D网络。自然替代直接引入点特征及其在嵌入空间中的对应像素。然而,图像像素的噪声语义和不完美的像素点映射阻碍了下游任务的性能。为此,提出了一种新的语义引导的时空一致性正则化方法,通过对局部空间和时间内的点施加软约束来缓解这一问题。

具体地,给定图像和时间相干LiDAR点云,其中,是秒内扫描的次数。值得注意的是图像与像素点对的点云第一帧进行匹配。本文通过校准矩阵将点云的其余部分配准到第一帧,并将它们映射到图像上(图3)。

66259144-7633-11ee-939d-92fbcf53809c.png

图3 图像像素到点映射(左)和语义引导的融合特征生成(右)示意图。本文建立了在秒内图像和时间相干激光雷达点云之间的网格对应关系,并且生成语义引到的融合特征。和用于执行时空一致性正则化。

因此,我们在短时间内获得所有像素点文本对。接下来,作者将整个缝合的点云划分为规则网格,其中时间相干点位于同一网格中。本文通过以下目标函数在各个网格内施加时空一致性约束:

其中,代表像素-点对位于第个网格。是一种语义引导的跨模态融合特征,由以下公式表示:

其中和是注意力权重是由以下来计算的:

其中代表温度项。实际上,局部网格内的那些像素和点特征被限制在动态中心附近。因此,这种软约束减轻了噪声预测和校准误差问题。同时,它对时间相干点特征进行了时空正则化处理。

实验

数据集的选择:两个室外数据集 SemanticKITTI 和 nuScenes一个室内数据集 ScanNet

无注释语义分割

662985ce-7633-11ee-939d-92fbcf53809c.png

662cf588-7633-11ee-939d-92fbcf53809c.png

表2 是针对不同数据集的无注释的3D语义分割的性能表3 是无注释三维语义分割的nuScenes数据集消融研究。这里也推荐「3D视觉工坊」新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》

高效注释的语义分割

如表1所示,当对1%和100%nuScenes数据集进行微调时,该方法显著优于最先进的方法,分别提高了8.1%和1.1%。与随机初始化相比,改进幅度分别为14.1%和2.4%,表明了本文的语义驱动跨模态对比学习框架的有效性。定性结果如图4所示。此外,本文还验证了该方法的跨域泛化能力。

663d9618-7633-11ee-939d-92fbcf53809c.png

66529518-7633-11ee-939d-92fbcf53809c.png

图4 对1%nuScenes数据集进行微调的定性结果。从第一行到最后一行分别是输入激光雷达扫描、真值、SLidR预测和我们的预测。请注意,我们通过误差图显示结果,其中红点表示错误的预测。显然,本文的方法取得了不错的性能。

结论

在这项名为CLIP2Scene的工作中,作者探讨了CLIP知识如何有助于3D场景理解。为了有效地将CLIP的图像和文本特征转移到3D网络中,作者提出了一种新的语义驱动的跨模态对比学习框架,包括语义正则化和时空正则化。作者的预训练3D网络首次以良好的性能实现了无注释的3D语义分割。此外,当使用标记数据进行微调时,我们的方法显著优于最先进的自监督方法。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    2991

    浏览量

    113843
  • 模型
    +关注

    关注

    1

    文章

    3649

    浏览量

    51719
  • Clip
    +关注

    关注

    0

    文章

    34

    浏览量

    7206
  • 深度学习
    +关注

    关注

    73

    文章

    5591

    浏览量

    123914

原文标题:结论

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Vitrox的v510i系列的3D AOI光学检测设备

    V510i部署在SMT生产线的 贴片机之后、回流焊炉之前或之后 ,主要用于检测贴装好的电子元件是否存在缺陷。其核心任务是: 3D2D复合检测 :同时利用3D轮廓信息和
    的头像 发表于 12-04 09:27 132次阅读

    浅谈2D封装,2.5D封装,3D封装各有什么区别?

    集成电路封装技术从2D3D的演进,是一场从平面铺开到垂直堆叠、从延迟到高效、从低密度到超高集成的革命。以下是这三者的详细分析:
    的头像 发表于 12-03 09:13 153次阅读

    玩转 KiCad 3D模型的使用

    时间都在与 2D 的焊盘、走线和丝印打交道。但一个完整的产品,终究是要走向物理世界的。元器件的高度、接插件的朝向、与外壳的配合,这些都是 2D 视图难以表达的。 幸运的是,KiCad 提供了强大的 3D 可视化功能。它不仅能让你
    的头像 发表于 09-16 19:21 1.1w次阅读
    玩转 KiCad <b class='flag-5'>3D</b>模型的使用

    iTOF技术,多样化的3D视觉应用

    视觉传感器对于机器信息获取至关重要,正在从二维(2D)发展到三维(3D),在某些方面模仿并超越人类的视觉能力,从而推动创新应用。3D 视觉解决方案大致分为立体视觉、结构光和飞行时间 (TOF) 技术
    发表于 09-05 07:24

    中国3D引导类相机市场与竞争分析

    3D技术区别于2D技术的一个显著特征是,除了显示对象的X和Y值外,还可以提供记录场景或对象的深度值。这为解决复杂任务提供了全新的可能,特别是在机器人、工厂自动化和医疗领域。
    的头像 发表于 06-28 16:27 1221次阅读
    中国<b class='flag-5'>3D</b>引导类相机市场与竞争分析

    X-ray设备2D/3D检测金属材料及零部件裂纹异物的缺陷

    在高端制造领域,金属材料及零部件的内部质量直接关系到产品性能与安全性。X-ray设备凭借其独特的穿透成像能力,成为检测裂纹、异物等缺陷的关键工具,而2D/3D检测技术的结合,更将检测精度与效率提升
    的头像 发表于 06-27 17:23 965次阅读
    X-ray设备<b class='flag-5'>2D</b>/<b class='flag-5'>3D</b>检测金属材料及零部件裂纹异物的缺陷

    TechWiz LCD 3D应用:局部液晶配向

    我们所说的局部摩擦是指给液晶盒中不同区域(可自定义区域)进行不同的液晶配向,所以也可以称之为局部掩膜、局部配向等。TechWiz LCD 2D和TechWiz LCD 3D都可以对液晶盒设置局部摩擦
    发表于 06-16 08:46

    告别漫长等待! 3D测量竟然可以如此的丝滑

    进行实时处理,快速得到全视角的彩色高精度2D图像3D点云。产品优势01高精度的在线3D检测采用业界顶级的CMOS感光元件和超低畸变远心光
    的头像 发表于 05-12 18:01 554次阅读
    告别漫长等待! <b class='flag-5'>3D</b>测量竟然可以如此的丝滑

    HT 可视化监控页面的 2D3D 连线效果

    HT 是一个灵活多变的前端组件库,具备丰富的功能和效果,满足多种开发需求。让我们将其效果化整为零,逐一拆解具体案例,帮助你更好地理解其实现方案。 此篇文章中,让我们一起深入探讨 2D3D
    的头像 发表于 04-09 11:28 1121次阅读
    HT 可视化监控页面的 <b class='flag-5'>2D</b> 与 <b class='flag-5'>3D</b> 连线效果

    一种以图像为中心的3D感知模型BIP3D

    在具身智能系统中,3D感知算法是一个关键组件,它在端侧帮助可以帮助智能体理解环境信息,在云端可以用来辅助生成3D场景3D标签,具备重要的研
    的头像 发表于 03-17 13:44 962次阅读
    一种以<b class='flag-5'>图像</b>为中心的<b class='flag-5'>3D</b>感知模型BIP<b class='flag-5'>3D</b>

    使用海尔曼太通/HellermannTyton 3D CAD 模型进行快速高效的设计

    提供 3D2D CAD 数据,可供免费下载。 直接嵌入三维设计环境的模型下载功能 在海尔曼太通官网上点击【产品】选项,工程师现在可以查看和下载众多产品的 3D CAD 模型。下载功能与供应商
    发表于 03-14 16:55

    TechWiz LCD 3D应用:局部液晶配向

    我们所说的局部摩擦是指给液晶盒中不同区域(可自定义区域)进行不同的液晶配向,所以也可以称之为局部掩膜、局部配向等。TechWiz LCD 2D和TechWiz LCD 3D都可以对液晶盒设置局部摩擦
    发表于 02-08 08:52

    AN-1249:使用ADV8003评估板将3D图像转换成2D图像

    电子发烧友网站提供《AN-1249:使用ADV8003评估板将3D图像转换成2D图像.pdf》资料免费下载
    发表于 01-08 14:28 0次下载
    AN-1249:使用ADV8003评估板将<b class='flag-5'>3D</b><b class='flag-5'>图像</b>转换成<b class='flag-5'>2D</b><b class='flag-5'>图像</b>

    技术前沿:半导体先进封装从2D3D的关键

    技术前沿:半导体先进封装从2D3D的关键 半导体分类 集成电路封测技术水平及特点     1. 发展概述 ·自20世纪90年代以来,集成电路封装技术快速发展,推动了电子产品向小型化和多功能方向迈进
    的头像 发表于 01-07 09:08 3139次阅读
    技术前沿:半导体先进封装从<b class='flag-5'>2D</b>到<b class='flag-5'>3D</b>的关键

    TechWiz LCD 3D应用:局部液晶配向

    我们所说的局部摩擦是指给液晶盒中不同区域(可自定义区域)进行不同的液晶配向,所以也可以称之为局部掩膜、局部配向等。TechWiz LCD 2D和TechWiz LCD 3D都可以对液晶盒设置局部摩擦
    发表于 01-03 08:58