0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何利用CLIP 的2D 图像-文本预习知识进行3D场景理解

3D视觉工坊 来源:3D视觉工坊 2023-10-29 16:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

前言:

3D场景理解是自动驾驶机器人导航等领域的基础。当前基于深度学习的方法在3D点云数据上表现出了十分出色的性能。然而,一些缺点阻碍了它们在现实世界中的应用。第一个原因是他们严重依赖大量的带注释点云,尤其是当高质量的3D注释获取成本高昂时。此外,他们通常不能识别训练数据中从未见过的新物体。因此,可能需要额外的注释工作来训练模型识别这些新的对象,这既繁琐又费时。

OpenAI的CLIP为缓解2D视觉中的上述问题提供了一个新的视角。该方法利用网站上大规模免费提供的图文对进行训练,建立视觉语言关联,以实现有前景的开放词汇识别。基于此,MaskCLIP做了基于CLIP的2D图像语义分割的扩展工作。在对CLIP预训练网络进行最小修改的情况下,MaskCLIP可以直接用于新对象的语义分割,而无需额外的训练工作。PointCLIP将CLIP的样本分类问题从2D图像推广到3D点云。它将点云框架透视投影到2D深度图的不同视图中,以弥合图像和点云之间的模态间隙。上述研究表明了CLIP在2D分割和3D分类性能方面的潜力。然而,CLIP是否可以及如何有利于3D场景理解仍有待探索。

本文探讨了如何利用 CLIP 的2D 图像-文本预习知识进行3D 场景理解。作者提出了一个新的语义驱动的跨模态对比学习框架,它充分利用 CLIP 的语义和视觉信息来规范3D 网络。

作者主要的贡献如下:

1、作者是第一个将CLIP知识提炼到3D网络中用于3D场景理解的。

2、作者提出了一种新的语义驱动的跨模态对比学习框架,该框架通过时空和语义一致性正则化来预训练3D网络。

3、作者提出了提出了一种新的语义引导的时空一致性正则化,该正则化强制时间相干点云特征与其对应的图像特征之间的一致性。

4、该方法首次在无注释的三维场景分割中取得了良好的效果。当使用标记数据进行微调时,本文的方法显著优于最先进的自监督方法。这里也推荐「3D视觉工坊」新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》

相关工作:

三维零样本学习:

零样本学习(ZSL)的目标是识别训练集中看不见的对象。但是目前的方法主要都是基于2D识别的任务,对三维领域执行ZSL的研究特别有限。本文进一步研究了 CLIP 中丰富的语义和视觉知识对三维语义分割任务的影响。

自监督表征学习:

自我监督学习的目的是获得有利于下游任务的良好表现。主流的方法是使用对比学习来与训练网络。受CLIP成功的启发,利用CLIP的预训练模型来完成下游任务引起了广泛的关注。本文利用图像文本预先训练的CLIP知识来帮助理解3D场景。

跨模式知识蒸馏:

近年来,越来越多的研究集中于将二维图像中的知识转化为三维点云进行自监督表示学习。本文首先尝试利用 CLIP 的知识对一个三维网络进行预训练。

具体方法:

本文研究了用于3D场景理解的CLIP的跨模态知识转移,称为CLIP2Scene。本文的工作是利用CLIP知识进行3D场景理解的先驱。本文的方法由三个主要组成部分组成:语义一致性正则化、语义引导的时空一致性规则化和可切换的自我训练策略。

66151314-7633-11ee-939d-92fbcf53809c.png

图1 语义驱动的跨模态对比学习图解。首先,本文分别通过文本编码器、图像编码器和点编码器获得文本嵌入、图像像素特征和点特征。本文利用CLIP知识来构建用于对比学习的正样本和负样本。这样就得到了点-文本对和短时间内的所有像素点文本对。因此,和分别用于语义一致性正则化和时空一致性规则化。最后,通过将点特征拉到其相应的文本嵌入来执行语义一致性正则化,并通过将时间上相干的点特征模仿到其对应的像素特征来执行时空一致性正则化。

CLIP2Scene

语义一致性正则化

由于CLIP是在2D图像和文本上预先训练的,作者首先关注的是2D图像和3D点云之间的对应关系。具体的,使用既可以获得图像和点云的因此,可以相应地获得密集的像素-点对应,其中和表示第i个成对的图像特征和点特征,它们分别由CLIP的图像编码器和3D网络提取。M是对数。

661e7012-7633-11ee-939d-92fbcf53809c.png

图2 图像像素到文本映射的图示。密集像素-文本对应关系是通过MaskCLIP的方法提出的。

本文提出了一种利用CLIP的语义信息的语义一致性正则化。具体而言,本文通过遵循off-the-shelf方法MaskCLIP(图2)生成密集像素文本对,其中是从CLIP的文本编码器生成的文本嵌入。请注意,像素文本映射可从CLIP免费获得,无需任何额外的训练。然后,我们将像素文本对转换为点文本对,并利用文本语义来选择正点样本和负点样本进行对比学习。目标函数如下:其中,代表由第个类名生成,并且是类别的数量。表示标量积运算,是温度项()。由于文本是由放置在预定义的模板中的类名组成,因此文本嵌入表示相应的类的语义信息。因此那些具有相同语义的点将被限制在相同的文本嵌入附近,而那些具有不同语义的点将被推开。为此,语义一致性正则化会减少对比学习中的冲突。

语义引导的时空一致性正则化

除了语义一致性正则化之外,本文还考虑图像像素特征如何帮助正则化3D网络。自然替代直接引入点特征及其在嵌入空间中的对应像素。然而,图像像素的噪声语义和不完美的像素点映射阻碍了下游任务的性能。为此,提出了一种新的语义引导的时空一致性正则化方法,通过对局部空间和时间内的点施加软约束来缓解这一问题。

具体地,给定图像和时间相干LiDAR点云,其中,是秒内扫描的次数。值得注意的是图像与像素点对的点云第一帧进行匹配。本文通过校准矩阵将点云的其余部分配准到第一帧,并将它们映射到图像上(图3)。

66259144-7633-11ee-939d-92fbcf53809c.png

图3 图像像素到点映射(左)和语义引导的融合特征生成(右)示意图。本文建立了在秒内图像和时间相干激光雷达点云之间的网格对应关系,并且生成语义引到的融合特征。和用于执行时空一致性正则化。

因此,我们在短时间内获得所有像素点文本对。接下来,作者将整个缝合的点云划分为规则网格,其中时间相干点位于同一网格中。本文通过以下目标函数在各个网格内施加时空一致性约束:

其中,代表像素-点对位于第个网格。是一种语义引导的跨模态融合特征,由以下公式表示:

其中和是注意力权重是由以下来计算的:

其中代表温度项。实际上,局部网格内的那些像素和点特征被限制在动态中心附近。因此,这种软约束减轻了噪声预测和校准误差问题。同时,它对时间相干点特征进行了时空正则化处理。

实验

数据集的选择:两个室外数据集 SemanticKITTI 和 nuScenes一个室内数据集 ScanNet

无注释语义分割

662985ce-7633-11ee-939d-92fbcf53809c.png

662cf588-7633-11ee-939d-92fbcf53809c.png

表2 是针对不同数据集的无注释的3D语义分割的性能表3 是无注释三维语义分割的nuScenes数据集消融研究。这里也推荐「3D视觉工坊」新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》

高效注释的语义分割

如表1所示,当对1%和100%nuScenes数据集进行微调时,该方法显著优于最先进的方法,分别提高了8.1%和1.1%。与随机初始化相比,改进幅度分别为14.1%和2.4%,表明了本文的语义驱动跨模态对比学习框架的有效性。定性结果如图4所示。此外,本文还验证了该方法的跨域泛化能力。

663d9618-7633-11ee-939d-92fbcf53809c.png

66529518-7633-11ee-939d-92fbcf53809c.png

图4 对1%nuScenes数据集进行微调的定性结果。从第一行到最后一行分别是输入激光雷达扫描、真值、SLidR预测和我们的预测。请注意,我们通过误差图显示结果,其中红点表示错误的预测。显然,本文的方法取得了不错的性能。

结论

在这项名为CLIP2Scene的工作中,作者探讨了CLIP知识如何有助于3D场景理解。为了有效地将CLIP的图像和文本特征转移到3D网络中,作者提出了一种新的语义驱动的跨模态对比学习框架,包括语义正则化和时空正则化。作者的预训练3D网络首次以良好的性能实现了无注释的3D语义分割。此外,当使用标记数据进行微调时,我们的方法显著优于最先进的自监督方法。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    3022

    浏览量

    115571
  • 模型
    +关注

    关注

    1

    文章

    3819

    浏览量

    52270
  • Clip
    +关注

    关注

    0

    文章

    35

    浏览量

    7288
  • 深度学习
    +关注

    关注

    73

    文章

    5608

    浏览量

    124635

原文标题:结论

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    倍加福基于双目视觉技术的SmartRunner 3D传感器介绍

    当我们迈入自动化的“三维时代”,SmartRunner Explorer 3D不仅能生成清晰的2D图像,还可输出高精度的3D点云数据。
    的头像 发表于 04-08 10:39 336次阅读
    倍加福基于双目视觉技术的SmartRunner <b class='flag-5'>3D</b>传感器介绍

    一径科技NZ系列广角全场景3D激光雷达全面赋能商用清洁机器人

    一径科技正式发布面向商用清洁机器人领域的专用激光雷达解决方案 ——NZ 系列广角全场景 3D 激光雷达,以行业领先的立体感知性能,正式推动商用清洁机器人行业从 2D 平面感知时代,全面迈入 3
    的头像 发表于 03-27 11:17 1352次阅读

    中国移动咪咕客厅大屏2D3D沉浸先锋体验官北京招募启幕

    清等前沿技术,将超沉浸、高互动的3D视听体验带入家庭场景,推动电视内容全面升级。为深入倾听用户声音,咪咕正式启动用户体验官招募,邀请北京科技爱好者与分享达人,一同开启这场视听新旅程。 本次活动聚焦北京
    发表于 02-14 10:02

    XS5018C:高性能2D/3D降噪ISP-TX 2K芯片电路图资料

    HDcctv/CVBS, 支持多种制式 960H/720P/960P/1080P, ISP 最高支持 1080P@30FPS, 高性能 2D 降噪、 3D 降噪, 支持无极降帧。
    发表于 01-28 16:50 0次下载

    2D、2.5D3D封装技术的区别与应用解析

    半导体封装技术的发展始终遵循着摩尔定律的延伸与超越。当制程工艺逼近物理极限,先进封装技术成为延续芯片性能提升的关键路径。本文将从技术原理、典型结构和应用场景三个维度,系统剖析2D、2.5D3
    的头像 发表于 01-15 07:40 1198次阅读
    <b class='flag-5'>2D</b>、2.5<b class='flag-5'>D</b>与<b class='flag-5'>3D</b>封装技术的区别与应用解析

    常见3D打印材料介绍及应用场景分析

    3D打印材料种类丰富,不同材料性能差异明显。本文介绍PLA、ABS、PETG等常见3D打印材料的特点与应用场景,帮助读者了解3D打印用什么材料更合适,为选材提供基础参考。
    的头像 发表于 12-29 14:52 902次阅读
    常见<b class='flag-5'>3D</b>打印材料介绍及应用<b class='flag-5'>场景</b>分析

    探索TLE493D-P3XX-MS2GO 3D 2Go套件:开启3D磁传感器评估之旅

    探索TLE493D-P3XX-MS2GO 3D 2Go套件:开启3D磁传感器评估之旅 在电子工程师的日常工作中,评估和开发磁传感器是一项常见且重要的任务。英飞凌(Infineon
    的头像 发表于 12-18 17:15 1322次阅读

    2025 3D机器视觉的发展趋势

    迭代与应用拓展成为市场的主要推动力:·技术升级:视觉系统从单一任务的2D相机向多功能3D相机进化。过去用2D相机完成单一任务,如今用户更愿意为能自动化多流程的3D
    的头像 发表于 12-10 17:25 1413次阅读
    2025 <b class='flag-5'>3D</b>机器视觉的发展趋势

    Vitrox的v510i系列的3D AOI光学检测设备

    V510i部署在SMT生产线的 贴片机之后、回流焊炉之前或之后 ,主要用于检测贴装好的电子元件是否存在缺陷。其核心任务是: 3D2D复合检测 :同时利用3D轮廓信息和
    的头像 发表于 12-04 09:27 959次阅读

    浅谈2D封装,2.5D封装,3D封装各有什么区别?

    集成电路封装技术从2D3D的演进,是一场从平面铺开到垂直堆叠、从延迟到高效、从低密度到超高集成的革命。以下是这三者的详细分析:
    的头像 发表于 12-03 09:13 1345次阅读

    玩转 KiCad 3D模型的使用

    时间都在与 2D 的焊盘、走线和丝印打交道。但一个完整的产品,终究是要走向物理世界的。元器件的高度、接插件的朝向、与外壳的配合,这些都是 2D 视图难以表达的。 幸运的是,KiCad 提供了强大的 3D 可视化功能。它不仅能让你
    的头像 发表于 09-16 19:21 1.2w次阅读
    玩转 KiCad <b class='flag-5'>3D</b>模型的使用

    iTOF技术,多样化的3D视觉应用

    视觉传感器对于机器信息获取至关重要,正在从二维(2D)发展到三维(3D),在某些方面模仿并超越人类的视觉能力,从而推动创新应用。3D 视觉解决方案大致分为立体视觉、结构光和飞行时间 (TOF) 技术
    发表于 09-05 07:24

    X-ray设备2D/3D检测金属材料及零部件裂纹异物的缺陷

    在高端制造领域,金属材料及零部件的内部质量直接关系到产品性能与安全性。X-ray设备凭借其独特的穿透成像能力,成为检测裂纹、异物等缺陷的关键工具,而2D/3D检测技术的结合,更将检测精度与效率提升
    的头像 发表于 06-27 17:23 1415次阅读
    X-ray设备<b class='flag-5'>2D</b>/<b class='flag-5'>3D</b>检测金属材料及零部件裂纹异物的缺陷

    TechWiz LCD 3D应用:局部液晶配向

    我们所说的局部摩擦是指给液晶盒中不同区域(可自定义区域)进行不同的液晶配向,所以也可以称之为局部掩膜、局部配向等。TechWiz LCD 2D和TechWiz LCD 3D都可以对液晶盒设置局部摩擦
    发表于 06-16 08:46

    告别漫长等待! 3D测量竟然可以如此的丝滑

    进行实时处理,快速得到全视角的彩色高精度2D图像3D点云。产品优势01高精度的在线3D检测采用业界顶级的CMOS感光元件和超低畸变远心光
    的头像 发表于 05-12 18:01 774次阅读
    告别漫长等待! <b class='flag-5'>3D</b>测量竟然可以如此的丝滑