0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于神经辐射场的自监督多相机占用预测

3D视觉工坊 来源:3DCV 2024-01-02 14:53 次阅读

1、笔者导读

我们提出了一种名为OccNeRF的方法,用于自监督多相机3D占用预测。该方法通过参数化重建的占用场来表示无限空间,并通过神经渲染将占用场转换为多相机深度图。为了提供几何和语义监督,该方法利用多帧图像之间的光度一致性进行监督。此外,为了语义占用预测,该方法还设计了几种策略来处理预训练的开放词汇模型。

2、解决了什么?

本研究提出了一种自监督的多摄相机3D占据预测方法,名为OccNeRF。该方法旨在解决无界场景的建模问题。

3、方法

主要包括以下几个方面:

参数化占用场景表示

使用神经辐射场(Neural Radiance Fields,NeRF)来表示占用场景。

引入参数化坐标系,将无界的场景表示为有界的占用场景。

使用参数化坐标系中的体素来表示占用场景的内部和外部区域。

使用占用场景的体素表示来训练网络

多摄像头特征聚合

对于每个摄像头,将其对应的图像特征投影到参数化坐标系中的体素上。

使用双线性插值将投影后的特征聚合为体素特征。

使用三维卷积网络提取特征并预测最终的占用输出。

多帧深度估计

使用体素渲染技术将占用场景投影到多摄像头的深度图上。

通过沿着摄像头中心到像素的射线采样一系列点,计算对应像素的深度值。

使用渲染权重代替密度来适应占用场景的表示。

使用多帧光度损失来训练深度估计模型。

开放词汇语义监督

使用多摄像头图像的二维语义标签提供像素级的语义监督。

通过将预训练的开放词汇模型的输出与图像特征进行对齐,生成二维语义标签。

使用二维语义标签来训练网络,提高几何一致性和体素之间的空间关系的捕捉能力。

4、损失函数

研究所涉及的损失函数有以下几种:

渲染损失:用于训练神经辐射场(Neural Radiance Fields,NeRF)模型的监督信号。通过计算渲染的像素颜色与真实像素颜色之间的差异来衡量模型的性能。

时序光度损失:用于多帧深度估计的监督信号。通过将相邻帧投影到当前帧,并计算投影图像与原始图像之间的重构误差来训练模型。

语义损失:用于语义三维占据预测的监督信号。通过提供多相机图像的二维语义标签,帮助网络捕捉几何一致性和体素之间的空间关系。

5、实验结果

本研究采用了自监督的多相机占据预测方法,称为OccNeRF。我们的实验方法和结果如下:

数据集:本研究在nuScenes数据集上进行实验,该数据集包含600个场景用于训练,150个场景用于验证,150个场景用于测试。数据集包含大约40000帧图像和17个类别。

自监督深度估计:首先,将LiDAR点云投影到每个视角上,得到深度图作为自监督深度估计的输入。然后,使用神经辐射场(Neural Radiance Fields,NeRF)方法进行深度估计。NeRF使用渲染方程将3D场景中的颜色和深度信息映射到2D图像中。本研究在NeRF的基础上进行改进,引入了时间光度约束和多帧渲染,以提高深度估计的准确性。

占据预测:为了预测场景中的占据情况,本研究使用了Grounding DINO模型和Grounded-SAM模型。首先,使用Grounding DINO模型生成检测边界框和对应的logits和短语。然后,将这些信息输入到Grounded-SAM模型中,生成精确的语义分割二值掩码。最后,使用体素渲染技术将语义标签投影到图像空间中,得到占据预测结果。

实验评估:本研究使用了多个评估指标来评估深度估计和占据预测的性能,包括绝对相对误差(Abs Rel)、平方相对误差(Sq Rel)、均方根误差(RMSE)等。同时,与其他自监督和有监督方法进行了比较,以验证OccNeRF方法的优越性。

69db56ea-a72d-11ee-8b88-92fbcf53809c.png

69e2e770-a72d-11ee-8b88-92fbcf53809c.png

5、总结

本研究通过自监督深度估计和占据预测方法,实现了对多摄像头场景中的占据情况的准确预测。实验结果表明,OccNeRF方法在深度估计和占据预测方面取得了较好的性能。

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 摄像头
    +关注

    关注

    59

    文章

    4609

    浏览量

    92901
  • 相机图像
    +关注

    关注

    0

    文章

    7

    浏览量

    5990
  • LIDAR
    +关注

    关注

    10

    文章

    305

    浏览量

    28996

原文标题:清华最新发布!OccNeRF:基于神经辐射场的自监督多相机占用预测

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    有提供编写神经网络预测程序服务的吗?

    有提供编写神经网络预测程序服务的吗?
    发表于 12-10 13:50

    用matlab编程进行BP神经网络预测时如何确定最合适的,BP模型

    请问用matlab编程进行BP神经网络预测时,训练结果很多都是合适的,但如何确定最合适的?且如何用最合适的BP模型进行外推预测
    发表于 02-08 14:19

    关于BP神经网络预测模型的确定!!

    请问用matlab编程进行BP神经网络预测时,训练结果很多都是合适的,但如何确定最合适的?且如何用最合适的BP模型进行外推预测
    发表于 02-08 14:23

    组建辐射开阔地分析

    ,并且有些背景噪音难以处理,于是模拟开阔的电磁屏蔽半电波暗室成了应用较普遍的EMI测试场地。半电波暗室五面贴吸波材料,模拟自由空间传播环境,除了地面反射,其它五个面没有反射信号(很多公司用7m*4m*3m的屏蔽室改建成半电波暗室进行辐射
    发表于 05-16 14:30

    Keras之ML~P:基于Keras中建立的回归预测神经网络模型

    Keras之ML~P:基于Keras中建立的回归预测神经网络模型(根据200个数据样本预测新的5+1个样本)——回归预测
    发表于 12-20 10:43

    就近区范围内的防电磁辐射整体屏蔽

    、电台、电子仪器、医疗设备、激光照拍设备和办公自动化设备的运行,也可以来自于微波炉、电视机、手机、空调、电热毯和收音机等家用电器的使用。电磁辐射一般分为近区和远区。以场源为中心,
    发表于 05-30 07:58

    如何用卷积神经网络方法去解决机器监督学习下面的分类问题?

    人工智能下面有哪些机器学习分支?如何用卷积神经网络(CNN)方法去解决机器学习监督学习下面的分类问题?
    发表于 06-16 08:09

    如何构建神经网络?

    原文链接:http://tecdat.cn/?p=5725 神经网络是一种基于现有数据创建预测的计算系统。如何构建神经网络?神经网络包括:输入层:根据现有数据获取输入的层隐藏层:使用反
    发表于 07-12 08:02

    基于小波包_神经网络的太阳逐时辐射预测_陈杰

    基于小波包_神经网络的太阳逐时辐射预测_陈杰
    发表于 12-31 14:45 1次下载

    基于概率的无监督缺陷预测方法

    软件缺陷预测能够提高软件开发和测试的效率,保障软件质量。无监督缺陷预测方法具有不需要标签数据的特点,从而能够快速应用于工程实践中。提出了基于概率的无监督缺陷
    发表于 11-21 14:45 5次下载

    多相机视域下行人目标匹配

    针对多相机视域下行人目标匹配正确率不高的问题,基于无监督显著性学习和局部特征匹配提出一种全局最优匹配模型。将不同视域间的目标匹配进行关联,每对相机的直接匹配受制于其间接匹配的监督,同时
    发表于 03-07 16:12 0次下载

    基于主动学习的半监督神经网络模型来对分子性质进行预测方法

    总体来讲,本文使用教师模型和学生模型来迭代训练。每个模型都是一个图神经网络。在教师模型中,使用半监督的方式来获得分子图的一般表示。我们联合训练分子的无监督表示和基于属性预测的embed
    的头像 发表于 11-24 09:59 3684次阅读

    基于多相机捕捉系统下的通用物体运动捕捉方法

    基于多相机捕捉系统下的通用物体运动捕捉方法
    发表于 06-25 10:34 29次下载

    如何缩小弱监督信号与密集预测之间的差距

    导读本文围绕非完全监督下的图像分割方法最新综述,讲述用于解决“如何缩小弱监督信号与密集预测之间的差距”的四种通用的启发式先验。
    的头像 发表于 07-13 10:51 886次阅读

    WACV 2023 I从ScanNeRF到元宇宙:神经辐射场的未来

    神经辐射场(NeRF)通过将三维场景编码成隐式表示,在视觉领域中广泛应用。通过学习多层感知机(MLP)来建立隐式映射,其中包括中间的MLP(pos)用于推断密度和嵌入,浅层的MLP(rgb)用于预测颜色。
    的头像 发表于 09-01 16:14 360次阅读
    WACV 2023 I从ScanNeRF到元宇宙:<b class='flag-5'>神经</b><b class='flag-5'>辐射</b>场的未来