0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用自监督学习重建动态驾驶场景

NVIDIA英伟达企业解决方案 来源:未知 2023-12-16 16:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

wKgaomV9W2eACTqvAI2RUKtEaQ8569.gif

无论是单调的高速行车,还是平日的短途出行,驾驶过程往往平淡无奇。因此,在现实世界中采集的用于开发自动驾驶汽车(AV)的大部分训练数据都明显偏向于简单场景。

这给部署鲁棒的感知模型带来了挑战。自动驾驶汽车必须接受全面的训练、测试和验证,以便能够应对复杂的场景,而这需要大量涵盖此类场景的数据。

在现实世界中,收集此类场景数据要耗费大量时间和成本。而现在,仿真提供了另一个可选方案。但要大规模生成复杂动态场景仍然困难重重。

在近期发布的一篇论文中,NVIDIA Research 展示了一种基于神经辐射场(NeRF)的新方法——EmerNeRF 及其如何使用自监督学习准确生成动态场景。通过自监督方法训练,EmerNeRF 在动静态场景重建上的表现超越了之前其他 NeRF 方法。详细情况请参见 EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision

wKgaomV9W2iAWIQRAIG3gjsjUmk047.gif

wKgaomV9W2qAEBhsAHW-H-Nc2wI223.gif

wKgaomV9W2uADx4ZAGFS9lTdEQ0746.gif

图 1. EmerNeRF 重建动态驾驶场景的示例

相比其他 NeRF 重建方法,EmerNeRF 的动态场景重建准确率高出 15%,静态场景高出 11%。新视角合成的准确率也高出 12%。

打破 NeRF 方法的局限性

NeRF 将一组静态图像重建成逼真的 3D 场景。这使得依据驾驶日志重建用于 DNN 训练、测试验证的高保真仿真环境成为可能。

然而,目前基于 NeRF 的重建方法在处理动态物体时十分困难,而且实践证明难以扩展。例如有些方法可以生成静态和动态场景,但它们依赖真值(GT)标签。这就意味着必须使用自动标注或人工标注员先来准确标注出驾驶日志中的每个物体。

其他 NeRF 方法则依赖于额外的模型来获得完整的场景信息,例如光流。

为了打破这些局限性,EmerNeRF 使用自监督学习将场景分解为静态、动态和流场(flow fields)。该模型从原始数据中学习前景、背景之间的关联和结构,而不依赖人工标注的 GT 标签。然后,对场景做时空渲染,并不依赖外部模型来弥补时空中的不完整区域,而且准确性更高。

wKgaomV9W22ANZJBAIreJrPM29Q814.gif

图 2. EmerNeRF 将图 1 第一段视频中的场景分解为动态场、静态场和流场

因此,其他模型往往会产生过于平滑的背景和精度较低的动态物体(前景),而 EmerNeRF 则能重建高保真的背景及动态物体(前景),同时保留场景的细节。

wKgaomV9W22AEIs2AAHQ9VA5HZs560.png

表 1. 将 EmerNeRF 与其他基于 NeRF 的动态场景重建方法进行比较后的评估结果,分为场景重建性能和新视角合成性能两个类别

wKgaomV9W22AfcY9AAA2G6E-KP4237.png

表 2. 将 EmerNeRF 与其他基于 NeRF 的静态场景重建方法进行比较后的评估结果

EmerNeRF 方法

EmerNeRF 使用的是自监督学习,而非人工注释或外部模型,这使得它能够避开之前方法所遇到的难题。

wKgaomV9W26AEUZHAAIDIitNPLA183.png

图 3.EmerNeRF 分解和重建管线

EmerNeRF 将场景分解成动态和静态元素。在场景分解的同时,EmerNeRF 还能估算出动态物体(如汽车和行人)的流场,并通过聚合流场在不同时间的特征以进一步提高重建质量。其他方法会使用外部模型提供此类光流数据,但通常会引入偏差。

通过将静态场、动态场和流场结合在一起,EmerNeRF 能够充分表达高密度动态场景,这不仅提高了重建精度,也方便扩展到其他数据源。

使用基础模型加强语义理解

EmerNeRF 对场景的语义理解,可通过(视觉)基础大模型监督进一步增强。基础大模型具有更通用的知识(例如特定类型的车辆或动物)。EmerNeRF 使用视觉 Transformer(ViT)模型,例如 DINO, DINOv2,将语义特征整合到场景重建中。

这使 EmerNeRF 能够更好地预测场景中的物体,并执行自动标注等下游任务。

wKgaomV9W2-AXLGcAEMAJKXvMk4609.gif

图 4. EmerNeRF 使用 DINO 和 DINOv2 等基础模型加强对场景的语义理解

不过,基于 Transformer 的基础模型也带来了新的挑战:语义特征可能会表现出与位置相关的噪声,从而大大限制下游任务的性能。

wKgaomV9W3CAHehyAD0gOpmySM4007.gif

图 5. EmerNeRF 使用位置嵌入消除基于 Transformer 的基础模型所产生的噪声

为了解决噪声问题,EmerNeRF 通过位置编码分解来恢复无噪声的特征图。如图 5 所示,这样就解锁了基础大模型在语义特征上全面、准确的表征能力。

评估 EmerNeRF

正如 EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision 中所述,研究人员整理出了一个包含 120 个独特场景的数据集来评估 EmerNeRF 的性能,这些场景分为 32 个静态场景、32 个动态场景和 56 个多样化场景,覆盖了高速、低光照等具有挑战性的场景。

然后根据数据集的不同子集,评估每个 NeRF 模型重建场景和合成新视角的能力。

如表 1 所示,据此,EmerNeRF 在场景重建和新视角合成方面的表现始终明显优于其他方法。

EmerNeRF 的表现还优于专门用于静态场景的方法,这表明将场景分解为静态和动态元素的自监督分解既能够改善静态重建,还能够改善动态重建。

总结

自动驾驶仿真只有在能够准确重建现实世界的情况下才会有效。随着场景的日益动态化和复杂化,对保真度的要求也越来越高,而且更难实现。

与以前的方法相比,EmerNeRF 能够更准确地表现和重建动态场景,而且无需人工监督或外部模型。这样就能大规模地重建和编辑复杂的驾驶数据,解决目前自动驾驶汽车训练数据集的不平衡问题。

NVIDIA 正迫切希望研究 EmerNeRF 带来的新功能,如端到端驾驶、自动标注和仿真等。

如要了解更多信息,请访问 EmerNeRF 项目页面并阅读 EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision

了解更多

  • 适用于自动驾驶汽车的解决方案

    https://www.nvidia.cn/self-driving-cars/

  • EmerNeRF 项目页面

    https://emernerf.github.io/

  • 阅读 EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision.

    https://arxiv.org/abs/2311.02077

GTC 2024 将于 2024 年 3 月 18 至 21 日在美国加州圣何塞会议中心举行,线上大会也将同期开放。点击“阅读原文”扫描下方海报二维码,立即注册 GTC 大会


原文标题:使用自监督学习重建动态驾驶场景

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    23

    文章

    4047

    浏览量

    97720

原文标题:使用自监督学习重建动态驾驶场景

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    趋势: 无监督学习普及 当前工业场景中80%的缺陷检测项目面临\"OK样本充足而NG样本稀缺\"的困境,传统监督学习方案难以落地。课程第11系列(无监督缺陷检测篇)提供无需标注即可
    发表于 12-04 09:28

    自动驾驶数据标注是所有信息都要标注吗?

    本身只是像素和点云。标注的工作就是人为地给这些信号贴上语义标签,告诉模型这是一辆车、这是行人、这是车道线、这个区域不能通行之类的明确信息。没有这些标签,监督学习、验证和评估都无法进行,模型不知道哪些输入与哪些输出应该
    的头像 发表于 12-04 09:05 397次阅读
    自动<b class='flag-5'>驾驶</b>数据标注是所有信息都要标注吗?

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战可(11大系列课程,共5000+分钟)

    23.5%。本次团购旨在帮助工程师把握三大技术趋势: 无监督学习普及 当前工业场景中80%的缺陷检测项目面临\"OK样本充足而NG样本稀缺\"的困境,传统监督学习方案难以落地。课程
    发表于 12-03 13:50

    如何深度学习机器视觉的应用场景

    深度学习视觉应用场景大全 工业制造领域 复杂缺陷检测:处理传统算法难以描述的非标准化缺陷模式 非标产品分类:对形状、颜色、纹理多变的产品进行智能分类 外观质量评估:基于学习的外观质量标准判定 精密
    的头像 发表于 11-27 10:19 63次阅读

    如何选择适合的智驾仿真工具进行场景生成和测试?

    在自动驾驶技术日益发展的背景下,选择合适的智驾仿真工具进行场景生成和测试显得尤为重要。该工具不仅需要支持高精度的场景重建,还需满足多种环境条件和传感器模型的兼容性。本文将深入探讨如何评
    的头像 发表于 11-25 10:32 163次阅读
    如何选择适合的智驾仿真工具进行<b class='flag-5'>场景</b>生成和测试?

    仅使用智能手机在NVIDIA Isaac Sim中重建场景

    使用 iPhone 拍摄照片,到利用 3DGUT 进行 3D 场景重建,再到将重建场景导入 NVIDIA Isaac Sim 并添加机器人。若要跳过
    的头像 发表于 11-10 14:03 452次阅读

    讲讲如何闭环自动驾驶仿真场景,从重建到可用?

    静态3D场景无法满足仿真测试?缺乏动态交通流、难以模拟极端天气、传感器模型不逼真!本文带您看aiSim场景编辑与GGSR渲染器如何破局!自由配置暴雨黑夜与虚拟车流,使用通用高斯泼溅实现广角无畸变的高保真渲染,为自动
    的头像 发表于 10-27 11:10 7064次阅读
    讲讲如何闭环自动<b class='flag-5'>驾驶</b>仿真<b class='flag-5'>场景</b>,从<b class='flag-5'>重建</b>到可用?

    从“重建”到“可用”:aiSim3DGS方案如何闭环自动驾驶仿真场景

    3DGaussianSplatting(3DGS)凭借高效渲染与逼真场景还原能力,逐渐成为三维重建与仿真领域的焦点。然而,实际应用中,如何将多源异构数据高效转化为可用的3DGS场景,如
    的头像 发表于 10-24 17:33 28次阅读
    从“<b class='flag-5'>重建</b>”到“可用”:aiSim3DGS方案如何闭环自动<b class='flag-5'>驾驶</b>仿真<b class='flag-5'>场景</b>?

    自动驾驶中常提的“强化学习”是个啥?

    下,就是一个智能体在环境里行动,它能观察到环境的一些信息,并做出一个动作,然后环境会给出一个反馈(奖励或惩罚),智能体的目标是把长期得到的奖励累积到最大。和监督学习不同,强化学习没有一一对应的“正确答案”给它看,而是靠与环境交互、自我探索来发现
    的头像 发表于 10-23 09:00 348次阅读
    自动<b class='flag-5'>驾驶</b>中常提的“强化<b class='flag-5'>学习</b>”是个啥?

    一种基于多次观测融合的可交互三维高斯场景重建框架

    在计算机视觉和机器人领域,如何完整、真实地重建一个可交互的三维场景,一直是一个难题。传统方法往往依赖复杂的多阶段流程,比如先做分割,再进行背景补全或修复,或者需要对每个物体进行密集扫描。这些方式不仅成本高、容易出错,而且很难扩展到大规模的应用
    的头像 发表于 09-29 11:12 442次阅读
    一种基于多次观测融合的可交互三维高斯<b class='flag-5'>场景</b><b class='flag-5'>重建</b>框架

    生成式 AI 重塑自动驾驶仿真:4D 场景生成技术的突破与实践

    生成式AI驱动的4D场景技术正解决传统方法效率低、覆盖不足等痛点,如何通过NeRF、3D高斯泼溅等技术实现高保真动态建模?高效生成极端天气等长尾场景?本文为您系统梳理AI驱动的4D场景
    的头像 发表于 08-06 11:20 4827次阅读
    生成式 AI 重塑自动<b class='flag-5'>驾驶</b>仿真:4D <b class='flag-5'>场景</b>生成技术的突破与实践

    一种适用于动态环境的3DGS-SLAM系统

    当前基于神经辐射场(NeRF)或3D高斯泼溅(3DGS)的SLAM方法在重建静态3D场景方面表现出色,但在动态环境中的跟踪和重建方面却面临着挑战。
    的头像 发表于 06-13 10:10 1007次阅读
    一种适用于<b class='flag-5'>动态</b>环境的3DGS-SLAM系统

    使用MATLAB进行无监督学习

    监督学习是一种根据未标注数据进行推断的机器学习方法。无监督学习旨在识别数据中隐藏的模式和关系,无需任何监督或关于结果的先验知识。
    的头像 发表于 05-16 14:48 1191次阅读
    使用MATLAB进行无<b class='flag-5'>监督学习</b>

    康谋分享 | 3DGS:革新自动驾驶仿真场景重建的关键技术

    3DGS技术为自动驾驶仿真场景重建带来突破,通过3D高斯点精确表达复杂场景的几何和光照特性,显著提升渲染速度与图像质量。康谋aiSim平台结合3DGS,提供高保真虚拟环境与
    的头像 发表于 03-05 09:45 4891次阅读
    康谋分享 | 3DGS:革新自动<b class='flag-5'>驾驶</b>仿真<b class='flag-5'>场景</b><b class='flag-5'>重建</b>的关键技术