0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用自监督学习重建动态驾驶场景

NVIDIA英伟达企业解决方案 来源:未知 2023-12-16 16:05 次阅读

wKgaomV9W2eACTqvAI2RUKtEaQ8569.gif

无论是单调的高速行车,还是平日的短途出行,驾驶过程往往平淡无奇。因此,在现实世界中采集的用于开发自动驾驶汽车(AV)的大部分训练数据都明显偏向于简单场景。

这给部署鲁棒的感知模型带来了挑战。自动驾驶汽车必须接受全面的训练、测试和验证,以便能够应对复杂的场景,而这需要大量涵盖此类场景的数据。

在现实世界中,收集此类场景数据要耗费大量时间和成本。而现在,仿真提供了另一个可选方案。但要大规模生成复杂动态场景仍然困难重重。

在近期发布的一篇论文中,NVIDIA Research 展示了一种基于神经辐射场(NeRF)的新方法——EmerNeRF 及其如何使用自监督学习准确生成动态场景。通过自监督方法训练,EmerNeRF 在动静态场景重建上的表现超越了之前其他 NeRF 方法。详细情况请参见 EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision

wKgaomV9W2iAWIQRAIG3gjsjUmk047.gif

wKgaomV9W2qAEBhsAHW-H-Nc2wI223.gif

wKgaomV9W2uADx4ZAGFS9lTdEQ0746.gif

图 1. EmerNeRF 重建动态驾驶场景的示例

相比其他 NeRF 重建方法,EmerNeRF 的动态场景重建准确率高出 15%,静态场景高出 11%。新视角合成的准确率也高出 12%。

打破 NeRF 方法的局限性

NeRF 将一组静态图像重建成逼真的 3D 场景。这使得依据驾驶日志重建用于 DNN 训练、测试验证的高保真仿真环境成为可能。

然而,目前基于 NeRF 的重建方法在处理动态物体时十分困难,而且实践证明难以扩展。例如有些方法可以生成静态和动态场景,但它们依赖真值(GT)标签。这就意味着必须使用自动标注或人工标注员先来准确标注出驾驶日志中的每个物体。

其他 NeRF 方法则依赖于额外的模型来获得完整的场景信息,例如光流。

为了打破这些局限性,EmerNeRF 使用自监督学习将场景分解为静态、动态和流场(flow fields)。该模型从原始数据中学习前景、背景之间的关联和结构,而不依赖人工标注的 GT 标签。然后,对场景做时空渲染,并不依赖外部模型来弥补时空中的不完整区域,而且准确性更高。

wKgaomV9W22ANZJBAIreJrPM29Q814.gif

图 2. EmerNeRF 将图 1 第一段视频中的场景分解为动态场、静态场和流场

因此,其他模型往往会产生过于平滑的背景和精度较低的动态物体(前景),而 EmerNeRF 则能重建高保真的背景及动态物体(前景),同时保留场景的细节。

wKgaomV9W22AEIs2AAHQ9VA5HZs560.png

表 1. 将 EmerNeRF 与其他基于 NeRF 的动态场景重建方法进行比较后的评估结果,分为场景重建性能和新视角合成性能两个类别

wKgaomV9W22AfcY9AAA2G6E-KP4237.png

表 2. 将 EmerNeRF 与其他基于 NeRF 的静态场景重建方法进行比较后的评估结果

EmerNeRF 方法

EmerNeRF 使用的是自监督学习,而非人工注释或外部模型,这使得它能够避开之前方法所遇到的难题。

wKgaomV9W26AEUZHAAIDIitNPLA183.png

图 3.EmerNeRF 分解和重建管线

EmerNeRF 将场景分解成动态和静态元素。在场景分解的同时,EmerNeRF 还能估算出动态物体(如汽车和行人)的流场,并通过聚合流场在不同时间的特征以进一步提高重建质量。其他方法会使用外部模型提供此类光流数据,但通常会引入偏差。

通过将静态场、动态场和流场结合在一起,EmerNeRF 能够充分表达高密度动态场景,这不仅提高了重建精度,也方便扩展到其他数据源。

使用基础模型加强语义理解

EmerNeRF 对场景的语义理解,可通过(视觉)基础大模型监督进一步增强。基础大模型具有更通用的知识(例如特定类型的车辆或动物)。EmerNeRF 使用视觉 Transformer(ViT)模型,例如 DINO, DINOv2,将语义特征整合到场景重建中。

这使 EmerNeRF 能够更好地预测场景中的物体,并执行自动标注等下游任务。

wKgaomV9W2-AXLGcAEMAJKXvMk4609.gif

图 4. EmerNeRF 使用 DINO 和 DINOv2 等基础模型加强对场景的语义理解

不过,基于 Transformer 的基础模型也带来了新的挑战:语义特征可能会表现出与位置相关的噪声,从而大大限制下游任务的性能。

wKgaomV9W3CAHehyAD0gOpmySM4007.gif

图 5. EmerNeRF 使用位置嵌入消除基于 Transformer 的基础模型所产生的噪声

为了解决噪声问题,EmerNeRF 通过位置编码分解来恢复无噪声的特征图。如图 5 所示,这样就解锁了基础大模型在语义特征上全面、准确的表征能力。

评估 EmerNeRF

正如 EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision 中所述,研究人员整理出了一个包含 120 个独特场景的数据集来评估 EmerNeRF 的性能,这些场景分为 32 个静态场景、32 个动态场景和 56 个多样化场景,覆盖了高速、低光照等具有挑战性的场景。

然后根据数据集的不同子集,评估每个 NeRF 模型重建场景和合成新视角的能力。

如表 1 所示,据此,EmerNeRF 在场景重建和新视角合成方面的表现始终明显优于其他方法。

EmerNeRF 的表现还优于专门用于静态场景的方法,这表明将场景分解为静态和动态元素的自监督分解既能够改善静态重建,还能够改善动态重建。

总结

自动驾驶仿真只有在能够准确重建现实世界的情况下才会有效。随着场景的日益动态化和复杂化,对保真度的要求也越来越高,而且更难实现。

与以前的方法相比,EmerNeRF 能够更准确地表现和重建动态场景,而且无需人工监督或外部模型。这样就能大规模地重建和编辑复杂的驾驶数据,解决目前自动驾驶汽车训练数据集的不平衡问题。

NVIDIA 正迫切希望研究 EmerNeRF 带来的新功能,如端到端驾驶、自动标注和仿真等。

如要了解更多信息,请访问 EmerNeRF 项目页面并阅读 EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision

了解更多

  • 适用于自动驾驶汽车的解决方案

    https://www.nvidia.cn/self-driving-cars/

  • EmerNeRF 项目页面

    https://emernerf.github.io/

  • 阅读 EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision.

    https://arxiv.org/abs/2311.02077

GTC 2024 将于 2024 年 3 月 18 至 21 日在美国加州圣何塞会议中心举行,线上大会也将同期开放。点击“阅读原文”扫描下方海报二维码,立即注册 GTC 大会


原文标题:使用自监督学习重建动态驾驶场景

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3332

    浏览量

    87804

原文标题:使用自监督学习重建动态驾驶场景

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于transformer和自监督学习的路面异常检测方法分享

    铺设异常检测可以帮助减少数据存储、传输、标记和处理的压力。本论文描述了一种基于Transformer和自监督学习的新方法,有助于定位异常区域。
    的头像 发表于 12-06 14:57 811次阅读
    基于transformer和自<b class='flag-5'>监督学习</b>的路面异常检测方法分享

    动态场景下的自监督单目深度估计方案

    监督单目深度估计的训练可以在大量无标签视频序列来进行,训练集获取很方便。但问题是,实际采集的视频序列往往会有很多动态物体,而自监督训练本身就是基于静态环境假设,动态环境下会失效。
    发表于 11-28 09:21 285次阅读
    <b class='flag-5'>动态</b><b class='flag-5'>场景</b>下的自<b class='flag-5'>监督</b>单目深度估计方案

    EmerNeRF:全面基于NeRF的自动驾驶仿真框架,无需分割

    在自动驾驶中,感知、表示和重建动态场景对于代理程序理解并与其环境进行交互至关重要。
    的头像 发表于 11-21 10:23 2223次阅读
    EmerNeRF:全面基于NeRF的自动<b class='flag-5'>驾驶</b>仿真框架,无需分割

    深度学习的由来 深度学习的经典算法有哪些

    深度学习作为机器学习的一个分支,其学习方法可以分为监督学习和无监督学习。两种方法都具有其独特的学习
    发表于 10-09 10:23 365次阅读
    深度<b class='flag-5'>学习</b>的由来 深度<b class='flag-5'>学习</b>的经典算法有哪些

    自动驾驶操作域监督是什么

    操作域监督(ODS) 操作域监督功能模块图 操作域监督模块监控与动态驾驶任务相关的能力、状态和情况,目的是确保自动
    的头像 发表于 10-04 18:19 328次阅读
    自动<b class='flag-5'>驾驶</b>操作域<b class='flag-5'>监督</b>是什么

    机器学习模型类型分类

     机器学习按照模型类型分为监督学习模型、无监督学习模型两大类。 1. 有监督学习监督学习通常是利用带有专家标注的标签的训练数据,
    的头像 发表于 09-05 11:45 1381次阅读
    机器<b class='flag-5'>学习</b>模型类型分类

    适用于任意数据模态的自监督学习数据增强技术

    本文提出了一种适用于任意数据模态的自监督学习数据增强技术。   自监督学习算法在自然语言处理、计算机视觉等领域取得了重大进展。这些自监督学习算法尽管在概念上是通用的,但是在具体操作上是基于特定的数据
    的头像 发表于 09-04 10:07 788次阅读
    适用于任意数据模态的自<b class='flag-5'>监督学习</b>数据增强技术

    人工智能的关键技术包括哪些

    机器学习是人工智能的一个重要分支,它通过计算的手段、学习经验(也可以说是利用经验)来改善系统的性能。它包括:有监督学习、无监督学习和强化学习
    发表于 08-28 12:53 1123次阅读
    人工智能的关键技术包括哪些

    机器学习有哪些算法?机器学习分类算法有哪些?机器学习预判有哪些算法?

    有许多不同的类型和应用。根据机器学习的任务类型,可以将其分为几种不同的算法类型。本文将介绍机器学习的算法类型以及分类算法和预测算法。 机器学习的算法类型 1. 监督学习算法 在
    的头像 发表于 08-17 16:30 1410次阅读

    深度学习框架和深度学习算法教程

    了基于神经网络的机器学习方法。 深度学习算法可以分为两大类:监督学习和无监督学习监督学习的基本任务是训练模型去
    的头像 发表于 08-17 16:11 727次阅读

    人工智能技术包括哪些方面

    机器学习通常分为监督学习和无监督学习监督学习通过在计算机上显示标记的数据集进行训练,使其可以预测未来的输入。无监督学习则是一种不需要标记
    的头像 发表于 08-14 15:06 1272次阅读

    人工智能ai是什么

    在人工智能的发展中,最重要的是机器学习(Machine Learning),这是一种人工智能的实现方式,通过对大量数据进行分析和学习,让系统自己找到规律和特征,从而达到自主智能化的目的。在机器学习中,主要有三种方式,分别是
    的头像 发表于 08-14 14:20 2883次阅读

    三维场景点云理解与重建技术

    三维场景理解与重建技术主要包含场景点云特征提取、扫描点云配准与融合、场景理解与语义分割、扫描物体点云补全与细粒度重建等,在处理真实扫描
    的头像 发表于 08-08 16:58 715次阅读
    三维<b class='flag-5'>场景</b>点云理解与<b class='flag-5'>重建</b>技术

    最新3D表征自监督学习+对比学习:FAC

    第二个是我们防止 3D 片段/对象之间的过度判别,并通过 Siamese 对应网络中的自适应特征学习鼓励片段级别的前景到背景的区别,该网络有效地自适应地学习点云视图内和点云视图之间的特征相关性。
    的头像 发表于 05-17 09:28 566次阅读
    最新3D表征自<b class='flag-5'>监督学习</b>+对比<b class='flag-5'>学习</b>:FAC

    机器学习步骤详解,一文了解全过程

    调整,使其生成正确的输出。在其他情况下,则实行无监督学习,由系统负责梳理数据来发现以前未知的模式。大多数机器学习模型都是遵循这两种范式(监督学习与无监督学习)。
    的头像 发表于 05-16 09:55 4189次阅读
    机器<b class='flag-5'>学习</b>步骤详解,一文了解全过程