0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

无需微调,即插即用的占据预测模型—FlashOcc介绍

jf_pmFSk4VX 来源:GiantPandaCV 2024-01-05 11:36 次阅读

1. 本文简介

占据预测是指在自动驾驶系统中,根据传感器的输入,预测三维空间中的每个体素是否被物体占据。占据预测可以有效地解决三维物体检测中的长尾问题和复杂形状的缺失问题。然而,占据预测也面临着一个挑战,即如何在保证准确性的同时,提高速度和降低内存消耗。现有的占据预测方法通常使用三维卷积来处理体素级别的特征,这会导致大量的计算和存储开销,不利于部署到不同的芯片上。为了解决这个问题,文章提出了一种快速和节省内存的占据预测方法,称为FlashOcc。FlashOcc的核心思想是利用一个通道到高度的变换,将二维的鸟瞰图特征转换为三维的占据概率,从而避免了使用三维卷积。FlashOcc的优点是,它可以作为一个插件,直接应用到现有的占据预测方法上,无需额外的训练或微调。文章在Occ3D-nuScenes数据集上进行了实验,证明了FlashOcc的有效性和高效性,在保持高精度的同时,显著提高了速度和降低了内存消耗,展示了其在自动驾驶场景中的潜力。

cfa73842-a082-11ee-8b88-92fbcf53809c.png

图1.(a) 说明了我们的FlashOcc如何以插即用的方式实现。当代方法使用由3D卷积处理的体素级特征预测占据情况。与之形成对比,我们的插件模型通过(1)用2D卷积替换3D卷积。(2)用通道与高度变换的BEV级特征替换3D卷积派生的占据logits,实现了快速和内存高效的占据预测。(b) 插件替代与原始方法之间在精度及速度、内存消耗和训练时间等因素上的权衡。

2. 原文摘要

由于具有减轻数据集长尾效应和复杂形状缺失的作用,占据预测已经成为自动驾驶系统中的重要组成部分。然而,使用三维体素级表示不可避免地导致了巨大的内存和计算开销,这限制了占据预测方法的部署。与当前使模型更大更复杂的趋势相反,我们认为理想的框架应该既能适应各种芯片以便部署,又能保持高精度。为此,我们提出了一个即插即用的范式,即FlashOCC,以实现快速和内存高效的占据预测,同时保持高精度。具体来说,我们的FlashOCC在现有的体素级占据预测方法的基础上做了两点改进。第一,特征保留在俯视图中,以利用高效的2D卷积层进行特征提取。第二,引入了一种通道与高度的变换,以将输出结果从俯视图映射到三维空间。我们在具有挑战性的Occ3D-nuScenes基准测试上将FlashOCC应用于不同的占据预测基线,并进行了广泛的实验来验证其有效性。结果表明,我们的即插即用范式在精度、运行时效率和内存成本方面都优于之前的最先进的方法,显示了其部署的潜力。代码将会开源。

cfbfc36c-a082-11ee-8b88-92fbcf53809c.png

图2. 我们的FlashOcc的总体架构。虚线框标识的区域表示可替换模块。每个可替换模块的特征形状按图1和图2中的说明表示。浅蓝色区域对应可选的时序融合模块,其使用取决于红色开关的激活。

3. 方法详解

FlashOcc系统框架如图2所示。输入数据为环视图像,输出为密集的占据预测结果。它包括五个基本模块:(1)二维图像编码器;(2)视角变换模块;(3)BEV编码器;(4)占据预测模块;(5)时序融合模块(可选)。

3.1 图像编码器

图像编码器使用backbone网络提取输入图像的高层语义特征,然后馈入neck模块进行融合,从而充分利用不同粒度的语义信息。常用的backbone网络有经典的ResNet和强大的Swin Transformer。neck模块选择简洁的FPN-LSS,它将细粒度特征与直接上采样的粗粒度特征集成。

3.2 视角变换

视角变换模块的作用是将二维感知视角特征映射到BEV表示中。Lift-splat-shot (LSS)和Lidar Structure (LS)被广泛使用。LSS利用像素级密集深度预测和相机内在外参将图像特征投影到预定义的三维网格体素上。然后沿垂直维度(高度)应用汇聚操作以获得扁平的BEV表示。然而,LS依赖均匀分布的深度进行特征转换,这会导致沿相机光线方向的特征错配和后续的错误检测,尽管计算复杂度有所降低。

3.3 BEV编码器

BEV编码器通过视角变换获得的粗糙BEV特征,输出更详细的三维表示。其结构与图像编码器类似,包括backbone和neck。正如第3.1节所概述的,我们采用相同的设置。经过若干层后,特征扩散用于改善中心特征丢失的问题。如图2所示,两个不同尺度的特征被集成以增强表示质量。

3.4 占据预测头部

wKgZomWXebSAEnrwAACfHZ88-mw515.jpg

3.5 时序融合组件

时序融合组件通过整合历史信息来增强动态物体或属性的感知。它包含两个主要组件:空间-时序对齐模块和特征融合模块。对齐模块使用自身信息将历史BEV特征与当前激光雷达系统对齐。这种对齐过程确保历史特征得以正确插值和与当前感知系统同步。一旦完成对齐,对齐的BEV特征被传递到特征融合模块。该模块考虑它们的时序上下文,集成对齐特征以生成动态物体或属性的全面表示。融合过程组合相关的历史特征和当前感知输入的信息,以提高整体感知精度和可靠性。

4. 实验结果

我们对Talk2BEV在Talk2BEV-Bench上的问题进行了定量评估。我们报告了不同LVLM在不同任务子集和不同类型问题上的性能,以及它们的平均性能。MiniGPT-4在所有类型问题上都取得了最佳的平均性能。BEV中的误差对性能的影响较小,这表明随着更高性能的LVLM的出现,Talk2BEV的性能有望进一步提高。表II展示了Talk2BEV使用不同LVLM构建的语言增强地图(BLIP-2、InstructBLIP-2、MiniGPT-4)和BEV变体(LSS和GT)在多项选择问题(MCQs)上的性能。表III评估了空间操作符对系统性能的影响,显示了集成空间操作符带来的显著改进。此外,表IV报告了不同对象类别的性能,突出了车辆类别之间的性能差异。

cfe766c4-a082-11ee-8b88-92fbcf53809c.png

表1. Occ3D-nuScenes验证集上的三维占据预测性能。

cff7df0e-a082-11ee-8b88-92fbcf53809c.png

表2. 各种方法的详细设置。

d0119e08-a082-11ee-8b88-92fbcf53809c.png

图3. Occ3D-nuScenes上的定性结果。

d0199a86-a082-11ee-8b88-92fbcf53809c.png

表3. 在各种流行的基于体素的占据方法论上普适性demonstration的FlashOcc。

d02e7032-a082-11ee-8b88-92fbcf53809c.png

表4. 时序融合中的持续改进demonstration。

d03f83ea-a082-11ee-8b88-92fbcf53809c.png

表5. 训练和部署期间的资源消耗分析。

5. 总结

在本文中,我们介绍了一种即插即用的方法,称为FlashOCC,它旨在实现快速和节省内存的占据预测。它直接用二维卷积替换了基于体素的占据方法中的三维卷积,并引入了通道到高度的变换,将扁平化的BEV特征重塑为占据logits。FlashOCC的有效性和泛化性已经在多种体素级占据预测方法上得到了验证。广泛的实验表明,该方法在精度、时间消耗、内存效率和部署友好性方面优于以前的最先进的方法。据我们所知,我们是第一个将子像素范式(通道到高度)应用于占据任务的工作,它仅利用BEV级特征,完全避免了使用计算复杂的三维(可变形)卷积或变换器模块。并且,可视化结果令人信服地证明了FlashOcc成功地保留了高度信息。在我们的未来工作中,我们将探索将我们的FlashOcc集成到自动驾驶的感知流程中,旨在实现高效的片上部署。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 传感器
    +关注

    关注

    2526

    文章

    48110

    浏览量

    740141
  • 编码器
    +关注

    关注

    41

    文章

    3361

    浏览量

    131555
  • 变换器
    +关注

    关注

    17

    文章

    2027

    浏览量

    108399
  • 自动驾驶系统

    关注

    0

    文章

    63

    浏览量

    6655
  • LSS
    LSS
    +关注

    关注

    0

    文章

    8

    浏览量

    1872

原文标题:FlashOcc:无需微调,即插即用的占据预测模型!

文章出处:【微信号:GiantPandaCV,微信公众号:GiantPandaCV】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    即插即用和热插拔的区别

    关系。即插即用是要重启机器才能认出来的热插拔立刻就能认出来 支持即插即用是一种使您可以快速简易安装某硬件设备而无需安装设备驱动程序或重新配置系统的标准。即插即用需要硬件和软件两方面支
    发表于 10-23 10:26

    ————即插即用无需组网协议wifi模块————

    即插即用wifi模块,无需写组网协议,多种接口。 Wifi模块 EC32L13 EC19DEC32L13模块的规格————特点;功耗低,尺寸小,稳定l2.4GHz IEEE 802.11b/g/nl
    发表于 03-25 15:48

    即插即用移动电源管理芯片

    即插即用移动电源管理芯片
    发表于 11-25 10:35

    多片段时序数据建模预测实践资料分享

    数据集进行模型的构建与预测分析的,但是在实际的工程使用中会有一种特殊的情况就是:我们通过实验所采集到的数据集往往不是绝对连续的而是多“片段”的。何为 “片段”?以我之前的时序建模相关的文章来讲,诸如:气象数据预测、风力发电数
    发表于 06-30 07:52

    模型预测控制介绍

    这篇主要讲一下模型预测控制,如果对PID控制了解的同学,那效果更好。如果不了解PID控制,还是熟悉下比较好。模型预测控制,顾名思义,基于模型
    发表于 08-18 06:21

    PCI与即插即用

    PCI与即插即用 即插即用 是从英文“Plug and Play”翻译过来的,缩写为 PnP 。即插即用功能只有在同时具备了符合以下4个条件时才可以:即插即
    发表于 12-09 13:51 2014次阅读

    什么是即插即用

    什么是即插即用              支持即插即用是一种使您可以快速简易安装某硬件设备而无需安装设备驱动程序或重新
    发表于 12-28 11:17 2041次阅读

    据预测分析方法

    据预测分析方法,有需要的朋友下来看看。
    发表于 01-15 15:07 0次下载

    详细剖析OPC和即插即用技术

    介绍OPC和即插即用技术,重点对OPC实际应用标准的发展、技术、特点及适用范围与接口应用作分折说明。
    的头像 发表于 01-26 15:18 5715次阅读
    详细剖析OPC和<b class='flag-5'>即插即用</b>技术

    Bluetechnix演示即插即用摄像机系统

    本视频展示了一种基于Blackfin处理器的即插即用摄像机系统,由Bluetechnix GmbH开发。
    的头像 发表于 06-04 13:47 1853次阅读

    神经网络在数据预测有怎么样的应用

    本文档的主要内容详细介绍的是神经网络在数据预测有怎么样的应用。
    发表于 02-29 08:00 0次下载

    季节性时空数据预测模型在城市中的应用

    季节性时空数据预测模型在城市中的应用
    发表于 06-07 16:16 2次下载

    索引即插即用主板REV000

    电子发烧友网站提供《索引即插即用主板REV000.zip》资料免费下载
    发表于 07-27 11:27 4次下载
    索引<b class='flag-5'>即插即用</b>主板REV000

    电源系统设计:非完全“即插即用

    电源系统设计:非完全“即插即用
    发表于 11-07 08:07 1次下载
    电源系统设计:非完全“<b class='flag-5'>即插即用</b>”

    四种微调模型的方法介绍

    微调(Full Fine-tuning):全微调是指对整个预训练模型进行微调,包括所有的模型参数。在这种方法中,预训练
    发表于 01-03 10:57 5720次阅读
    四种<b class='flag-5'>微调</b>大<b class='flag-5'>模型</b>的方法<b class='flag-5'>介绍</b>