0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于纯视觉的感知方法

地平线HorizonRobotics 来源:地平线HorizonRobotics 2023-06-15 14:20 次阅读

背景 近年来,基于纯视觉的感知方法由于其较高的信噪比和较低的成本,在自动驾驶领域占有重要地位。其中,鸟瞰图(BEV)感知已成为主流的方法。在以视觉为中心的自动驾驶任务中,BEV表示学习是指将周围多个摄像头的连续帧作为输入,然后将像平面视角转换为鸟瞰图视角,在得到的鸟瞰图特征上执行诸如三维目标检测、地图视图语义分割和运动预测等感知任务。 BEV感知性能的提高取决于如何快速且精准地获取道路和物体特征表示。图1中展示了现有的两类基于不同交互机制的BEV感知管道:(a)后交互和(b)中间交互。后交互管道[1]在每个相机视角上独立地进行感知,然后将感知结果在时间和空间上融合到一个统一的BEV特征空间中。中间交互管道[2,3,4]是最近使用得最广泛的方案,它将所有的相机视角图像耦合输入到网络中,通过网络将它们转换到BEV空间,然后直接输出结果。中间交互管道中的特征提取、空间转换和BEV空间的学习都有一个明确的顺序。

bb012d7e-0b42-11ee-962d-dac502259ad0.png

图1:后交互、中间交互和我们提出的前置交互框架示意图 基于视觉的BEV感知的核心挑战是从仿射视角(Perspective View, PV)向鸟瞰图视角(BEV)的转换。然而,利用现有的两种交互策略将PV转换到BEV仍然存在许多问题:(1) 图像空间backbone只依次提取不同分辨率的图像特征,而没有融合任何跨分辨率的信息;(2) 现有的交互策略中核心模块的计算量主要由图像空间backbone占据,但它不包含任何BEV空间信息,导致大量的计算并没有执行PV到BEV转换这一关键任务;(3) 后交互策略和中间交互策略的前向处理中的信息流是单向的,信息从图像空间流到BEV空间,而BEV空间中的信息并没有有效地影响图像空间中的特征。为了解决这些问题,我们提出了一种新的基于Transformer的双向前置交互框架,以有效地将多尺度图像特征聚合成更好的BEV特征表示,并执行BEV语义分割任务。 与现有的两种策略相比,我们提出的前置交互方法具有明显的优势。首先,我们提出的双向前置交互方法可以融合全局上下文信息和局部细节,从而能够向BEV空间传递更丰富的语义信息。其次,我们提出PV到BEV的转换不仅可以是图像特征提取后,而且可以在提取过程中进行逐步转换,于是,通过我们提出的双向交叉注意力机制,信息流可以隐式地进行双向交互,从而对齐PV和BEV中的特征。此外,我们的方法可以将跨空间对齐学习扩散到整个框架中,即图像网络学习不仅可以学习到良好的特征表示,而且可以起到跨空间对齐的作用。 方法

整体框架

BAEFormer的整体框架如图2所示,总共包含两个部分:(1)双向前置交互编码器,用于提取图像特征并将其从PV转换为BEV;(2)将低分辨率BEV特征上采样到高分辨率BEV特征的解码器,用于执行下游任务。

bb41a520-0b42-11ee-962d-dac502259ad0.png

图2:BAEFormer整体框架图

前置交互

对于前置交互模块,我们使用EfficientNet[5]的预训练模型来提取环视图像的特征,特征提取器包含三层,分别提取图像的4x,8x,16x分辨率的特征。4x分辨率的特征首先被提取出来,通过一个降采样模块之后和BEV特征进行交互得到更新之后的4x分辨率特征,将更新之后的4x特征上采样,并作为特征提取器的下一层的输入来提取8x分辨率特征。以此类推,我们得到更新之后的8x特征并作为特征提取器最后一层的输入,由此得到16x图像特征。我们的多尺度前置交互方法可以充分利用分层预训练的模型来整合多尺度图像特征。同时,BEV的空间信息可以流入主干网络,使前置交互主干网络承担了部分异质空间对齐的功能。

双向交叉注意力

如图3中所示,我们提出的双向交叉注意力模型包含两个分支,一个用于多视图图像特征的精细化,另一个用于BEV特征的精细化。 首先,N个环视图像特征首先被编码为查询特征,键特征和值特征,其中c表示特征维度,h和w分别表示特征的高和宽。相似的,BEV特征编码也被转换为查询特征,键特征和值特征。于是图像特征和BEV特征的交叉注意力可以表示为: 整个Transformer模块就可以使用下式计算: 其中,和表示第l层的输入,和表示第l层的输出。LN(∙)表示层归一化操作,MLP(∙)表示有2个全连接层和一个非线性层的多层感知机模块,MHBiCA(∙)表示拥有多头交叉注意力机制的BiCA(∙)模块。

bb745b5a-0b42-11ee-962d-dac502259ad0.png

图3:双向交叉注意力框架图 实验结果 表1展示了BAEFormer方法和之前的方法在两种设置下的性能、参数和推理速度的对比结果。可以看出,BAEFormer在使用相同输入分辨率(224x480)的设置下,在精度上超过了现有的实时方法。同时,虽然先前的BEVFormer[2]实现了高性能,但它非常耗时,模型参数高达68.1M。我们的BAEFormer在大输入图像分辨率(504x1056)下的运行速度比BEVFormer快12倍,而参数量大约是它的1/12。

bb8b8cc6-0b42-11ee-962d-dac502259ad0.png

表1:nuScenes数据集上车辆类别的语义分割结果

消融实验

表2展示了我们在nuScenes数据集上对车辆类别进行的不同交互方式的消融实验。实验结果表明,我们的BAEFormer方法可以将双向交叉注意力机制和前置交互方式充分地结合以得到更好的BEV特征表示。

bba9ec34-0b42-11ee-962d-dac502259ad0.png

表2:不同交互方式的消融实验 表3展示了具有不同输入分辨率和图像特征尺度的模型的mIoU性能和内存使用情况。结果说明,使用多尺度特征可以带来更好的性能;增大输入图像分辨率可以提高性能,但会带来显存的剧增;我们发现,如(j)-(n)所示,在交互过程中,输入图像的分辨率对最终的精度没有太大的影响;因此我们可以在提高输入图像分辨率来提升性能的同时,通过对交互时的图像特征进行降采样来保证计算量是可控的。

bbb94b34-0b42-11ee-962d-dac502259ad0.png

表3: 不同输入分辨率和不同图像特征尺度的组合

可视化结果

图4展示了BEV下的可视化结果,可以看出BAEFormer对比baseline模型,不仅对于近处物体漏检(红色圈)的数目有效减少,且对于远处物体(绿色圈)也能进行有效的感知,进一步说明了我们方法的感知能力具有一定的优势。

bbd7ff20-0b42-11ee-962d-dac502259ad0.png

图4:不同模型的可视化结果对比 结论 在本文中,我们提出了一种称为BAEFormer的BEV语义分割新框架,采用双向交叉注意力机制,通过对图像特征空间和 BEV 特征空间中的信息流施加双向约束来建立改进的跨空间对齐,同时利用前置交互方法来合并跨尺度信息,并实现更精细的语义表示。实验结果表明,BAEFormer在保持实时推理速度的同时能够提高BEV语义分割的性能。 点击“阅读原文”,下载论文获取更多信息。
责任编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 相机
    +关注

    关注

    4

    文章

    1253

    浏览量

    52452
  • 视觉
    +关注

    关注

    1

    文章

    140

    浏览量

    23678
  • 感知
    +关注

    关注

    1

    文章

    63

    浏览量

    12012

原文标题:CVPR 2023|BAEFormer:基于双向前置交互Transformer的BEV语义分割方法

文章出处:【微信号:horizonrobotics,微信公众号:地平线HorizonRobotics】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    有谁是做认知无线电频谱感知方向的吗

    本人研二,研究方向为认知无线电频谱感知方法的研究,主要是处理数字端,有哪位童鞋跟我是同方向,一起探讨探讨啊
    发表于 09-11 22:13

    人类视觉感知方式对VR的挑战

    美国VR开发商Oculus VR首席科学家迈克尔·阿布拉西(Michael Abrash)近日撰文,阐述了人类视觉感知给虚拟现实(VR)发展带来的重大影响。作为人类,我们看到的影像其实都是视觉骗局
    发表于 07-29 07:35

    智能感知方案怎么帮助实现安全的自动驾驶?

    未来,自动驾驶将不再是科幻电影里的桥段,这是未来汽车的一个趋势,感知是自动驾驶的重要组成部分,同时安全性至关重要。作为全球第7大汽车半导体供应商,安森美半导体提供全面的智能感知方案,包括图像传感器
    发表于 07-31 07:11

    基于视觉感知的镶嵌图像质量评价方法

    传统的图像质量评价方法难以较好地评价镶嵌效果。该文针对仅通过频率活动性(SFA)对镶嵌效果中拼缝光滑度进行评价获取较优效果图时存在的问题,依据视觉感知特性的对比敏感性
    发表于 04-16 10:18 21次下载

    认知无线电中基于循环平稳特征的频谱感知方法

    认知无线电中基于循环平稳特征的频谱感知方法.
    发表于 03-16 15:55 35次下载
    认知无线电中基于循环平稳特征的频谱<b class='flag-5'>感知方法</b>

    智能机器人多传感器融合感知方法

    智能机器人多传感器融合感知方法,感兴趣的小伙伴们可以瞧一瞧。
    发表于 09-20 16:10 19次下载

    一种基于智能终端的环境与接近度感知方法

    提出一种基于智能终端的环境与接近度感知方法。首先,基于智能终端多种内置传感器采集的环境数据,提出一种环境感知算法,可以有效地识别不同场景切换;其次,以log-normal衰落模型得到的蓝牙信号
    发表于 11-16 11:17 7次下载
    一种基于智能终端的环境与接近度<b class='flag-5'>感知方法</b>

    基于信道历史状态信息的频谱感知方法

    针对卫星认知网络环境中待检测信号强度不断变化的特点,为了突破传统能量检测的性能极限,提出一种基于信道历史状态信息的频谱感知方法。首先,通过建立具有遗忘机制的信道历史状态判决模型实现对当前时刻信道状态
    发表于 01-15 15:33 0次下载
    基于信道历史状态信息的频谱<b class='flag-5'>感知方法</b>

    新的工业应用智能感知方

    推动高能效创新的安森美半导体(ON Semiconductor,美国纳斯达克上市代号:ON),将于 7 月 3 日至 5 日在 2020 中国(上海)机器视觉展展示广泛的智能图像感知方案。
    发表于 07-03 11:40 867次阅读

    奥比中光全系3D视觉感知产品亮相光博会,机器视觉“未来已来”

    9月16日-18日,第23届光电博览会(下称“光博会”)在深圳国际会展中心举办。3D视觉感知领域独角兽奥比中光以“3D全领域,感知联未来”为主题,展出3D视觉
    发表于 09-23 09:46 808次阅读

    极目智能产品方案亮相上海车展 携手地平线、楚航科技发力智能驾驶感知方

    地平线征程5的极目L2+级JMBEV融合感知方案及“双循环”数据闭环 JMBEV是极目智能推出的L2+级别智能驾驶感知方案,采用BEV感知、3D目标跟踪等技术,通过多模态传感器实现车身360°周视环境
    的头像 发表于 04-26 09:38 1371次阅读
    极目智能产品方案亮相上海车展 携手地平线、楚航科技发力智能驾驶<b class='flag-5'>感知方</b>案

    基于双向前置交互Transformer的BEV语义分割方法

    近年来,基于纯视觉感知方法由于其较高的信噪比和较低的成本,在自动驾驶领域占有重要地位。
    发表于 06-15 14:15 298次阅读
    基于双向前置交互Transformer的BEV语义分割<b class='flag-5'>方法</b>

    新一代读写台灯精准智能感知方

    了,本来想给你推荐个好东西来着啥好东西?来吧,展示!New新一代读写台灯精准智能感知方案智能感知爱眼台灯内置XBR816C智能感知芯片学习、阅读、弹钢琴、工作·····
    的头像 发表于 11-19 16:15 1004次阅读
    新一代读写台灯精准智能<b class='flag-5'>感知方</b>案

    4分钟了解吸顶灯具智能感知方案测试方法

    视频版吸顶灯智能感知方案测试方法从照明灯具、家电家居、安防系统、健康看护系统到商业设备,我们身边的智能设备变得越来越聪明。在这场智能化革命中,富奥星雷达传感器赋予了这些设备感知、检测和互动能力,成功
    的头像 发表于 12-01 10:20 802次阅读
    4分钟了解吸顶灯具智能<b class='flag-5'>感知方</b>案测试<b class='flag-5'>方法</b>

    ​人工智能技术解密——机器视觉技术及应用

    视觉是人类最敏感、最直接的感知方式,在不进行实际接触的情况下,视觉感知可以使得我们获取周围环境的诸多信息
    的头像 发表于 07-07 14:15 643次阅读
    ​人工智能技术解密——机器<b class='flag-5'>视觉</b>技术及应用