0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

BEVSegFormer创造了新的BEV分割SOTA

Nullmax纽劢 来源:纽劢科技 作者:纽劢科技 2022-04-27 09:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

自动驾驶而言,BEV(鸟瞰图)下的语义分割是一项重要任务。尽管这项工作已经吸引了大量的研究,但灵活处理自动驾驶车辆上的任意相机配置(单个或多个摄像头),仍然是一项挑战。

为此,Nullmax的感知团队提出了BEVSegFormer,这一基于Transformer的BEV语义分割方法,可面向任意配置的相机进行BEV语义分割。

这项研究的题目为《BEVSegFormer: Bird's Eye View Semantic Segmentation From Arbitrary Camera Rigs》,论文链接:https://arxiv.org/abs/2203.04050。

为了评估这一算法的效果,Nullmax在nuScenes公开数据集以及Nullmax的自采数据集上进行了验证。实验结果表明,BEVSegFormer对任意相机配置的BEV语义分割,具有出色的性能表现。并且在nuScenes验证集上,BEVSegFormer创造了新的BEV分割SOTA。

在接下来的工作中,我们还计划针对自动驾驶以及BEV语义分割的一些其他挑战,展开进一步的研究。

欢迎对计算机视觉及自动驾驶感知感兴趣的小伙伴加入我们,一起探索!

01

关于BEVSegFormer

在自动驾驶或者机器人导航系统中,以BEV形式对感知信息进行表征,具有至关重要的作用,因为它可以为规划和控制提供诸多的便利。

比如,在无地图导航方案中,构建本地BEV地图,不仅成为了高精地图外的另一种选择,并且对于包括智体行为预测以及运动规划等感知系统下游任务而言,也非常重要。而利用相机的输入进行BEV语义分割,通常被视为构建本地BEV地图的第一步。

为此,传统方法一般会先在图像空间生成分割结果,然后通过逆透视变换(IPM)函数转换到BEV空间。虽然这是一种连接图像空间和BEV空间的简单直接的方法,但它需要准确的相机内外参,或者实时的相机位姿估计。所以,视图变换的实际效果有可能比较差。

以车道线分割为例,在一些挑战性场景中,比如遮挡或者远处区域,使用IPM的传统方法提供的结果就不够准确,如图所示。

d90fae6c-c5ca-11ec-bce3-dac502259ad0.png

近年来,深度学习方法已被研究用于BEV语义分割。Lift-Splat-Shoot通过逐像素深度估计结果完成了从图像视图到BEV的视图变换。不过使用深度估计,也增加了视图变换过程的复杂度。此外,有一些方法应用MLP或者FC算子来进行视图变换。这些固定的视图变换方法,学习图像空间和BEV空间之间的固定映射,因此不依赖于输入的数据。

而基于Transformer的方法,是在BEV空间下进行感知的另一个研究方向。在目标检测任务中,DETR3D引入了一种3D边界框检测方法,直接从多个相机图像的2D特征生成3D空间中的预测。3D空间和2D图像空间之间的视图变换,通过交叉注意模块的3D到2D查询来实现。

受此启发,我们提出了BEVSegFormer,通过在Transformer中使用交叉注意机制进行BEV到图像的查询,来计算视图变换。

BEVSegFormer由3个主要的组件组成:

共享的主干网络,用于提取任意相机的特征图;

Transformer编码器,通过自注意模块嵌入特征图;

BEV Transformer解码器,通过交叉注意机制处理BEV查询,输出最终的BEV语义分割结果。

d944de0c-c5ca-11ec-bce3-dac502259ad0.png

具体来说,BEVSegFormer首先是使用了共享的主干网络,对来自任意相机的图像特征进行编码,然后通过基于可变形Transformer的编码器对这些特征进行增强。

除此之外,BEVSegFormer还引入了一个BEV Transformer解码器模块,对BEV语义分割的结果进行解析,以及一种高效的多相机可变形注意单元,完成BEV到图像的视图变换。

最后,根据BEV中的网格布局对查询进行重塑,并进行上采样,以有监督的方式生成语义分割结果。

我们分别在nuScenes公开数据集以及Nullmax的自采数据集上,检验了BEVSegFormer的算法效果。实验结果表明,BEVSegFormer在nuScenes验证集上创造了新的BEV分割SOTA。通过消融实验,当中每个组件的效果也得到了验证。

d97c3780-c5ca-11ec-bce3-dac502259ad0.png

02

加入我们

在这项研究中,我们为了应对自动驾驶车辆上任意相机配置的BEV语义分割挑战,提出了BEVSegFormer。

接下来,我们还计划在自动驾驶当中,基于Transformer探索内存效率更高、解释性更强的BEV语义分割方法。

欢迎对BEV、Transformer在自动驾驶中的感知任务感兴趣,以及希望从事于计算机视觉和自动驾驶感知研发的同学,加入Nullmax感知团队。

在这里,你可以直接参与到大量自动驾驶量产项目的落地,以及最前沿技术的预研当中,为你的idea和技术找到一个充分施展的舞台!

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自动驾驶
    +关注

    关注

    791

    文章

    14672

    浏览量

    176589
  • 深度学习
    +关注

    关注

    73

    文章

    5591

    浏览量

    123912

原文标题:当BEV语义分割遇上了Transformer,故事的结局是新的SOTA

文章出处:【微信号:Nullmax,微信公众号:Nullmax纽劢】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    赋能 BEV 感知课题!高校科研多传感器时间同步方案

    在高校自动驾驶实验室里,团队可能常以BEV(Bird’s-EyeView)感知架构为研究主线。旨在通过相机阵列和激光雷达的数据,在空间上重建统一的车周环境,为下游检测、分割提供高精度“语义地图”。然而,一旦相机间的时间同步存在几十毫秒及以上的
    的头像 发表于 11-14 17:32 2717次阅读
    赋能 <b class='flag-5'>BEV</b> 感知课题!高校科研多传感器时间同步方案

    传音TEX AI团队斩获ICCV 2025大型视频目标分割挑战赛双料亚军

    目标分割两个赛道中均荣获全球第二名,击败众多国内外强队,充分展示团队在复杂视频理解与多模态视频目标分割领域的深厚积累与世界级竞争力。
    的头像 发表于 10-31 09:42 298次阅读
    传音TEX AI团队斩获ICCV 2025大型视频目标<b class='flag-5'>分割</b>挑战赛双料亚军

    手机板 layout 走线跨分割问题

    初学习layout时,都在说信号线不可跨分割,但是在工作中为了成本不能跨分割似乎也非绝对。 在后续工作中,跨分割的基础都是相邻层有一面完整的GND参考,跨分割发生在相邻的另外一层。 但
    发表于 09-16 14:56

    AURIX tc367通过 MCU SOTA 更新逻辑 IC 闪存是否可行?

    你好专家:我的用例是 MCU 通过 SPI 连接到逻辑 IC,逻辑 IC 连接到 8MB 闪存,但 MCU PFLASH 大小为 2MB,通过 MCU SOTA 更新逻辑 IC 闪存是否可行?
    发表于 08-11 06:36

    求助,关于TC387使能以及配置SOTA 中一些问题求解

    你好, 之前我拿到贵司给一个demo,里面有一些使能以及配置SWAP的代码, 这里有些疑问 问题1. 判断SOTA功能是否生效,demo中使用的是 SCU_STMEM1中的bit位, 代码如下
    发表于 08-08 07:31

    基于黄金分割搜索法的IPMSM最大转矩电流比控制

    摘 要:在矢量控制理论的基础上,研究内嵌式永磁同步电机(IPMSM)基于黄金分割搜索法实现最大转矩电流比控制(MTPA)的方法。该方法利用对理论最优电流矢量角表达式进行多项式拟合所得值作为搜索
    发表于 07-29 16:11

    如何将32个步进伺服驱动器塞进小型板材分割机中?

    板材分割机是工业制造中常见的装备。机器的内部空间狭小,如何将多达32个步进伺服驱动器安装在其中显得非常困难。本文将通过基于EtherCAT总线的插板式步进伺服驱动器剖析其破解之法!传统铣刀式板材分割
    的头像 发表于 07-08 11:37 360次阅读
    如何将32个步进伺服驱动器塞进小型板材<b class='flag-5'>分割</b>机中?

    【正点原子STM32MP257开发板试用】基于 DeepLab 模型的图像分割

    【正点原子STM32MP257开发板试用】图像分割 本文介绍正点原子 STM32MP257 开发板基于 DeepLab 模型实现图像分割的项目设计。 DeepLab 模型 DeepLab-v3
    发表于 06-21 21:11

    凡亿Allegro Skill布线功能-检查跨分割

    能会导致设计中的缺陷和问题。为了克服这一挑战,可以利用凡亿skill中的“检查跨分割”命令。这个工具能够帮助设计者快速而准确地识别出高速信号参考平面的跨分割问题,从而避免了人工检查时可能出现的疏漏。通过使用这种自动化
    的头像 发表于 06-19 11:50 1872次阅读
    凡亿Allegro Skill布线功能-检查跨<b class='flag-5'>分割</b>

    浅析4D-bev标注技术在自动驾驶领域的重要性

    感知领域的一项突破性创新,通过引入时间维度与全局视角,为自动驾驶系统提供高精度、多模态的时空真值数据,重塑自动驾驶系统的开发范式。 4D-BEV标注是什么? 4D-BEV 标注技术
    的头像 发表于 06-12 16:10 1125次阅读

    labview调用yolo目标检测、分割、分类、obb

    labview调用yolo目标检测、分割、分类、obb、pose深度学习,支持CPU和GPU推理,32/64位labview均可使用。 (yolov5~yolov12)
    发表于 03-31 16:28

    BEVFusion —面向自动驾驶的多任务多传感器高效融合框架技术详解

    ,激光雷达在3D视图中捕获数据。1. 核心目标与创新‌目标‌ 解决多模态传感器(摄像头、激光雷达等)在3D感知任务中的异构数据融合难题,实现高效、通用的多任务学习(如3D检测、BEV分割)核心创新
    的头像 发表于 02-26 20:33 5989次阅读
    BEVFusion —面向自动驾驶的多任务多传感器高效融合框架技术详解

    康谋方案 | BEV感知技术:多相机数据采集与高精度时间同步方案

    随着自动驾驶技术的快速发展,车辆准确感知周围环境的能力变得至关重要。BEV Camera数据采集方案有效解决多相机同步采集和高精度时间同步的难题,还提供灵活的相机参数配置和高效的数据传输,能够满足自动驾驶和高精度测量等场景的
    的头像 发表于 02-06 13:45 4005次阅读
    康谋方案 | <b class='flag-5'>BEV</b>感知技术:多相机数据采集与高精度时间同步方案

    LDC1000模拟地和数字地怎么分割和连接?

    我仔细看了看LDC1000评估板的pcb设计,该设计中将数字地和模拟地分割了,两个地在LDC的接地散热片处相连。我发现LDC1000评估板中将数字地连在数字地平面一侧,将模拟地连接在模拟地一侧
    发表于 01-14 08:11

    Mamba入局图像复原,达成新SOTA

    MambaIRv2,更高性能、更高效率!另外还有ACM MM 2024上的Freqmamba方法,在图像去雨任务中取得了SOTA性能! 显然,这种基于Mamba的方法在图像复原领域,比基于CNN
    的头像 发表于 12-30 18:09 1621次阅读
    Mamba入局图像复原,达成新<b class='flag-5'>SOTA</b>