0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

BEVSegFormer创造了新的BEV分割SOTA

Nullmax纽劢 来源:纽劢科技 作者:纽劢科技 2022-04-27 09:50 次阅读

自动驾驶而言,BEV(鸟瞰图)下的语义分割是一项重要任务。尽管这项工作已经吸引了大量的研究,但灵活处理自动驾驶车辆上的任意相机配置(单个或多个摄像头),仍然是一项挑战。

为此,Nullmax的感知团队提出了BEVSegFormer,这一基于Transformer的BEV语义分割方法,可面向任意配置的相机进行BEV语义分割。

这项研究的题目为《BEVSegFormer: Bird's Eye View Semantic Segmentation From Arbitrary Camera Rigs》,论文链接:https://arxiv.org/abs/2203.04050。

为了评估这一算法的效果,Nullmax在nuScenes公开数据集以及Nullmax的自采数据集上进行了验证。实验结果表明,BEVSegFormer对任意相机配置的BEV语义分割,具有出色的性能表现。并且在nuScenes验证集上,BEVSegFormer创造了新的BEV分割SOTA。

在接下来的工作中,我们还计划针对自动驾驶以及BEV语义分割的一些其他挑战,展开进一步的研究。

欢迎对计算机视觉及自动驾驶感知感兴趣的小伙伴加入我们,一起探索!

01

关于BEVSegFormer

在自动驾驶或者机器人导航系统中,以BEV形式对感知信息进行表征,具有至关重要的作用,因为它可以为规划和控制提供诸多的便利。

比如,在无地图导航方案中,构建本地BEV地图,不仅成为了高精地图外的另一种选择,并且对于包括智体行为预测以及运动规划等感知系统下游任务而言,也非常重要。而利用相机的输入进行BEV语义分割,通常被视为构建本地BEV地图的第一步。

为此,传统方法一般会先在图像空间生成分割结果,然后通过逆透视变换(IPM)函数转换到BEV空间。虽然这是一种连接图像空间和BEV空间的简单直接的方法,但它需要准确的相机内外参,或者实时的相机位姿估计。所以,视图变换的实际效果有可能比较差。

以车道线分割为例,在一些挑战性场景中,比如遮挡或者远处区域,使用IPM的传统方法提供的结果就不够准确,如图所示。

d90fae6c-c5ca-11ec-bce3-dac502259ad0.png

近年来,深度学习方法已被研究用于BEV语义分割。Lift-Splat-Shoot通过逐像素深度估计结果完成了从图像视图到BEV的视图变换。不过使用深度估计,也增加了视图变换过程的复杂度。此外,有一些方法应用MLP或者FC算子来进行视图变换。这些固定的视图变换方法,学习图像空间和BEV空间之间的固定映射,因此不依赖于输入的数据。

而基于Transformer的方法,是在BEV空间下进行感知的另一个研究方向。在目标检测任务中,DETR3D引入了一种3D边界框检测方法,直接从多个相机图像的2D特征生成3D空间中的预测。3D空间和2D图像空间之间的视图变换,通过交叉注意模块的3D到2D查询来实现。

受此启发,我们提出了BEVSegFormer,通过在Transformer中使用交叉注意机制进行BEV到图像的查询,来计算视图变换。

BEVSegFormer由3个主要的组件组成:

共享的主干网络,用于提取任意相机的特征图;

Transformer编码器,通过自注意模块嵌入特征图;

BEV Transformer解码器,通过交叉注意机制处理BEV查询,输出最终的BEV语义分割结果。

d944de0c-c5ca-11ec-bce3-dac502259ad0.png

具体来说,BEVSegFormer首先是使用了共享的主干网络,对来自任意相机的图像特征进行编码,然后通过基于可变形Transformer的编码器对这些特征进行增强。

除此之外,BEVSegFormer还引入了一个BEV Transformer解码器模块,对BEV语义分割的结果进行解析,以及一种高效的多相机可变形注意单元,完成BEV到图像的视图变换。

最后,根据BEV中的网格布局对查询进行重塑,并进行上采样,以有监督的方式生成语义分割结果。

我们分别在nuScenes公开数据集以及Nullmax的自采数据集上,检验了BEVSegFormer的算法效果。实验结果表明,BEVSegFormer在nuScenes验证集上创造了新的BEV分割SOTA。通过消融实验,当中每个组件的效果也得到了验证。

d97c3780-c5ca-11ec-bce3-dac502259ad0.png

02

加入我们

在这项研究中,我们为了应对自动驾驶车辆上任意相机配置的BEV语义分割挑战,提出了BEVSegFormer。

接下来,我们还计划在自动驾驶当中,基于Transformer探索内存效率更高、解释性更强的BEV语义分割方法。

欢迎对BEV、Transformer在自动驾驶中的感知任务感兴趣,以及希望从事于计算机视觉和自动驾驶感知研发的同学,加入Nullmax感知团队。

在这里,你可以直接参与到大量自动驾驶量产项目的落地,以及最前沿技术的预研当中,为你的idea和技术找到一个充分施展的舞台!

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自动驾驶
    +关注

    关注

    773

    文章

    13049

    浏览量

    163231
  • 深度学习
    +关注

    关注

    73

    文章

    5239

    浏览量

    119919

原文标题:当BEV语义分割遇上了Transformer,故事的结局是新的SOTA

文章出处:【微信号:Nullmax,微信公众号:Nullmax纽劢】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    BEV和Occupancy自动驾驶的作用

    BEV是Bird's Eye View 的缩写,意为鸟瞰视图。在自动驾驶领域,BEV 是指从车辆上方俯瞰的场景视图。BEV 图像可以提供车辆周围环境的完整视图,包括车辆前方、后方、两侧和顶部。
    发表于 01-17 12:33 422次阅读
    <b class='flag-5'>BEV</b>和Occupancy自动驾驶的作用

    顶刊TPAMI最全综述!深入自动驾驶BEV感知的魔力!

    BEV感知的主要工作。在输入模态下," L "为LiDAR," SC "为单相机," MC "为多相机," T "为时
    的头像 发表于 01-14 09:53 636次阅读
    顶刊TPAMI最全综述!深入自动驾驶<b class='flag-5'>BEV</b>感知的魔力!

    自动驾驶领域中,什么是BEV?什么是Occupancy?

    BEV是Bird's Eye View 的缩写,意为鸟瞰视图。在自动驾驶领域,BEV 是指从车辆上方俯瞰的场景视图。
    的头像 发表于 01-13 09:41 1926次阅读
    自动驾驶领域中,什么是<b class='flag-5'>BEV</b>?什么是Occupancy?

    三项SOTA!MasQCLIP:开放词汇通用图像分割新网络

    MasQCLIP在开放词汇实例分割、语义分割和全景分割三项任务上均实现了SOTA,涨点非常明显。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与
    的头像 发表于 12-12 11:23 281次阅读
    三项<b class='flag-5'>SOTA</b>!MasQCLIP:开放词汇通用图像<b class='flag-5'>分割</b>新网络

    BEV感知的二维特征点

    统用于检测和跟踪车辆路径中的行人、车辆和障碍物等物体。 BEV图往往是利用四路环视鱼眼图,经过内外参标定后拼接而成。对于拼接后的BEV视图,可以利用深度学习进行语义分割分割后的
    的头像 发表于 11-14 11:37 332次阅读

    机器视觉图像分割的方法有哪些?

    现有的图像分割方法主要分以下几类:基于阈值(threshold)的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法
    发表于 11-02 10:26 380次阅读
    机器视觉图像<b class='flag-5'>分割</b>的方法有哪些?

    利用Transformer BEV解决自动驾驶Corner Case的技术原理

    BEV是一种将三维环境信息投影到二维平面的方法,以俯视视角展示环境中的物体和地形。在自动驾驶领域,BEV 可以帮助系统更好地理解周围环境,提高感知和决策的准确性。在环境感知阶段,BEV 可以将激光雷达、雷达和相机等多模态数据融合
    的头像 发表于 10-11 16:16 451次阅读
    利用Transformer <b class='flag-5'>BEV</b>解决自动驾驶Corner Case的技术原理

    BEV感知中的Transformer算法介绍

    BEV下的每个grid作为query,在高度上采样N个点,投影到图像中sample到对应像素的特征,且利用了空间和时间的信息。并且最终得到的是BEV featrue,在此featrue上做Det和Seg。
    的头像 发表于 09-04 10:22 872次阅读
    <b class='flag-5'>BEV</b>感知中的Transformer算法介绍

    CVPR上的新顶流:BEV自动驾驶感知新范式

    BEV自动驾驶感知好比一个从高处统观全局的“上帝视角”,将三维环境信息投影到二维平面,以俯视视角展示环境中的物体和地形。在路径规划、障碍物检测、自动驾驶决策等方面,BEV感知都展现出了其独特的优势。
    的头像 发表于 08-23 14:51 734次阅读
    CVPR上的新顶流:<b class='flag-5'>BEV</b>自动驾驶感知新范式

    人工智能SOTA什么意思

    人工智能SOTA什么意思 人工智能SOTA是机器学习领域中的一个术语,指的是目前能够实现的最佳结果,SOTA是State of the art的缩写,意为“最新技术”的最佳状态。在人工智能领域
    的头像 发表于 08-22 16:45 1w次阅读

    通过A2B更新软件—A2B如何给汽车应用中的SOTA带来变革

    无线软件升级(SOTA)正迅速成为汽车OEM须开发和部署的重要能力。更新模块、支持客户、和通过附加特性带来利润的能力,使得掌握SOTA成为一个有吸引力的主张。本文讨论SOTA为何出现在汽车环境中,如何部署
    的头像 发表于 06-15 16:02 1179次阅读
    通过A2B更新软件—A2B如何给汽车应用中的<b class='flag-5'>SOTA</b>带来变革

    AURIX TC3XX系列最佳的SOTA方案

    01 什么是SOTASOTA全称是云端软件升级(Software updates Over The Air),就是指在不连接烧写器的情况下,通过CAN、UART或其它通讯方式,实现应用程序的更新
    的头像 发表于 06-14 09:08 574次阅读
    AURIX TC3XX系列最佳的<b class='flag-5'>SOTA</b>方案

    基于Aurix TC3xx SWAP机制的SOTA实现

    随着芯片资源的不断扩充,增加了App(Application)升级方式的多样性。比如,本文要讨论的SOTA(Software Updates Over The Air),通过Aurix TC3xx SWAP机制,使得App的升级更加便捷。本文讨论实现SOTA的一些关键性问
    的头像 发表于 06-10 15:40 1027次阅读
    基于Aurix TC3xx SWAP机制的<b class='flag-5'>SOTA</b>实现

    基于几何变换器的2D-to-BEV视图转换学习

    BEV感知是自动驾驶的重要趋势。常规的自动驾驶算法方法基于在前视图或透视图中执行检测、分割、跟踪,而在BEV中可表示周围场景,相对而言更加直观,并且在BEV中表示目标对于后续模块最为理
    发表于 06-06 17:47 995次阅读
    基于几何变换器的2D-to-<b class='flag-5'>BEV</b>视图转换学习

    AI算法说-图像分割

    语义分割是区分同类物体的分割任务,实例分割是区分不同实例的分割任务,而全景分割则同时达到这两个目标。全景
    的头像 发表于 05-17 14:44 889次阅读
    AI算法说-图像<b class='flag-5'>分割</b>