0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何打造BEV + Transformer的技术架构?

Nullmax纽劢 来源:Nullmax纽劢 作者:Nullmax纽劢 2022-11-18 14:50 次阅读

Nullmax感知部总监兼计算机视觉首席科学家成二康博士,前段时间做客汽车之心·行家说栏目,就行泊一体的感知能力话题进行了分享。

当中,成二康博士就自动驾驶的数据闭环以及虚拟样本生成等数据话题进行了概括性的介绍,并对当前备受关注的BEV感知,尤其是BEV + Transformer技术架构,从总结和实践两方面进行了简明易懂的阐述。

我们将成二康博士分享的主体内容进行了整理,本篇是关于BEV + Transformer的精简介绍。目前,Nullmax已经完成了BEV感知的一系列工作,并在量产项目开始了相关技术的运用。

行泊一体是一个很热的话题,简单来讲就是用一个域控或者嵌入式平台同时实现行车、泊车两大功能。因此,行泊一体的方案对于整个系统的感知架构也有着极高的要求。

比如,需要处理包括相机、毫米波雷达等多个传感器的输入,需要支持行泊一体中的融合、定位、规划和感知等多个任务。尤其是视觉感知方面,需要支持360度覆盖的相机配置,为下游的规划、控制任务输出目标检测、车道线检测等感知结果。

为此,Nullmax开发了一套强大的感知架构,它最大的优势就在于可以同时融合时间、空间信息,很好地支持多传感器、多任务的协同工作。

在整个感知架构的设计中,Nullmax对BEV + Transformer的技术架构进行了充分的考虑,在技术研发和项目落地两方面同步进行了大量工作,取得了不错进展。

在自动驾驶中,BEV(鸟瞰图)视角下的感知输出,能够更好地为规划、控制等下游任务服务,因此设计一个BEV-AI的技术架构,对于行泊一体方案来说很有意义。

这个架构的输入,是多个相机拍摄的图像,输出则是自动驾驶的一系列任务,当中包含了动态障碍物的检测和预测,静态场景的理解,以及这两个基础之上的一系列下游规控任务。

1c46b1b4-6709-11ed-8abf-dac502259ad0.png

当中的挑战就在于:图像是二维的平面空间,但是BEV空间以及自动驾驶的车体坐标系是三维的立体空间,如何才能去实现图像空间和三维空间的影射?

1c6fa9de-6709-11ed-8abf-dac502259ad0.png

1、BEV-CNN架构

在传统的CNN(卷积神经网络)层面,天然的想法就是去做纯粹的端到端方法。输入一张图片,直接输出三维结果,不利用相机参数。

1c85fff4-6709-11ed-8abf-dac502259ad0.png

但是,相机对三维世界的成像遵循着一些原理,相机参数其实也能派上用场。比如,三维世界中的一个点,它可以通过相机的外参投到相机的三维坐标系中,然后再通过透视变换投到图像平面,完成3D到2D的转换。

在CNN当中,利用相机参数和成像原理,实现3D和2D信息关联的方法可以总结为两种。一种是在后端,利用3D到2D的投影,即一个光心射线上面所有的3D点都会投影到一个2D像素上,完成3D和2D信息的关联。知名的OFT算法,就是这一类方法的代表性工作。

1cc7477a-6709-11ed-8abf-dac502259ad0.png

另外一种是在前端,让每一个像素学习三维深度的分布,把2D空间lift成3D空间。这当中又可以细分为两种方式,一种是隐式的学习,典型的算法有LSS,对每个点都要学一个特征,同时隐式地学习该点深度的概率分布;另一种则是显式估计每个像素的深度,比如CaDNN。

1c6fa9de-6709-11ed-8abf-dac502259ad0.png

2、BEV-Transformer架构

在有了Transformer之后,它天然提供了一种机制,可以利用decoder中的cross-attention(交叉注意力)机制,架接3D空间和2D图像空间的关系。

1d7a8a7e-6709-11ed-8abf-dac502259ad0.png

BEV-Transformer的实现方式也可分为两类,一类是通过cross-attention机制,在后端加入3D信息和2D特征的关联,它可以进一步细分为利用相机参数、不利用相机参数两种方式,比如Nullmax提出的BEVSegFormer,就是不利用相机参数的形式。

另一类是在前端,通过Frustum(视锥)的方式,2D特征上面直接加入3D信息,PETR的一系列工作就是这方面的研究。

1d98ec08-6709-11ed-8abf-dac502259ad0.png

此外,在BEV + Transformer的基础上,也可以加入temporal(时间)的信息。

具体来说,就是利用temporal当中的ego motion(自运动)信息。比如,三维世界通过ego motion在后端去关联;或者在前端,通过两个相机坐标系之间的ego motion将3D信息叠加进去,然后在2D特征上面去做任务。

1dc6c01a-6709-11ed-8abf-dac502259ad0.png

目前BEV + Transformer的方法比较多,我们对比较主流的几种方式做了一个简单的总结。

1dfa47c8-6709-11ed-8abf-dac502259ad0.png

1c6fa9de-6709-11ed-8abf-dac502259ad0.png

3、Nullmax的多相机BEV方案

Nullmax正在开发多相机BEV方案,这些工作与前述的工作有所不同,面临一些独特的挑战。

1e3206cc-6709-11ed-8abf-dac502259ad0.png

当中有两个非常关键的问题:一是支持任意多个相机,二是不依赖相机参数。

此前,Nullmax提出的BEVSegFormer就是当中的一项工作(现已被WACV 2023录用),面向任意数量相机的BEV语义分割,为自动驾驶在线实时构建局部地图。它在不利用相机参数的情况下,可以完成二维图像和三维感知的关联。「点击查看详尽解读」

1e5d08e0-6709-11ed-8abf-dac502259ad0.png

在nuScenes数据集上,BEVSegFormer相比于HDMapNet,效果提升了10个百分点。

除此之外,显式构建BEV是一个难点,对于空间中只有少数几个目标的任务,例如车道线,Nullmax提出了不显式构建BEV的方法,直接计算三维车道线的新范式。

这是Nullmax近期在3D车道线检测方面的工作之一,通过设计sparse的curve query来完成车道线检测。在Apollo数据集上,Nullmax的3D车道线检测方法对比PersFormer,效果进一步提升。「点击查看详尽解读」

1e9666f8-6709-11ed-8abf-dac502259ad0.png

同样的,Nullmax也将3D目标检测的一些工作扩展到了量产应用中,特别是在低算力平台上进行BEV视角的检测。比如近期交付的一个量产方案,就是用8 TOPS算力实现4个周视相机的3D障碍物检测,当中的优化工作,非常具有挑战。

1ec58104-6709-11ed-8abf-dac502259ad0.png

在3D障碍物检测方面,BEV + Transformer架构融合多个相机信息,可以带来一些明显的优势。

在多相机的感知系统中,如果进行障碍物检测,比较传统的方案是每个相机单独工作。这会导致系统的工作量比较大,每个相机都要完成目标检测、跟踪、测距,还要完成不同相机的ReID(重识别)。同时,这也给跨相机的融合带来很大挑战,比如截断车辆的检测或者融合。

1efa5e6a-6709-11ed-8abf-dac502259ad0.png

如果技术架构的输出是BEV视角,或者车体坐标下的三维感知结果的话,那么这个工作就可以简化,准确率也能提升。

总体而言,Nullmax目前已经在基于BEV的多相机感知方面完成了系列工作,包括BEV + Transformer的局部地图、3D车道线检测、3D目标检测,以及在高、中、低算力嵌入式平台的上线。

Nullmax希望做出的BEV + Transformer架构能够适配多个相机、不同相机,以及不同相机的选型、内参、外参等等因素,提供一个真正平台化的产品

1f38e5f4-6709-11ed-8abf-dac502259ad0.png

同时,我们还在进行一些这里没有介绍的工作,包括BEV视角下的规划控制,以及支撑BEV + Transformer技术架构的关键任务,比如离线的4D Auto-GT(自动化4D标注真值)。

最终,我们希望完成一套可在车端实时运行BEV + Transformer基础架构的整体方案,同时支持感知、预测、规划任务,并在高、中、低算力平台上完成落地。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 嵌入式
    +关注

    关注

    4983

    文章

    18286

    浏览量

    288509
  • 自动驾驶
    +关注

    关注

    773

    文章

    13049

    浏览量

    163231
  • Transformer
    +关注

    关注

    0

    文章

    130

    浏览量

    5898
  • LLM
    LLM
    +关注

    关注

    0

    文章

    202

    浏览量

    233

原文标题:Nullmax研习社 | 面向行泊一体,如何打造BEV + Transformer的技术架构?

文章出处:【微信号:Nullmax,微信公众号:Nullmax纽劢】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于Transformer模型的压缩方法

    基于Transformer架构的大型模型在人工智能领域中发挥着日益重要的作用,特别是在自然语言处理(NLP)和计算机视觉(CV)领域。
    的头像 发表于 02-22 16:27 278次阅读
    基于<b class='flag-5'>Transformer</b>模型的压缩方法

    基于Transformer的多模态BEV融合方案

    由于大量的相机和激光雷达特征以及注意力的二次性质,将 Transformer 架构简单地应用于相机-激光雷达融合问题是很困难的。
    发表于 01-23 11:39 222次阅读
    基于<b class='flag-5'>Transformer</b>的多模态<b class='flag-5'>BEV</b>融合方案

    BEV和Occupancy自动驾驶的作用

    BEV是Bird's Eye View 的缩写,意为鸟瞰视图。在自动驾驶领域,BEV 是指从车辆上方俯瞰的场景视图。BEV 图像可以提供车辆周围环境的完整视图,包括车辆前方、后方、两侧和顶部。
    发表于 01-17 12:33 422次阅读
    <b class='flag-5'>BEV</b>和Occupancy自动驾驶的作用

    自动驾驶领域中,什么是BEV?什么是Occupancy?

    BEV是Bird's Eye View 的缩写,意为鸟瞰视图。在自动驾驶领域,BEV 是指从车辆上方俯瞰的场景视图。
    的头像 发表于 01-13 09:41 1926次阅读
    自动驾驶领域中,什么是<b class='flag-5'>BEV</b>?什么是Occupancy?

    存算一体芯片如何支持Transformer等不同模型?

    后摩智能致力于打造通用人工智能芯片,自主研发的存算一体芯片在支持各类模型方面表现突出,包括YOLO系列网络、BEV系列网络、点云系列网络等。
    的头像 发表于 01-05 14:14 742次阅读

    Nullmax揭秘BEV-AI技术架构加速量产方案演进

    12月19日,Nullmax首席科学家成二康博士应邀出席2023全球自动驾驶峰会(GADS 2023),在自动驾驶BEV感知技术论坛上发表《BEV-AI技术
    的头像 发表于 12-22 14:46 671次阅读

    关于深度学习模型Transformer模型的具体实现方案

    Transformer 本质上是一个 Encoder-Decoder 架构。因此中间部分的 Transformer 可以分为两个部分:编码组件和解码组件。
    发表于 11-17 10:34 316次阅读
    关于深度学习模型<b class='flag-5'>Transformer</b>模型的具体实现方案

    BEV感知的二维特征点

    BEV感知的二维特征点 首先来简单介绍一下什么是BEV感知。 BEV感知(Bird’s Eye View Perception)是一种用于自动驾驶汽车的感知系统,用于提供车辆周围自上而下的视图。该系
    的头像 发表于 11-14 11:37 332次阅读

    利用Transformer BEV解决自动驾驶Corner Case的技术原理

    BEV是一种将三维环境信息投影到二维平面的方法,以俯视视角展示环境中的物体和地形。在自动驾驶领域,BEV 可以帮助系统更好地理解周围环境,提高感知和决策的准确性。在环境感知阶段,BEV 可以将激光雷达、雷达和相机等多模态数据融合
    的头像 发表于 10-11 16:16 451次阅读
    利用<b class='flag-5'>Transformer</b> <b class='flag-5'>BEV</b>解决自动驾驶Corner Case的<b class='flag-5'>技术</b>原理

    基于20T算力芯片,宏景智驾如何打造BEV轻地图方案?

    卷王” 。 在推进量产的同时,宏景 智驾已在布局 BEV 感知、轻高精地图甚至去高精地图的智驾方案,同 时也在打造 4D BEV 感知真值系统产品,赋能更多车企进行相关技术开发。 近期
    的头像 发表于 09-05 20:45 593次阅读
    基于20T算力芯片,宏景智驾如何<b class='flag-5'>打造</b><b class='flag-5'>BEV</b>轻地图方案?

    BEV感知中的Transformer算法介绍

    BEV下的每个grid作为query,在高度上采样N个点,投影到图像中sample到对应像素的特征,且利用了空间和时间的信息。并且最终得到的是BEV featrue,在此featrue上做Det和Seg。
    的头像 发表于 09-04 10:22 872次阅读
    <b class='flag-5'>BEV</b>感知中的<b class='flag-5'>Transformer</b>算法介绍

    BEV人工智能transformer

    BEV人工智能transformer  人工智能Transformer技术是一种自然语言处理领域的重要技术,广泛应用于自然语言理解、机器翻译
    的头像 发表于 08-22 15:59 621次阅读

    RetNet架构Transformer架构对比分析

    微软研究院最近提出了一个新的 LLM 自回归基础架构 Retentive Networks (RetNet)[1,4],该架构相对于 Transformer 架构的优势是同时具备:训练
    发表于 07-26 10:44 979次阅读
    RetNet<b class='flag-5'>架构</b>和<b class='flag-5'>Transformer</b><b class='flag-5'>架构</b>对比分析

    基于鲁棒神经架构的设计

    导读 继卷积神经网络之后,Transformer又推进了图像识别的发展,成为视觉领域的又一主导。最近有人提出Transformer的这种优越性应归功于Self-Attention的架构本身,本文带着
    的头像 发表于 07-17 14:35 289次阅读
    基于鲁棒神经<b class='flag-5'>架构</b>的设计

    Transformer结构及其应用详解

    本文首先详细介绍Transformer的基本结构,然后再通过GPT、BERT、MT-DNN以及GPT-2等基于Transformer的知名应用工作的介绍并附上GitHub链接,看看Transformer是如何在各个著名的模型中大
    的头像 发表于 06-08 09:56 1450次阅读
    <b class='flag-5'>Transformer</b>结构及其应用详解