0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何打造BEV + Transformer的技术架构?

Nullmax纽劢 来源:Nullmax纽劢 作者:Nullmax纽劢 2022-11-18 14:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Nullmax感知部总监兼计算机视觉首席科学家成二康博士,前段时间做客汽车之心·行家说栏目,就行泊一体的感知能力话题进行了分享。

当中,成二康博士就自动驾驶的数据闭环以及虚拟样本生成等数据话题进行了概括性的介绍,并对当前备受关注的BEV感知,尤其是BEV + Transformer技术架构,从总结和实践两方面进行了简明易懂的阐述。

我们将成二康博士分享的主体内容进行了整理,本篇是关于BEV + Transformer的精简介绍。目前,Nullmax已经完成了BEV感知的一系列工作,并在量产项目开始了相关技术的运用。

行泊一体是一个很热的话题,简单来讲就是用一个域控或者嵌入式平台同时实现行车、泊车两大功能。因此,行泊一体的方案对于整个系统的感知架构也有着极高的要求。

比如,需要处理包括相机、毫米波雷达等多个传感器的输入,需要支持行泊一体中的融合、定位、规划和感知等多个任务。尤其是视觉感知方面,需要支持360度覆盖的相机配置,为下游的规划、控制任务输出目标检测、车道线检测等感知结果。

为此,Nullmax开发了一套强大的感知架构,它最大的优势就在于可以同时融合时间、空间信息,很好地支持多传感器、多任务的协同工作。

在整个感知架构的设计中,Nullmax对BEV + Transformer的技术架构进行了充分的考虑,在技术研发和项目落地两方面同步进行了大量工作,取得了不错进展。

在自动驾驶中,BEV(鸟瞰图)视角下的感知输出,能够更好地为规划、控制等下游任务服务,因此设计一个BEV-AI的技术架构,对于行泊一体方案来说很有意义。

这个架构的输入,是多个相机拍摄的图像,输出则是自动驾驶的一系列任务,当中包含了动态障碍物的检测和预测,静态场景的理解,以及这两个基础之上的一系列下游规控任务。

1c46b1b4-6709-11ed-8abf-dac502259ad0.png

当中的挑战就在于:图像是二维的平面空间,但是BEV空间以及自动驾驶的车体坐标系是三维的立体空间,如何才能去实现图像空间和三维空间的影射?

1c6fa9de-6709-11ed-8abf-dac502259ad0.png

1、BEV-CNN架构

在传统的CNN(卷积神经网络)层面,天然的想法就是去做纯粹的端到端方法。输入一张图片,直接输出三维结果,不利用相机参数。

1c85fff4-6709-11ed-8abf-dac502259ad0.png

但是,相机对三维世界的成像遵循着一些原理,相机参数其实也能派上用场。比如,三维世界中的一个点,它可以通过相机的外参投到相机的三维坐标系中,然后再通过透视变换投到图像平面,完成3D到2D的转换。

在CNN当中,利用相机参数和成像原理,实现3D和2D信息关联的方法可以总结为两种。一种是在后端,利用3D到2D的投影,即一个光心射线上面所有的3D点都会投影到一个2D像素上,完成3D和2D信息的关联。知名的OFT算法,就是这一类方法的代表性工作。

1cc7477a-6709-11ed-8abf-dac502259ad0.png

另外一种是在前端,让每一个像素学习三维深度的分布,把2D空间lift成3D空间。这当中又可以细分为两种方式,一种是隐式的学习,典型的算法有LSS,对每个点都要学一个特征,同时隐式地学习该点深度的概率分布;另一种则是显式估计每个像素的深度,比如CaDNN。

1c6fa9de-6709-11ed-8abf-dac502259ad0.png

2、BEV-Transformer架构

在有了Transformer之后,它天然提供了一种机制,可以利用decoder中的cross-attention(交叉注意力)机制,架接3D空间和2D图像空间的关系。

1d7a8a7e-6709-11ed-8abf-dac502259ad0.png

BEV-Transformer的实现方式也可分为两类,一类是通过cross-attention机制,在后端加入3D信息和2D特征的关联,它可以进一步细分为利用相机参数、不利用相机参数两种方式,比如Nullmax提出的BEVSegFormer,就是不利用相机参数的形式。

另一类是在前端,通过Frustum(视锥)的方式,2D特征上面直接加入3D信息,PETR的一系列工作就是这方面的研究。

1d98ec08-6709-11ed-8abf-dac502259ad0.png

此外,在BEV + Transformer的基础上,也可以加入temporal(时间)的信息。

具体来说,就是利用temporal当中的ego motion(自运动)信息。比如,三维世界通过ego motion在后端去关联;或者在前端,通过两个相机坐标系之间的ego motion将3D信息叠加进去,然后在2D特征上面去做任务。

1dc6c01a-6709-11ed-8abf-dac502259ad0.png

目前BEV + Transformer的方法比较多,我们对比较主流的几种方式做了一个简单的总结。

1dfa47c8-6709-11ed-8abf-dac502259ad0.png

1c6fa9de-6709-11ed-8abf-dac502259ad0.png

3、Nullmax的多相机BEV方案

Nullmax正在开发多相机BEV方案,这些工作与前述的工作有所不同,面临一些独特的挑战。

1e3206cc-6709-11ed-8abf-dac502259ad0.png

当中有两个非常关键的问题:一是支持任意多个相机,二是不依赖相机参数。

此前,Nullmax提出的BEVSegFormer就是当中的一项工作(现已被WACV 2023录用),面向任意数量相机的BEV语义分割,为自动驾驶在线实时构建局部地图。它在不利用相机参数的情况下,可以完成二维图像和三维感知的关联。「点击查看详尽解读」

1e5d08e0-6709-11ed-8abf-dac502259ad0.png

在nuScenes数据集上,BEVSegFormer相比于HDMapNet,效果提升了10个百分点。

除此之外,显式构建BEV是一个难点,对于空间中只有少数几个目标的任务,例如车道线,Nullmax提出了不显式构建BEV的方法,直接计算三维车道线的新范式。

这是Nullmax近期在3D车道线检测方面的工作之一,通过设计sparse的curve query来完成车道线检测。在Apollo数据集上,Nullmax的3D车道线检测方法对比PersFormer,效果进一步提升。「点击查看详尽解读」

1e9666f8-6709-11ed-8abf-dac502259ad0.png

同样的,Nullmax也将3D目标检测的一些工作扩展到了量产应用中,特别是在低算力平台上进行BEV视角的检测。比如近期交付的一个量产方案,就是用8 TOPS算力实现4个周视相机的3D障碍物检测,当中的优化工作,非常具有挑战。

1ec58104-6709-11ed-8abf-dac502259ad0.png

在3D障碍物检测方面,BEV + Transformer架构融合多个相机信息,可以带来一些明显的优势。

在多相机的感知系统中,如果进行障碍物检测,比较传统的方案是每个相机单独工作。这会导致系统的工作量比较大,每个相机都要完成目标检测、跟踪、测距,还要完成不同相机的ReID(重识别)。同时,这也给跨相机的融合带来很大挑战,比如截断车辆的检测或者融合。

1efa5e6a-6709-11ed-8abf-dac502259ad0.png

如果技术架构的输出是BEV视角,或者车体坐标下的三维感知结果的话,那么这个工作就可以简化,准确率也能提升。

总体而言,Nullmax目前已经在基于BEV的多相机感知方面完成了系列工作,包括BEV + Transformer的局部地图、3D车道线检测、3D目标检测,以及在高、中、低算力嵌入式平台的上线。

Nullmax希望做出的BEV + Transformer架构能够适配多个相机、不同相机,以及不同相机的选型、内参、外参等等因素,提供一个真正平台化的产品。

1f38e5f4-6709-11ed-8abf-dac502259ad0.png

同时,我们还在进行一些这里没有介绍的工作,包括BEV视角下的规划控制,以及支撑BEV + Transformer技术架构的关键任务,比如离线的4D Auto-GT(自动化4D标注真值)。

最终,我们希望完成一套可在车端实时运行BEV + Transformer基础架构的整体方案,同时支持感知、预测、规划任务,并在高、中、低算力平台上完成落地。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 嵌入式
    +关注

    关注

    5188

    文章

    20174

    浏览量

    329253
  • 自动驾驶
    +关注

    关注

    791

    文章

    14687

    浏览量

    176867
  • Transformer
    +关注

    关注

    0

    文章

    154

    浏览量

    6825
  • LLM
    LLM
    +关注

    关注

    1

    文章

    341

    浏览量

    1265

原文标题:Nullmax研习社 | 面向行泊一体,如何打造BEV + Transformer的技术架构?

文章出处:【微信号:Nullmax,微信公众号:Nullmax纽劢】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自动驾驶BEV Camera数据采集系统:高精度时间同步解决方案

    波动。BEV(Bird's-Eye-View)感知技术以其尺度变化小、视角遮挡少的显著优势,正成为自动驾驶领域的关键技术,而高精度时间同步是确保BEV感知算法准确性的基础保障。 2 时
    的头像 发表于 12-11 17:11 1063次阅读
    自动驾驶<b class='flag-5'>BEV</b> Camera数据采集系统:高精度时间同步解决方案

    自动驾驶BEV Camera数据采集:时间同步技术解析与康谋解决方案

    一、自动驾驶传感器融合中的时间同步重要性 在自动驾驶感知体系中,BEV(Bird's-Eye-View,鸟瞰图)感知技术凭借尺度变化小、视角遮挡少的优势,成为环境感知的核心技术方向。BEV
    的头像 发表于 12-11 16:36 716次阅读
    自动驾驶<b class='flag-5'>BEV</b> Camera数据采集:时间同步<b class='flag-5'>技术</b>解析与康谋解决方案

    赋能 BEV 感知课题!高校科研多传感器时间同步方案

    在高校自动驾驶实验室里,团队可能常以BEV(Bird’s-EyeView)感知架构为研究主线。旨在通过相机阵列和激光雷达的数据,在空间上重建统一的车周环境,为下游检测、分割提供高精度“语义地图”。然而,一旦相机间的时间同步存在几十毫秒及以上的
    的头像 发表于 11-14 17:32 2749次阅读
    赋能 <b class='flag-5'>BEV</b> 感知课题!高校科研多传感器时间同步方案

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    %,使用的参数减少了15%。 3.2 LighrSeq2 LighrSeq2 提出了三种加速Transformer模型训练的技术。 ①针对所有的Transformer模型,LightSeq2将融合的内核
    发表于 09-12 17:30

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 3949次阅读
    自动驾驶中<b class='flag-5'>Transformer</b>大模型会取代深度学习吗?

    Transformer在端到端自动驾驶架构中是何定位?

    典型的Transformer架构已被用于构建“感知-规划-控制统一建模”的方案。如Waymo和小马智行正在研发的多模态大模型(MultimodalLargeModels,MLLMs),将来自摄像头
    的头像 发表于 08-03 11:03 1135次阅读

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    一、模型架构 在阅读第三章关于 DeepSeek 的模型架构部分时,我仿佛打开了一扇通往人工智能核心构造的大门。从架构图中,能清晰看到 Transformer 块、前馈神经网络、注意力
    发表于 07-20 15:07

    浅析4D-bev标注技术在自动驾驶领域的重要性

    ​自动驾驶技术的发展日新月异。从最初简单的辅助驾驶功能,逐步迈向高度自动化甚至完全自动驾驶的阶段。其中,海量且精准的数据是训练高性能自动驾驶模型的基石。4D-BEV(四维鸟瞰视角)标注技术作为环境
    的头像 发表于 06-12 16:10 1217次阅读

    Transformer架构中编码器的工作流程

    编码器是Transformer体系结构的基本组件。编码器的主要功能是将输入标记转换为上下文表示。与早期独立处理token的模型不同,Transformer编码器根据整个序列捕获每个token的上下文。
    的头像 发表于 06-10 14:27 846次阅读
    <b class='flag-5'>Transformer</b><b class='flag-5'>架构</b>中编码器的工作流程

    Transformer架构概述

    由于Transformer模型的出现和快速发展,深度学习领域正在经历一场翻天覆地的变化。这些突破性的架构不仅重新定义了自然语言处理(NLP)的标准,而且拓宽了视野,彻底改变了AI的许多方面。
    的头像 发表于 06-10 14:24 1006次阅读
    <b class='flag-5'>Transformer</b><b class='flag-5'>架构</b>概述

    谷歌打造通用AI助手的愿景

    在过去的十年中,我们为现代 AI 时代奠定了许多基础,从率先提出所有大型语言模型赖以构建的 Transformer 架构,到开发 AlphaGo 和 AlphaZero 等可以学习和规划的智能体系统。
    的头像 发表于 05-23 14:48 870次阅读

    正力新能助力零跑汽车打造全球平价智能电动车标杆

    近日,零跑汽车召开预售发布会,正式宣布旗下首款全球化战略车型‌零跑B10‌预售上市。新车定位纯电紧凑型SUV,基于LEAP 3.5技术架构打造,配套正力新能高性能BEV电芯,凭借全球化
    的头像 发表于 03-12 14:53 1030次阅读

    康谋方案 | BEV感知技术:多相机数据采集与高精度时间同步方案

    随着自动驾驶技术的快速发展,车辆准确感知周围环境的能力变得至关重要。BEV Camera数据采集方案有效解决了多相机同步采集和高精度时间同步的难题,还提供了灵活的相机参数配置和高效的数据传输,能够满足自动驾驶和高精度测量等场景的需求。
    的头像 发表于 02-06 13:45 4020次阅读
    康谋方案 | <b class='flag-5'>BEV</b>感知<b class='flag-5'>技术</b>:多相机数据采集与高精度时间同步方案

    如何使用MATLAB构建Transformer模型

    Transformer 模型在 2017 年由 Vaswani 等人在论文《Attentionis All You Need》中首次提出。其设计初衷是为了解决自然语言处理(Nature
    的头像 发表于 02-06 10:21 5790次阅读
    如何使用MATLAB构建<b class='flag-5'>Transformer</b>模型

    transformer专用ASIC芯片Sohu说明

    2022年,我们打赌说transformer会统治世界。 我们花了两年时间打造Sohu,这是世界上第一个用于transformer(ChatGPT中的“T”)的专用芯片。 将transform
    的头像 发表于 01-06 09:13 1703次阅读
    <b class='flag-5'>transformer</b>专用ASIC芯片Sohu说明