0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

BEV感知中的Transformer算法介绍

3D视觉工坊 来源:东新村轱天乐@知乎 2023-09-04 10:22 次阅读

1、Camera only

主要思想:固定900个query个数,随机初始化query。每个query对应一个3D reference point,然后反投影到图片上sample对应像素的特征。

缺点:需要预训练模型,且因为是随机初始化,训练收敛较慢

1eeb8d3e-4aae-11ee-97a6-92fbcf53809c.jpg

BEV Former

https://arxiv.org/abs/2203.17270

主要思想:将BEV下的每个grid作为query,在高度上采样N个点,投影到图像中sample到对应像素的特征,且利用了空间和时间的信息。并且最终得到的是BEV featrue,在此featrue上做Det和Seg。

Spatial Cross-Attention:将BEV下的每个grid作为query,在高度上采样N个点,投影到图像中获取特征。

Temporal Self-Attention: 通过self-attention代替运动补偿,align上一帧的feature到当前帧的Q

1f0aafb6-4aae-11ee-97a6-92fbcf53809c.jpg

旷视,PETR

https://arxiv.org/pdf/2203.05625.pdf

1f43256c-4aae-11ee-97a6-92fbcf53809c.jpg

2、多模态

清华,FUTR3D

https://arxiv.org/pdf/2203.10642.pdf

在DETR的基础上,将3D reference point投影到Lidar voxel特征和radar point 特征上。

1f7422ac-4aae-11ee-97a6-92fbcf53809c.jpg

香港科技大学,Transfusion

https://arxiv.org/pdf/2203.11496.pdf

利用CenterPoint在heatmap上获取Top K个点作为Query(这K个点可以看做是通过lidar网络初始化了每个目标的位置,这比DETR用随机点作为Qurey收敛要快),先经过Lidar Transformer得到proposal,把这个proposal作为Query,再和image feature做cross attention。

1f9b9a30-4aae-11ee-97a6-92fbcf53809c.jpg

Google,DeepFusion

https://arxiv.org/abs/2203.08195

直接将Lidar feature和Camera feature做cross attention,这个思路牛逼,我不看到这篇论文是绝对想不到还能这么搞的。

1fbef3f4-4aae-11ee-97a6-92fbcf53809c.jpg

编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4457

    浏览量

    90761
  • 感知
    +关注

    关注

    1

    文章

    63

    浏览量

    12012
  • Transformer
    +关注

    关注

    0

    文章

    130

    浏览量

    5899

原文标题:BEV感知中的Transformer算法

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    应用于自动驾驶的2D视觉感知算法介绍

    我们将围绕着环境感知中关键的视觉感知算法进行介绍,其任务涵盖范围及其所属技术领域如下图所示。我们分为两节分别梳理了2D和3D视觉感知
    发表于 07-06 09:05 1071次阅读

    基于LSS范式的BEV感知算法优化部署详解

    BEV即Bird's Eye View(鸟瞰视图)是一种从空中俯视场景的视角。由多张不同视角采集的图像通过不同的空间转换方式形成,如下图所示,左侧为6张不同位置的相机采集的图像,右侧为转换的BEV图像。
    的头像 发表于 01-02 14:13 1405次阅读
    基于LSS范式的<b class='flag-5'>BEV</b><b class='flag-5'>感知</b><b class='flag-5'>算法</b>优化部署详解

    BEV感知算法:下一代自动驾驶的核心技术

    首先,BEV视图存在遮挡小的优点,由于视觉的透视效应,现实世界的物体在2D图像中很容易受到其他物体的遮挡,因此,传统的基于2D的感知方式只能感知可见的目标,对于被遮挡的部分算法将无能为
    发表于 01-25 15:38 593次阅读
    <b class='flag-5'>BEV</b><b class='flag-5'>感知</b><b class='flag-5'>算法</b>:下一代自动驾驶的核心技术

    未来已来,多传感器融合感知是自动驾驶破局的关键

    了目标的3D空间位置信息、目标的速度信息和材质信息,可以直接高效实时支持占用网格的体素算法。Tesla目前在主推“BEV +Transformer+占用网络”,国内华为GOD2.0和
    发表于 04-11 10:26

    感知时间等比缩减的机会频谱接入算法研究

    的机会频谱接入算法(SGPR)。该算法与其他固定感知时间长度算法比较,相对缩减了频谱感知时间,增加了系统传输时间,从而提高了认知网络系统的吞
    发表于 04-23 11:17

    BEV+Transformer对智能驾驶硬件系统有着什么样的影响?

    BEV+Transformer是目前智能驾驶领域最火热的话题,没有之一,这也是无人驾驶低迷期唯一的亮点,BEV+Transformer彻底终结了2D直视图+CNN时代
    的头像 发表于 02-16 17:14 2139次阅读

    基于几何变换器的2D-to-BEV视图转换学习

    BEV感知是自动驾驶的重要趋势。常规的自动驾驶算法方法基于在前视图或透视图中执行检测、分割、跟踪,而在BEV中可表示周围场景,相对而言更加直观,并且在
    发表于 06-06 17:47 997次阅读
    基于几何变换器的2D-to-<b class='flag-5'>BEV</b>视图转换学习

    基于Transformer的目标检测算法

    掌握基于Transformer的目标检测算法的思路和创新点,一些Transformer论文涉及的新概念比较多,话术没有那么通俗易懂,读完论文仍然不理解算法的细节部分。
    发表于 08-16 10:51 432次阅读
    基于<b class='flag-5'>Transformer</b>的目标检测<b class='flag-5'>算法</b>

    BEV人工智能transformer

    BEV人工智能transformer  人工智能Transformer技术是一种自然语言处理领域的重要技术,广泛应用于自然语言理解、机器翻译、文本分类等任务中。它通过深度学习算法从大规
    的头像 发表于 08-22 15:59 622次阅读

    CVPR上的新顶流:BEV自动驾驶感知新范式

    BEV自动驾驶感知好比一个从高处统观全局的“上帝视角”,将三维环境信息投影到二维平面,以俯视视角展示环境中的物体和地形。在路径规划、障碍物检测、自动驾驶决策等方面,BEV感知都展现出了
    的头像 发表于 08-23 14:51 735次阅读
    CVPR上的新顶流:<b class='flag-5'>BEV</b>自动驾驶<b class='flag-5'>感知</b>新范式

    利用Transformer BEV解决自动驾驶Corner Case的技术原理

    BEV是一种将三维环境信息投影到二维平面的方法,以俯视视角展示环境中的物体和地形。在自动驾驶领域,BEV 可以帮助系统更好地理解周围环境,提高感知和决策的准确性。在环境感知阶段,
    的头像 发表于 10-11 16:16 451次阅读
    利用<b class='flag-5'>Transformer</b> <b class='flag-5'>BEV</b>解决自动驾驶Corner Case的技术原理

    智能驾驶感知算法梳理 高阶自动驾驶落地关键分析

      感知算法升级是L2级向L 3级智能驾驶系统跨越的关键。与传统2D+CNN算法相比,BEV+ Transformer
    发表于 10-19 09:53 146次阅读
    智能驾驶<b class='flag-5'>感知</b><b class='flag-5'>算法</b>梳理 高阶自动驾驶落地关键分析

    BEV感知的二维特征点

    BEV感知的二维特征点 首先来简单介绍一下什么是BEV感知BEV
    的头像 发表于 11-14 11:37 332次阅读

    基于Transformer的多模态BEV融合方案

    由于大量的相机和激光雷达特征以及注意力的二次性质,将 Transformer 架构简单地应用于相机-激光雷达融合问题是很困难的。
    发表于 01-23 11:39 222次阅读
    基于<b class='flag-5'>Transformer</b>的多模态<b class='flag-5'>BEV</b>融合方案

    黑芝麻智能开发多重亮点的BEV算法技术 助力车企高阶自动驾驶落地

    随着视觉算法的演进,BEV(Bird's-Eye-View Perception)感知算法成为主机厂和自动驾驶公司发力城市场景的核心技术之一,
    的头像 发表于 03-29 18:18 1566次阅读
    黑芝麻智能开发多重亮点的<b class='flag-5'>BEV</b><b class='flag-5'>算法</b>技术 助力车企高阶自动驾驶落地