0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

自动驾驶中一直说的BEV+Transformer到底是个啥?

智驾最前沿 来源:智驾最前沿 作者:智驾最前沿 2024-11-07 11:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在很多车企的自动驾驶介绍中,都会听到一个关键技术,那就是BEV+Transformer,那BEV+Transformer到底是个啥?为什么很多车企在自动驾驶技术中都十分追捧这项技术?其实“BEV(Bird’s Eye View)+Transformer”是两个方向的技术,BEV是一种全新的3D坐标系,而Transformer则是一种深度学习神经网络模型,BEV+Transformer的组合方案在感知、理解和预测方面表现得更为强大,彻底终结了2D直视图+CNN时代。BEV+Transformer通过鸟瞰视角与Transformer模型的结合,显著提升了自动驾驶系统的环境感知与决策支持能力。BEV+Transformer的首次亮相是由特斯提出,高效解决了其纯视觉方案下多个摄像头的数据融合的问题,随后国内的小鹏、理想、蔚来等车企以及毫末智行、百度Apollo、商汤、地平线等Tier 1也纷纷跟进,提出了自己的BEV+Transformer方案。

wKgZoWcsMVuAPBRPABoSn4hmHAU098.pngTier 1智能驾驶集感知模型应用,来源:亿欧智库

BEV(鸟瞰视角)的概念

1.BEV的定义和背景

BEV即“Bird’s Eye View”(鸟瞰视角),顾名思义,它能够将视觉信息立体化,如同一只鸟儿在车辆正上方俯瞰,周围的环境信息以自上而下的方式展示在坐标系中,可以生成是以车辆为中心、从高空俯视车辆周围环境的视角。与摄像头获取的前视图相比,BEV视角能够显示更多的车辆周围信息。这种视角在自动驾驶中十分重要,因为它为感知系统提供了更广阔的空间视野,有助于系统更好地理解复杂交通场景中的多方位环境。

wKgaoWcsMXGACa98ABKv9cv3VQA310.png

2.BEV视角的生成过程

获取BEV视角通常依赖于多种传感器的数据融合,如摄像头、激光雷达和毫米波雷达。这些传感器以不同角度捕获环境数据,然后通过深度估计、几何投影(尤其是透视投影变换)和坐标转换等步骤,将各视角的图像或点云数据整合为一个鸟瞰图。特别是在摄像头生成BEV视角的过程中,这种投影转换需要考虑到图像的畸变和透视效果,以确保视角的准确性。

3.BEV视角的实际应用

BEV视角在自动驾驶中的应用主要体现在复杂交通场景下的环境理解,如多车道并行、十字路口和环形交叉路口等。通过BEV视角,系统不仅可以识别前方物体,还能准确检测车辆四周的障碍物、行人、非机动车和建筑物,从而为安全行驶提供更全面的环境信息。

Transformer的基本概念与作用

1.Transformer模型的起源

Transformer模型最早由谷歌在2017年的“Attention is all you need”一文中提出,最初用于自然语言处理(NLP)领域的翻译和文本生成任务。与传统的RNN、LSTM模型不同,Transformer的自注意力机制(Self-Attention)允许其处理任意长度的输入序列,且并行计算性能强,因此在大规模数据处理和高效计算方面有显著优势。随着AI深度学习的兴起,Transformer被应用在BEV空间转换、时间序列上,形成了一个端到端的模型。

2.Transformer在视觉任务中的扩展

Transformer模型逐步被应用于计算机视觉(CV)任务,如目标检测、语义分割和物体跟踪等。其自注意力机制能够在图像上捕捉全局信息并分析不同位置特征之间的关系,帮助系统建立物体之间的空间关系。这在复杂场景下尤其重要,例如城市道路中需要理解不同车辆、行人之间的动态交互。

3.Transformer在BEV视角中的作用

在BEV+Transformer架构中,Transformer模型负责将BEV视角中的特征图信息转化为高层次的语义信息。通过自注意力机制,Transformer能够在特征图上找到重要物体之间的相对位置关系,并分析它们的行为趋势。例如,Transformer可以识别车道内外车辆的距离和速度关系,有助于预测其他车辆的运动轨迹。

wKgaoWcsMXuARuS_ABHjR-HE5Do851.png

BEV+Transformer的技术原理

1.多传感器数据融合与转换

BEV+Transformer的核心在于将来自不同传感器的数据统一转换为BEV视角的特征图,再利用Transformer进行深度分析。首先,通过卷积神经网络(CNN)对摄像头和雷达数据提取特征,并进行投影转换生成BEV视角的特征图。这样就能在车身上方生成完整的俯视图,为Transformer模型提供丰富的环境信息。

wKgaoWcsMYGAb4OdABK6k2kfuoQ643.png

2.自注意力机制的全局关系分析

Transformer模型利用自注意力机制分析BEV特征图中的不同位置特征,建立物体与物体之间的相关性。例如,系统可以分析道路上的车辆、行人、障碍物的分布及其相对速度,预测他们的行为变化趋势。这种全局关系的分析使得系统对复杂场景的环境理解更加深刻和准确。

3.高层次语义信息的输出与决策支持

Transformer处理完BEV视角特征后,生成的输出包含环境的高层次语义信息,包括物体类别、位置、运动趋势等。这些信息不仅可以用于路径规划,还能辅助车辆进行避障和动态调整。在自动驾驶决策模块中,这些高层信息与其他预测结果结合,生成更加智能的驾驶策略。

BEV+Transformer的实际应用案例

1.障碍物检测与识别

BEV+Transformer架构可在复杂交通场景中识别各类障碍物,包括车辆、行人和道路设施等。通过自注意力机制,系统能够在特征图中捕捉到环境中关键物体的位置和运动方向,并对潜在的障碍物进行跟踪检测,有助于及时生成避障方案。

2.路径预测与动态规划

在路径预测方面,BEV+Transformer架构通过学习环境中各参与者的运动特征,预测车辆和行人等的行驶轨迹。这种全局化预测在车流密集的场景中尤为重要,能够帮助自动驾驶系统提前分析其他交通参与者的行为趋势,从而制定更安全、顺畅的行驶路径。

3.车道线识别与辅助驾驶

在高速公路或复杂路口,车辆需要精准识别车道线以保持在车道内行驶。传统摄像头的识别易受光线和视角影响,而BEV+Transformer结合了全方位的鸟瞰图,确保了在恶劣条件下也能稳定识别车道线,使车辆在变道或急转弯时更安全。

BEV+Transformer的优势

1.全局视角与空间理解能力

BEV视角带来了全局性的环境感知能力,能够减少车辆周围盲区。Transformer的自注意力机制则增强了系统的空间理解能力,在BEV特征图中识别出场景内物体的长距离关系,使得自动驾驶系统对复杂环境的认知更全面。

2.多模态数据的统一融合

BEV+Transformer架构能够在统一的特征图中处理多传感器信息,提升了感知的精度。例如,图像与点云数据经过前期融合后,再经由Transformer分析,大大减少了因多传感器不一致而产生的误差,从而提升了模型的鲁棒性。

wKgZoWcsMYyAEvUbAA6N8OxLR-4662.png

3.有效的预测能力

Transformer在视觉任务中展现出的强大预测能力,使BEV+Transformer架构可以更准确地预测其他车辆、行人的行为。尤其在动态交通场景中,Transformer结合BEV信息能提供精细的路径预测,帮助自动驾驶系统提前识别潜在风险。

BEV+Transformer的局限性与挑战

1.计算资源需求与实时性挑战

Transformer的自注意力机制对计算资源需求较大,尤其是在处理多传感器融合数据时,可能会导致推理延迟问题。自动驾驶系统需要达到毫秒级响应速度,这对计算资源提出了高要求。一些优化技术(如分块自注意力)可以减小负担,但实现高效实时推理仍是挑战。

2.传感器精度和同步性依赖

BEV+Transformer的表现高度依赖传感器的精度与同步性。在复杂环境中,天气、遮挡、反射等因素可能导致传感器获取的信息出现偏差,从而影响BEV视角的准确性。传感器误差会使Transformer的分析结果不可靠,影响系统的整体表现。

3.复杂交通场景的鲁棒性

BEV+Transformer在高动态交通场景下(如城市密集路段)可能受到影响,因为这些场景包含大量动态物体及不确定因素。在应对恶劣天气、光线变化及不同国家的道路标志差异时,BEV+Transformer的鲁棒性仍需进一步验证和优化,以保证系统能适应多样化的场景。

结语

BEV+Transformer架构为自动驾驶领域带来了新的技术突破。通过结合鸟瞰视角的全局信息和Transformer的自注意力机制,该架构显著提升了感知精度和决策支持能力。然而,要在实际道路场景中实现其广泛应用,还需克服计算资源、传感器同步性等方面的挑战。未来,随着硬件技术的进步和算法优化,BEV+Transformer有望成为自动驾驶系统的重要组成部分,为完全自动驾驶奠定坚实的技术基础。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自动驾驶
    +关注

    关注

    791

    文章

    14677

    浏览量

    176705
  • Transformer
    +关注

    关注

    0

    文章

    154

    浏览量

    6819
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自动驾驶BEV Camera数据采集系统:高精度时间同步解决方案

    波动。BEV(Bird's-Eye-View)感知技术以其尺度变化小、视角遮挡少的显著优势,正成为自动驾驶领域的关键技术,而高精度时间同步是确保BEV感知算法准确性的基础保障。 2 时间同步精度要求分析 2.1 不同应用场景的精
    的头像 发表于 12-11 17:11 333次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>BEV</b> Camera数据采集系统:高精度时间同步解决方案

    自动驾驶中毫米波雷达到底有何作用?

    毫米波雷达、超声波雷达等感知硬件,更像是配角,成为自动驾驶技术实现的辅助硬件。那在自动驾驶中毫米波雷达到底有何作用?
    的头像 发表于 12-10 17:07 1084次阅读
    <b class='flag-5'>自动驾驶</b>中毫米波雷达<b class='flag-5'>到底</b>有何作用?

    Transformer如何让自动驾驶变得更聪明?

    ]自动驾驶中常提的Transformer本质上是种神经网络结构,最早在自然语言处理里火起来。与卷积神经网络(CNN)或循环神经网络(RNN)不同,Transformer能够
    的头像 发表于 11-19 18:17 1937次阅读

    自动驾驶中常提的ODD是

    [首发于智驾最前沿微信公众号]在自动驾驶中,经常会听到概念,那就是ODD。所谓ODD,全称为Operational Design Domain,中文常译为“运行设计域”或者“作业域”。直观
    的头像 发表于 09-22 09:04 557次阅读
    <b class='flag-5'>自动驾驶</b>中常提的ODD是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?

    自动驾驶中常提的硬件在环是

    [首发于智驾最前沿微信公众号]在谈及自动驾驶技术时,经常会提及技术,那就是硬件在环,所谓的硬件在环是?对于
    的头像 发表于 08-14 08:54 890次阅读

    自动驾驶Transformer大模型会取代深度学习吗?

    持续讨论。特别是在自动驾驶领域,部分厂商开始尝试将多模态大模型(MLLM)引入到感知、规划与决策系统,引发了“传统深度学习是否已过时”的激烈争论。然而,从技术原理、算力成本、安全需求与实际落地路径等维度来看,Transformer与深度学习并非你死我活的替代
    的头像 发表于 08-13 09:15 3930次阅读
    <b class='flag-5'>自动驾驶</b>中<b class='flag-5'>Transformer</b>大模型会取代深度学习吗?

    自动驾驶中常提的RTK是

    [首发于智驾最前沿微信公众号]在谈及自动驾驶关键技术时,经常会听到技术,那就是RTK,很多人看到RTK后定会想,这到底是
    的头像 发表于 08-10 10:35 758次阅读
    <b class='flag-5'>自动驾驶</b>中常提的RTK是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?

    自动驾驶中常提的惯性导航系统是?可以不用吗?

    每次提到自动驾驶硬件时,大家可能第反应想到的是激光雷达、车载摄像头、毫米波雷达等,但想要让自动驾驶车辆实际落地,有硬件也非常重要,那就
    的头像 发表于 07-24 18:12 1538次阅读
    <b class='flag-5'>自动驾驶</b>中常提的惯性导航系统是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?可以不用吗?

    自动驾驶中常提的高精度地图是?有何审查要求?

    不仅在空间分辨率和数据丰富度上有质的飞跃,还在数据处理与安全管理方面提出了更严格的规范。那高精度地图到底是?是否有什么具体需求? 高精度地图,顾名思义,是种面向
    的头像 发表于 07-03 19:29 619次阅读
    <b class='flag-5'>自动驾驶</b>中常提的高精度地图是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?有何审查要求?

    自动驾驶中常提的HMI是

    控”的过程中,人机交互界面担负着承上启下、沟通信息与建立信任的重任。此外,这领域也是可以给驾驶员和乘客带来最直观感知的项技术,因此对于很多车企来说,这也是最值得深度研究的部分。那
    的头像 发表于 06-22 13:21 2110次阅读

    浅析4D-bev标注技术在自动驾驶领域的重要性

    感知领域的项突破性创新,通过引入时间维度与全局视角,为自动驾驶系统提供了高精度、多模态的时空真值数据,重塑了自动驾驶系统的开发范式。 4D-BEV标注是什么? 4D-
    的头像 发表于 06-12 16:10 1157次阅读

    自动驾驶中常提的“点云”是

    [首发于智驾最前沿微信公众号]在自动驾驶系统中,点云技术作为三维空间感知的核心手段,为车辆提供了精确的距离和形状信息,从而实现目标检测、环境建模、定位与地图构建等关键功能。那所谓的“点云”,到底是
    的头像 发表于 05-21 09:04 835次阅读
    <b class='flag-5'>自动驾驶</b>中常提的“点云”是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?

    自动驾驶大模型中常提的Token是?对自动驾驶有何影响?

    、多模态传感器数据的实时处理与决策。在这过程中,大模型以其强大的特征提取、信息融合和预测能力为自动驾驶系统提供了有力支持。而在大模型的中,有“Token”的概念,有些人看到后或许
    的头像 发表于 03-28 09:16 994次阅读

    自动驾驶行业中的Tier1与Tier2是?有何区别?

    责任分工。那么,Tier1和Tier2到底是?两者之间又有哪些具体区别? Tier1和Tier2的定义 在自动驾驶行业中,Tier1和Tier2分别是供应链中的两
    的头像 发表于 03-16 10:50 1782次阅读

    自动驾驶中常提的鲁棒性是

    随着自动驾驶技术的快速发展,鲁棒性(Robustness)成为评价自动驾驶系统的重要指标之。很多小伙伴也会在自动驾驶相关的介绍中,对某些功能用鲁棒性进行描述。
    的头像 发表于 01-02 16:32 8367次阅读
    <b class='flag-5'>自动驾驶</b>中常提的鲁棒性是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?