0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Transformer如何让自动驾驶变得更聪明?

智驾最前沿 来源:智驾最前沿 2025-11-19 18:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

[首发于智驾最前沿微信公众号]自动驾驶中常提的Transformer本质上是一种神经网络结构,最早在自然语言处理里火起来。与卷积神经网络(CNN)或循环神经网络(RNN)不同,Transformer能够自动审视所有输入信息,并动态判断哪些部分更为关键,同时可以将这些重要信息有效地关联起来。

这种能力对自动驾驶来说至关重要。由于驾驶场景复杂多变,自动驾驶系统需要同时处理来自摄像头、毫米波雷达、激光雷达和高精地图等多种来源的数据,还要理解车辆、行人等参与者之间随时间的动态交互。传统方法在应对这种多模态、长时序的信息关联时会感觉力不从心,而Transformer的架构特性刚好弥补了这些短板。

Transformer能将“前方100米处一个模糊的物体”、“旁边车道一辆正在减速的汽车”以及“几秒钟前路口突然出现的行人”这些看似独立的信息碎片,整合成一套统一的“输入单元”。它会自动在这些单元之间建立有用的联系,最终提炼出对当前驾驶决策最有价值的核心信息。这种强大的全局关联能力,让感知、预测和规划这些原本界限分明的模块,可以用一种更集成、更智能的方式协同工作。

01Transformer的核心机制:自注意力和多头注意力

Transformer之所以强大,其关键在于“自注意力”机制。自注意力机制会将输入的每一个元素(比如图像的一块patch、激光雷达的一个点)转化为Query(查询)、Key(键)、Value(值)这三种不同的向量:

查询:可以理解为当前元素提出的问题:“我应该关注谁?”

键:是其他元素提供的标识:“我是谁?”

值:是其他元素所包含的实际信息:“我有什么内容。”

查询会和所有键做相似度比较,得到权重,再把这些权重作用到所有值上,最终得到这个位置的新表示。这个过程就是让模型自己决定“我应该关注哪些其他位置的信息来更新当前位置的理解”。为了稳定训练过程,注意力计算会通过一个缩放因子进行调整。

Transformer不会只做一次注意力计算,而是采用“多头注意力”,即可以同时进行多组独立的注意力运算。这好比让多个专家从不同角度分析同一段信息,有的专家专注于局部细节,有的专家则善于把握全局关系,他们最后会将见解综合起来,形成更全面、更深刻的理解。

对于自动驾驶中常见的时间序列问题,Transformer可以轻松地将过去若干帧的数据作为输入序列,通过注意力机制直接学习不同时刻之间的依赖关系。再辅以“位置编码”来告知模型各个输入单元的先后顺序,从而有效地预测出车辆、行人未来的运动轨迹。

02Transformer对感知的好处

之前,感知里最常见的做法是用卷积网络做图像特征提取,再用专门的检测头(如Faster R-CNN、YOLO)做目标检测。Transformer做的就是把检测问题重新表述成了“一组查询去匹配场景里的物体”,这类方法(比如DETR、以及后续变体)减少了很多手工设计的锚框、NMS(非极大值抑制)等步骤,思路上更直接,也更统一。

1)长距离与稀疏目标的检测更鲁棒

得益于全局注意力,Transformer在分析一个远处的小目标时,能够同时参考近处的大物体和整体的场景上下文。这在目标被部分遮挡或图像分辨率有限的情况下尤其有用,模型可以依据其他相关线索推断出“那可能是一个行人”或“远处有一辆停靠的车辆”。

2)多模态融合更自然

自动驾驶车辆装备了如摄像头、毫米波雷达和激光雷达等传感器,Transformer则提供了一个统一的框架,可以将这些不同来源的数据都表示为“输入单元”,然后通过跨模态注意力机制让它们自由地交流信息。举个例子,激光雷达提供的精确三维点云信息可以与摄像头丰富的纹理、颜色信息相互补充,模型能自动学习在何时、以何种方式信赖哪一种传感器,实现真正意义上的早期融合。

3)端到端的检测与跟踪更容易结合

Transformer可以把检测框、历史轨迹、甚至ID信息都当作token,让模型同时做检测和关联,能减少后处理步骤,降低误关联(ID-switch)的概率。Transformer在多目标跟踪(MOT)领域的进展,可以有效解决自动驾驶里连续帧中物体身份保持的问题。

03Transformer如何让决策更有洞察力

预测其他道路参与者的未来轨迹,并规划出自车的安全路径,是自动驾驶的核心任务,为实现这一目标,需要模型具备强大的推理能力,能够理解参与者之间复杂的时空交互。Transformer的自注意力机制在这里再次展现出巨大优势。

1)更好地建模交互行为

传统方法在建模多智能体交互时会显得比较僵硬。而Transformer的注意力机制天生就能计算任意两个参与者之间的影响程度,并能动态地将注意力聚焦在“关键参与者”上。如在通过一个无信号灯的路口时,Transformer能同时考虑左侧来车、右侧准备横穿的行人以及前方车辆的意图,从而生成多种合理的未来概率分布,以便自动驾驶汽车可以安全、高效地驾驶。

2)长时记忆更友好

某些驾驶行为的预测需要回顾较长的历史信息。要预测一个行为,有时候需要回看很长时间的过去状态(比如某辆车的转向灯在几秒前就亮了,但始终慢速行驶,现在终于开始并线)。Transformer对长序列的处理比传统LSTM等要更为稳健,而且可以并行计算,训练效率会更高。当然,为了处理更长的历史信息,需采用稀疏注意力、局部—全局混合机制或缓存机制来控制计算量。

3)规划可以直接利用预测注意力

当预测模块和规划模块都基于Transformer构建时,它们之间的信息流动会更加顺畅。规划模块不仅能看到预测模块输出的轨迹,甚至能“看到”预测过程中的注意力分布,即其他交通参与者最关心谁。这为自车的决策提供了更深层次的上下文,如在通过一个拥挤路口时,自动驾驶汽车可以对那个注意力高度分散、行为不确定的车辆保持更大的安全距离。

04最后的话

Transformer为自动驾驶带来了一种更强大、更灵活的“信息关联与理解”的新范式。它让机器能够像人类一样,更全面地审视复杂的驾驶环境,将不同来源、不同时间的信息融会贯通,从而做出更前瞻、更合理的决策。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自动驾驶
    +关注

    关注

    791

    文章

    14667

    浏览量

    176379
  • Transformer
    +关注

    关注

    0

    文章

    154

    浏览量

    6808
  • 卷积神经网络

    关注

    4

    文章

    371

    浏览量

    12713
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    高程数据在自动驾驶中有什么作用?

    最近有小伙伴智驾最前沿聊聊自动驾驶高精度地图对高程数据的使用依赖,其实在聊这个话题之前,还是需要先知道高程数据是什么,在自动驾驶中到底有什么作用。
    的头像 发表于 11-02 13:44 1485次阅读

    不同等级的自动驾驶技术要求上有何不同?

    谈到自动驾驶,不可避免地会涉及到自动驾驶分级,美国汽车工程师学会(SAE)根据自动驾驶系统与人类驾驶员参与驾驶行为程度的不同,将
    的头像 发表于 10-18 10:17 2402次阅读

    自动驾驶Transformer大模型会取代深度学习吗?

    持续讨论。特别是在自动驾驶领域,部分厂商开始尝试将多模态大模型(MLLM)引入到感知、规划与决策系统,引发了“传统深度学习是否已过时”的激烈争论。然而,从技术原理、算力成本、安全需求与实际落地路径等维度来看,Transformer与深度学习并非你死我活的替代
    的头像 发表于 08-13 09:15 3906次阅读
    <b class='flag-5'>自动驾驶</b>中<b class='flag-5'>Transformer</b>大模型会取代深度学习吗?

    卡车、矿车的自动驾驶和乘用车的自动驾驶在技术要求上有何不同?

    [首发于智驾最前沿微信公众号]自动驾驶技术的发展,组合辅助驾驶得到大量应用,但现在对于自动驾驶技术的宣传,普遍是在乘用车领域,而对于卡车、矿车的
    的头像 发表于 06-28 11:38 701次阅读
    卡车、矿车的<b class='flag-5'>自动驾驶</b>和乘用车的<b class='flag-5'>自动驾驶</b>在技术要求上有何不同?

    自动驾驶是为了“增强人”,还是为了“替代人”?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术的日益成熟,人们对它的定位也在不断演进,究竟是要打造一个能为驾驶者提供更佳体验的“智能副驾”,还是完全替代人类驾驶员,汽车在任何道路环境
    的头像 发表于 06-25 11:07 485次阅读

    自动驾驶安全基石:ODD

    电子发烧友网综合报道 自动驾驶ODD(Operational Design Domain)即设计运行域,是指自动驾驶系统被设计为安全、有效运行的具体条件范围。它定义了自动驾驶汽车在哪些环境、场景
    的头像 发表于 05-19 03:52 5774次阅读

    AI将如何改变自动驾驶

    自动驾驶带来哪些变化?其实AI可以改变自动驾驶技术的各个环节,从感知能力的提升到决策框架的优化,从安全性能的增强到测试验证的加速,AI可以自动驾驶从实验室走向大规模商业化。 对于感知
    的头像 发表于 05-04 09:58 616次阅读

    感知融合如何自动驾驶汽车“看”世界清晰?

    自动驾驶技术被认为是未来交通领域的革命性变革,其目标是通过技术手段实现安全、高效、便捷的出行体验。而在这一技术体系中,环境感知系统扮演着至关重要的角色,它不仅是自动驾驶车辆理解外部世界的“眼睛
    的头像 发表于 04-27 16:24 627次阅读
    感知融合如何<b class='flag-5'>让</b><b class='flag-5'>自动驾驶</b>汽车“看”世界<b class='flag-5'>更</b>清晰?

    智慧光伏运维管理系统电站聪明省心

           智慧光伏运维管理系统电站聪明省心        光伏电站像一片巨大的太阳能农田,每天默默吸收阳光发电。但要让这片农田高效运转,过去需要大量人力巡查设备、处理故障,既
    的头像 发表于 03-31 15:44 605次阅读
    智慧光伏运维管理系统<b class='flag-5'>让</b>电站<b class='flag-5'>更</b><b class='flag-5'>聪明</b><b class='flag-5'>更</b>省心

    沃尔沃与Waabi携手开发自动驾驶卡车

    沃尔沃自动驾驶解决方案公司(V.A.S.)近日宣布与加拿大自动驾驶卡车技术公司Waabi建立合作伙伴关系,共同致力于自动驾驶卡车解决方案的研发。
    的头像 发表于 02-10 17:33 846次阅读

    自动驾驶的未来 - 了解如何无缝、可靠地完成驾驶

    。 汽车行业正在向自动驾驶汽车靠拢,其发展势头越来越强,其目标不仅是驾驶员的生活简单,而且要消除道路上的碰撞。 自动驾驶汽车已经上路,因
    的头像 发表于 01-26 21:52 894次阅读
    <b class='flag-5'>自动驾驶</b>的未来 - 了解如何无缝、可靠地完成<b class='flag-5'>驾驶</b>

    L3自动驾驶法规同步登陆北京、武汉 #自动驾驶 #智能驾驶 #交通法规

    自动驾驶
    jf_15747056
    发布于 :2025年01月07日 17:55:43

    从《自动驾驶地图数据规范》聊高精地图在自动驾驶中的重要性

    自动驾驶地图作为L3级及以上自动驾驶技术的核心基础设施,其重要性随着智能驾驶技术的发展愈发显著。《自动驾驶地图数据规范》(DB11/T 2041-2022)由北京市规划和自然资源委员会
    的头像 发表于 01-05 19:24 2862次阅读
    从《<b class='flag-5'>自动驾驶</b>地图数据规范》聊高精地图在<b class='flag-5'>自动驾驶</b>中的重要性

    线控底盘如何自动驾驶加速奔跑?

    基石。 引言 在汽车行业迈向智能化、网联化和电动化的过程中,线控底盘的应用变得愈发重要。线控底盘通过电子信号取代传统机械装置,在车辆动力、转向、制动等方面实现更高效、更精准的控制,是L3级及以上自动驾驶不可或缺的
    的头像 发表于 12-13 09:41 1248次阅读
    线控底盘如何<b class='flag-5'>让</b><b class='flag-5'>自动驾驶</b>加速奔跑?