0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

自动驾驶端到端时代,还会使用BEV和Transformer吗?

智驾最前沿 来源:智驾最前沿 作者:智驾最前沿 2026-04-23 09:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

[首发于智驾最前沿微信公众号]在讨论自动驾驶技术时,很多人容易产生一种误解,认为端到端是一项孤立的新技术,会完全取代BEV(鸟瞰图)或Transformer,也有小伙伴曾在后台留言询问端到端模型还会使用BEV+Transformer吗?

事实上,端到端并不是要推翻现有的感知架构,而是将原本各司其职的模块,通过一种更高效、更具逻辑性的方式融合在一个庞大的神经网络里。BEV和Transformer依然是这套系统的眼睛和骨架,只是它们的工作方式发生了变革。

wKgZPGnpcO2ADSmKAAAQo00DEvw996.jpg

为什么空间感知依然是核心?

自动驾驶最基本的要求就是让车辆知道自己在哪里,周围有什么。虽然端到端模型可以直接输出驾驶轨迹,但如果系统内部没有建立起准确的空间模型,它给出的动作就会变得不可预测且缺乏逻辑。

BEV技术的核心价值在于它提供了一个统一的空间底座。它能将布置在车身四周的多个摄像头采集到的图像信息,实时投影到一个俯视的角度下。在这个角度里,物体之间的距离、车道的走向以及交叉口的布局,都变得和人类看地图一样直观。

wKgZO2npcO6ASR8qAADfadUzXD0848.jpg

图片源自:网络

在目前的端到端方案中,BEV不再只是为了画出漂亮的感知画面供工程师查看。它的真实作用是作为特征容器。当多路摄像头的数据涌入模型时,系统会在这个统一的空间平面内进行特征叠加。

这种做法解决了摄像头视野重叠或遮挡的问题,让模型在处理诸如大曲率弯道或复杂的城市路口时,能够拥有一份连贯的空间记忆。如果缺少了这个空间视角,端到端模型就只能在混乱的像素中摸索,很难表现出稳定的驾驶决策能力。

wKgZPGnpcO6AG6y0AAAR42n7O-I677.jpg

Transformer是如何连接时空的?

如果说BEV是舞台,那么Transformer就是舞台上的总导演,负责决定哪些信息该被保留,哪些信息该被重点关注。在端到端模型内部,Transformer的注意力机制解决了感知中的一个痛点,如何把不同位置、不同时间的信息关联起来。

wKgZO2npcO-AX7AmAACV9pp1n6Y307.jpg

图片源自:网络

通过这种机制,模型可以自主学习哪些画面特征对当前的驾驶任务最重要。如在通过红绿灯路口时,它会自动把权重分配给前方的信号灯和侧方的行人,而不是路边无关紧要的树木。

更重要的是,现在的端到端模型非常依赖Transformer来处理时间序列。驾驶不是一个静态的瞬间,而是一个连续的过程。Transformer能够像人类的短期记忆一样,把过去几秒钟的特征信息串联起来。这让模型具备了预测能力,即使遇到一个骑车人被路边的公交车挡住了的场景,系统依然能通过之前的观察记录,推断出这个人的大概位置和行进速度。这种对时空信息的深度整合,让端到端模型在面对“鬼探头”等极端场景时,反应比纯粹的规则算法更加灵敏且自然。

wKgZPGnpcO-ALCBhAAASG3BOmsQ078.jpg

神经网络内部是怎么交流的?

传统的自动驾驶架构像是一条流水线,感知算完了给预测,预测算完了给规控。每一道工序都会把数据翻译成如目标物的坐标、速度数值等人类能读懂的格式。但在端到端模型中,这种交流变得更加高效。BEV和Transformer生成的特征,直接以高维向量的形式传给下游。这种方式最大的进步在于避免了信息折损。

wKgZO2npcPCAZyn9AAB1w6K0N9k385.jpg

图片源自:网络

以往如果我们把一个异形物体误识别成了电线杆,后面的规划模块就可能因为这个错误的标签而做出错误的规避。但在端到端系统里,即便模型叫不出那个物体的名字,它也能通过Transformer感知到那个位置的特征是不可通行的,从而直接计算出一条绕行的曲线。

这种从原始特征到驾驶行为的直接映射,省去了中间繁杂的人工规则定义,让车辆在面对各种奇奇怪怪的路况时,表现得更像一个有经验的老司机,而不是只会按说明书干活的机器人

wKgZPGnpcPCAeXFNAAASAJELks8343.jpg

未来的模型还会怎么变?

虽然现在的端到端模型高度依赖BEV和Transformer,但这套组合也在不断进化。目前的趋势是让模型具备更强的世界感,很多技术方案也正在尝试引入Occupancy(占用网络)的思想,让模型不再关注具体的物体,而是关注空间中的每一个体积单位是否被占据。这种做法让端到端模型在处理施工区域、散落物等不规则障碍物时,拥有了更高的鲁棒性。

wKgZO2npcPGAZCZmAAE4H9lCoLQ053.jpg

图片源自:网络

此外,随着多模态大模型的普及,端到端架构也开始吸收语言和视觉大模型的经验。未来的系统可能不仅能看到路,还能通过类似Transformer的架构去理解一些如识别出路边交警的手势、判断出前方车辆突然减速的意图等隐性的交通逻辑。

所以,BEV和Transformer并不会消失,它们反而在端到端的大趋势下,从原本独立的插件变成了系统神经网络中不可分割的神经元,共同让自动驾驶变得更加聪明。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 端到端
    +关注

    关注

    0

    文章

    51

    浏览量

    10857
  • 自动驾驶
    +关注

    关注

    794

    文章

    14985

    浏览量

    181446
  • 大模型
    +关注

    关注

    2

    文章

    3765

    浏览量

    5269
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    为什么一段式自动驾驶很难落地?

    [首发于智驾最前沿微信公众号]自动驾驶技术在过去十年中经历了从基础辅助驾驶高度自动化系统的快速演进。在这一进程中,技术架构的选择始终是决定行业走向的核心命题。传统的
    的头像 发表于 03-08 09:44 1795次阅读
    为什么一段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自动驾驶</b>很难落地?

    自动驾驶为什么会出现黑盒现象?

    自动驾驶领域,(End-to-End)是指从感知环境的原始数据车辆实际控制指令,全部交给一个统一的深度学习模型来完成。这和传统的模
    的头像 发表于 02-20 09:25 9534次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>为什么会出现黑盒现象?

    Transformer如何让自动驾驶大模型获得思考能力?

    在谈及自动驾驶时,Transformer一直是非常关键的技术,为何Transformer自动驾驶行业一直被提及?
    的头像 发表于 02-01 09:15 4384次阅读

    与模块化自动驾驶的数据标注要求有何不同?

    [首发于智驾最前沿微信公众号]自动驾驶技术路径的每一次技术转向,都伴随着底层数据处理逻辑的彻底重构。过去,智驾系统普遍依赖模块化设计,将驾驶任务拆解为感知、预测、规控等独立环节;而今,以
    的头像 发表于 01-27 09:48 1109次阅读
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>与模块化<b class='flag-5'>自动驾驶</b>的数据标注要求有何不同?

    如何训练好自动驾驶模型?

    [首发于智驾最前沿微信公众号]最近有位小伙伴在后台留言提问:算法是怎样训练的?是模仿学习、强化学习和离线强化学习这三类吗?其实
    的头像 发表于 12-08 16:31 1598次阅读
    如何训练好<b class='flag-5'>自动驾驶</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>模型?

    自动驾驶仿真与基于规则的仿真有什么区别?

    自动驾驶领域,“仿真”指的是将感知控制的整个决策链条视为一个整体,从而进行训练和验证的思路。
    的头像 发表于 11-02 11:33 1846次阅读

    自动驾驶中常提的一段式(单段)是个啥?

    自动驾驶技术的发展,催生出技术的应用,一段式
    的头像 发表于 10-18 10:16 1853次阅读

    西井科技自动驾驶模型获得国际认可

    近日,西井科技AI创研团队在国际权威自动驾驶算法榜单NAVSIM v2中脱颖而出,凭借创新的自动驾驶模型,以综合得分48.759的成绩
    的头像 发表于 10-15 17:20 1427次阅读

    一文读懂特斯拉自动驾驶FSD从辅助的演进

    [首发于智驾最前沿微信公众号]自动驾驶行业发展至今,特斯拉一直被很多企业对标,其FSD系统的每一次更新,都会获得非常多人的关注。早期自动驾驶是一个分层的、由多模块组成的系统,感知、定位、预测、规划
    的头像 发表于 10-11 09:13 1126次阅读
    一文读懂特斯拉<b class='flag-5'>自动驾驶</b>FSD从辅助<b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的演进

    自动驾驶大模型为什么会有不确定性?

    。为了能让自动驾驶汽车做出正确、安全且符合逻辑的行驶动作,大模型被提了出来。
    的头像 发表于 09-28 09:20 1012次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大模型为什么会有不确定性?

    自动驾驶相较传统自动驾驶到底有何提升?

    各自专业模块独立承担,再通过预定的接口协议将信息有序传递。与之相对照,“”(end-to-end)自动驾驶以统一的大规模神经网络为核心,将从摄像头、雷达、激光雷达等传感器采集
    的头像 发表于 09-02 09:09 1006次阅读
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自动驾驶</b>相较传统<b class='flag-5'>自动驾驶</b>到底有何提升?

    Nullmax自动驾驶最新研究成果入选ICCV 2025

    近日,国际计算机视觉大会 ICCV 2025 正式公布论文录用结果,Nullmax 感知团队在自动驾驶方向的最新研究成果《HiP-AD: Hierarchical
    的头像 发表于 07-05 15:40 1959次阅读
    Nullmax<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自动驾驶</b>最新研究成果入选ICCV 2025

    为什么自动驾驶大模型有黑盒特性?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术落地,(End-to-End)大模型也成为行业研究与应用的热门方向。相较于传统自动驾驶
    的头像 发表于 07-04 16:50 1025次阅读
    为什么<b class='flag-5'>自动驾驶</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大模型有黑盒特性?

    数据标注方案在自动驾驶领域的应用优势

    10-20TB,其中需要标注的数据占比超过60%。在这样的背景下,数据标注方案应运而生,正在重塑自动驾驶的数据生产范式。
    的头像 发表于 06-23 17:27 1187次阅读

    一文带你厘清自动驾驶架构差异

    [首发于智驾最前沿微信公众号]随着自动驾驶技术飞速发展,智能驾驶系统的设计思路也经历了从传统模块化架构
    的头像 发表于 05-08 09:07 1192次阅读
    一文带你厘清<b class='flag-5'>自动驾驶</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>架构差异