0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一文带你厘清自动驾驶端到端架构差异

智驾最前沿 来源:智驾最前沿 作者:智驾最前沿 2025-05-08 09:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

[首发于智驾最前沿微信公众号]随着自动驾驶技术飞速发展,智能驾驶系统的设计思路也经历了从传统模块化架构到端到端大模型转变。传统模块化架构将感知、预测、规划和控制等子任务拆分开,分别由不同模块完成;而端到端大模型则尝试直接将传感器输入映射到车辆控制指令上,实现联合优化。虽同为端到端,在各车企在设计时却提出了模块化端到端、双系统端到端、单模型端到端等各种技术架构,这些端到端架构到底有何区别,相较于基于模块化的架构,他们又有何优势?

wKgZO2gcA8iAN4ijAAAQo00DEvw306.jpg

传统模块化系统架构与决策机制

在聊端到端大模型前,我们还是要先了解下基于模块化的自动驾驶架构,到底是如何实现智驾的。基于模块化的自动驾驶架构通常采用模块化的流水线结构,将环境感知、行为决策和运动控制等功能串联起来。在感知阶段,系统通过摄像头、雷达、激光雷达等传感器进行目标检测、分割和跟踪;在决策规划阶段,基于感知结果和高精度地图进行路径规划与行为决策;最后在控制阶段生成具体的加减速、转向等控制指令。

wKgZPGgcA8iAcwtNAACk0ywrDfs441.jpg

自动驾驶系统架构

基于模块化的自动驾驶架构优势在于各部分职责明确,可利用丰富的先验知识和规则进行设计,且易于逐一调试和验证。这一技术方案会先利用地图和规则规划期望路径,再基于动态窗口法或采样优化等技术生成轨迹,最后由PID或模型预测控制算法输出执行指令,以实现高速NOA等功能。但这一技术对环境建模和规则依赖较强,在应对复杂多变的交通场景和长尾异常情况时容易出现性能瓶颈。

wKgZO2gcA8mAanDDAAAR42n7O-I219.jpg

端到端系统架构与决策机制

与模块化方法不同,端到端(End-to-End, E2E)架构是将传感器数据直接映射到车辆操控输出,从而实现联合优化。其实端到端概念并不是近几年才出现的,如1989年的ALVINN和2016年的NVIDIA DAVE-2等,使用前置摄像头图像输入,通过神经网络直接输出转向角,以验证了端到端架构的可行性。

wKgZO2gcA8mAIFFNAABhkapnESw025.jpg

端到端架构

近年来,随着大规模数据集和深度学习技术的发展,端到端自动驾驶方法不断涌现。典型的端到端决策机制包括基于模仿学习(将驾驶员操作作为监督信号)以及强化学习(以安全舒适为目标优化奖励)等策略,驱动模型直接学习从传感器到规划轨迹或控制命令的映射。端到端系统可以简化结构,将感知、预测和规划任务合并到一个联合可训练的模型中,从而能对驾驶性能进行直接优化。

端到端架构看似极具优势,但由于缺乏明确的中间输出,端到端系统往往被视为“黑箱”,难以解释其决策过程,且在极端或罕见场景下的可靠性尚未充分验证。此外,端到端模型需要海量多样化的训练数据和强大的计算资源,训练优化难度较大。为了兼顾性能与安全,有些方法在端到端架构中仍保留了一定的模块化结构(如使用语义分割或目标检测作为中间表示)。近年来,还出现了将视觉数据与语言模型(如大规模视觉语言模型)结合的尝试,以提升对场景语义和因果关系的理解能力,但这也进一步增加了系统复杂度和实时性的挑战。智驾最前沿曾简单图解了模块化架构到端到端大模型,以故事的方式将这两个技术给大家厘清楚了(相关阅读:自动驾驶中基于规则的决策和端到端大模型有何区别?)。

wKgZPGgcA8qAdjJ-AAASG3BOmsQ866.jpg

三种端到端架构详细解析

3.1 模块化端到端架构

模块化端到端架构(Modular End-to-End)将整体规划任务分解为可微分的子模块,但在训练和推理时联合优化以最终规划目标为准。该架构既保留了模块化结构的可解释性,又能享受端到端训练的优势。近年来已有不少研究和工业解决方案采用类似思路,如Wayve等公司训练多任务神经网络实现端到端规划,并在CARLA等仿真平台上取得优异成绩。特斯拉最新的FSD V12方案也采用了这种模块化端到端理念,使用鸟瞰(BEV)空间的占据网格(Occupancy Grid)网络进行路径规划。特斯拉将多目摄像头的特征映射到俯视图空间,通过端到端学习得到占据概率图,然后从中生成安全可行的行驶轨迹。该方法弱化了对高精度地图的依赖,使车辆能更灵活地应对多传感器融合后的环境感知。简单理解,模块化端到端架构在设计上仍保留了感知、预测、规划等模块,只是各模块参数可以联合训练,因此能够在一定程度上兼顾模型的可解释性和任务级优化性能。

3.2 双系统端到端架构(端到端+视觉语言模型)

双系统端到端架构在单一的端到端模型之外,增加了一个视觉语言辅助系统,以提升对复杂场景的理解和推理能力。这一架构采用了“快慢双系统”理念,快速系统(Fast System)采用端到端学习处理即时的轨迹规划与控制,慢速系统(Slow System)则借助大规模视觉语言模型(VLM)进行高层次的语义推理和决策支持,双系统相互协同,保障了智驾系统的安全性。

理想汽车的最新研发方案就采用了这一思路,一个端到端神经网络负责实时驾驶控制,另一个视觉语言模型则对当前场景进行语义化解析,提供补充信息和决策建议。长安汽车的“天枢”大模型架构也采用了“大脑小脑”结构,其中“大脑”部分即是基于大模型的慢速系统,用于复杂推理,而“小脑”则负责具体规划和控制。双系统架构的决策机制通常是端到端模型快速生成初步路径,而视觉语言模型则分析环境上下文(如交通标志含义、行人意图等),在必要时修正或丰富规划结果。但这种方案需要同时运行两个大模型,占用大量算力,而且模型间的协同效率和一致性需要专门设计和优化。

wKgZO2gcA8qAIukDAABNjbCCC7Y542.jpg

3.3 单模型端到端架构

单模型端到端架构(One Model E2E)旨在用一个统一的多模态大模型完成所有自动驾驶任务,包括感知、预测与规划。这一思路受到大规模语言模型和视觉语言模型的启发,力图构建一个“驾驶领域的通用基础模型”。近期行业内就有相关尝试,比如DriveMM是一种全新的大规模多模态模型,可以处理图像和多视角视频等多种输入,并执行感知、预测和规划等广泛的驾驶任务。该模型先在各类视觉和语言数据上进行预训练,再利用驾驶数据集微调,在多个公开数据集上实现了全任务的最先进性能。

在决策机制上,单模型架构可以将驾驶问题转化为类似语言问答或生成的形式,由模型直接给出安全规划或控制输出,甚至可以通过自然语言交互进行意图控制。这种“全能型”模型的优势在于统一了数据表示和优化目标,可挖掘跨任务协同效应;但代价是模型规模巨大,对算力和数据的需求极高,而且目前缺乏实车部署的成熟方案。除了DriveMM之外,还有如DriveGPT4等尝试将驾驶任务映射为文本问题,利用大型语言模型直接生成轨迹或控制指令。这些单模型方法代表着未来自动驾驶大模型的发展方向,但在安全可控性和实时性上仍需突破。

wKgZPGgcA8uAeRKtAAASAJELks8317.jpg

模块化与端到端方案的优劣势分析

4.1 系统复杂度

模块化架构涉及众多专业模块,系统设计和集成相对复杂,需要人工调试和维护多个组件(感知、定位、规划、控制等)。相比之下,纯粹的单模型端到端方案将整体流程压缩为一个网络,减少了传统模块的数量,从架构上更加简洁。但模块化端到端架构需要设计多个可微分的子网络,并管理它们之间的数据流;双系统架构则需同步运行两个大模型,协调“快速端到端模型”和“慢速语言模型”的输出,反而增添了额外的子模块或并行网络,系统层次稍显复杂。总体来看,纯粹的单一大模型在系统构成上最为简单,但模型本身规模庞大;传统模块化则模块众多但各自相对简单。

4.2 训练与优化难度

模块化方案可分别针对各个子任务训练(如目标检测、车道线分割、轨迹规划),每个模块使用结构化标注数据,通过监督学习容易收敛。但这也需要针对每个模块收集和标注大量数据。端到端模型则需要更大规模的驾驶数据(包括传感器输入与人类驾驶输出)来进行联合训练。由于决策输出高度依赖真实驾驶表现,端到端系统往往需要大量路测和仿真数据来覆盖各类场景。双系统架构在此基础上还需准备适配视觉语言模型的数据集以及专门的对话或问答训练。单一大模型的训练难度最高,它不仅需要融合多模态(视觉、地图、语言等)数据,还要在单一模型中学习多任务,因此训练过程极其复杂,对算力和数据的需求远超其他方案。总的来说,端到端方案在优化时缺少显式的中间监督信号,容易陷入收敛困难或性能不稳定的问题,需要更多的探索和调参。

4.3 决策透明性

模块化系统的一个重要优势是可解释性强,每个模块有明确的功能边界,设计者可以查看感知输出、中间地图和规划轨迹等结果,清楚地定位问题所在。相比之下,全端到端模型由于决策过程高度融合,往往是“黑箱”式的,难以直接解释为何做出某个操控决策。不过端到端范式并不一定完全封闭黑箱,采用模块化端到端策略的系统可以保留如目标检测或语义分割等中间输出,使得系统仍然可以获得部分透明度。如特斯拉的BEV占据图在一定程度上提供了环境语义信息,而Wayve等系统也会输出热力图供可视化。

双系统架构引入的视觉语言模型本质上也作为辅助推理,但这种模型自身通常缺乏明确的决策解释性。单模型架构尽管功能最强大,但几乎没有可见中间层供审查,其决策过程难以监督或理解,反而需要依赖后续的解释性AI技术去分析网络关注区域。因此,就透明性而言,传统模块化和模块化端到端方案较优;而纯端到端或大规模大模型系统的决策往往更不透明。

4.4 灵活性

在功能拓展和算法迭代方面,模块化架构具有较好的灵活性,当需要应对新场景或添加新功能时,可以针对性地替换或升级某个模块(如换用更好的感知算法或优化规划策略),而无需重训整个系统。

端到端方案则不易插入外部知识或规则,任何改变往往要通过重新训练网络来实现。双系统架构在这方面介于两者之间,虽然端到端模型需要重训,但通过语义模块(VLM)可以灵活地添加解释层面能力,如通过修改提示词或微调语言模型来适应新需求。单模型架构的拓展性最弱,因为其内部结构紧耦合,任何微调都会影响整个模型性能。此外,外部策略调整(如应急接管逻辑)也更难融入端到端模型。综合来看,模块化设计在灵活性上占优,而高度集成的端到端模型需要付出更大代价才能适应变化。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 端到端
    +关注

    关注

    0

    文章

    44

    浏览量

    10792
  • 自动驾驶
    +关注

    关注

    791

    文章

    14669

    浏览量

    176503
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自动驾驶仿真与基于规则的仿真有什么区别?

    自动驾驶领域,“仿真”指的是将感知控制的整个决策链条视为个整体,从而进行训练和验证的
    的头像 发表于 11-02 11:33 1424次阅读

    自动驾驶中“段式”和“二段式”有什么区别?

    [首发于智驾最前沿微信公众号]最近有小伙伴提问,段式和二段式
    的头像 发表于 10-24 09:03 627次阅读
    <b class='flag-5'>自动驾驶</b>中“<b class='flag-5'>一</b>段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”和“二段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”有什么区别?

    自动驾驶中常提的段式(单段)是个啥?

    自动驾驶技术的发展,催生出技术的应用,段式
    的头像 发表于 10-18 10:16 1377次阅读

    西井科技自动驾驶模型获得国际认可

    近日,西井科技AI创研团队在国际权威自动驾驶算法榜单NAVSIM v2中脱颖而出,凭借创新的自动驾驶模型,以综合得分48.759的成绩
    的头像 发表于 10-15 17:20 1052次阅读

    读懂特斯拉自动驾驶FSD从辅助的演进

    [首发于智驾最前沿微信公众号]自动驾驶行业发展至今,特斯拉直被很多企业对标,其FSD系统的每次更新,都会获得非常多人的关注。早期自动驾驶
    的头像 发表于 10-11 09:13 382次阅读
    <b class='flag-5'>一</b><b class='flag-5'>文</b>读懂特斯拉<b class='flag-5'>自动驾驶</b>FSD从辅助<b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的演进

    自动驾驶大模型为什么会有不确定性?

    。为了能让自动驾驶汽车做出正确、安全且符合逻辑的行驶动作,大模型被提了出来。
    的头像 发表于 09-28 09:20 542次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大模型为什么会有不确定性?

    自动驾驶相较传统自动驾驶到底有何提升?

    各自专业模块独立承担,再通过预定的接口协议将信息有序传递。与之相对照,“”(end-to-end)自动驾驶以统的大规模神经网络为核心
    的头像 发表于 09-02 09:09 505次阅读
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自动驾驶</b>相较传统<b class='flag-5'>自动驾驶</b>到底有何提升?

    Nullmax自动驾驶最新研究成果入选ICCV 2025

    Nullmax 在段式核心技术上的深厚积累与创新实力,尤其在
    的头像 发表于 07-05 15:40 1559次阅读
    Nullmax<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自动驾驶</b>最新研究成果入选ICCV 2025

    为什么自动驾驶大模型有黑盒特性?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术落地,(End-to-End)大模型也成为行业研究与应用的热门方向。相较于传统自动驾驶
    的头像 发表于 07-04 16:50 591次阅读
    为什么<b class='flag-5'>自动驾驶</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大模型有黑盒特性?

    数据标注方案在自动驾驶领域的应用优势

    10-20TB,其中需要标注的数据占比超过60%。在这样的背景下,数据标注方案应运而生,正在重塑自动驾驶的数据生产范式。
    的头像 发表于 06-23 17:27 738次阅读

    自动驾驶中基于规则的决策和大模型有何区别?

    自动驾驶架构的选择上,也经历了从感知、决策控制、执行的三段式架构到现在火热的大模型,尤其
    的头像 发表于 04-13 09:38 3427次阅读
    <b class='flag-5'>自动驾驶</b>中基于规则的决策和<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大模型有何区别?

    东风汽车推出自动驾驶开源数据集

    近日,智能网联汽车智驾数据空间构建研讨会暨中汽协会智能网联汽车分会、数据分会2024年度会议在上海举办。会上,东风汽车发布行业规模最大、涵盖125万组高质量数据的自动驾驶开源数据
    的头像 发表于 04-01 14:54 1022次阅读

    动量感知规划的自动驾驶框架MomAD解析

    自动驾驶框架实现了感知与规划的无缝集成,但通常依赖于次性轨迹预测,这可能导致控制不稳定,并且对单顿感知中的遮挡问题较为敏感。为解决这
    的头像 发表于 03-18 09:31 1463次阅读
    动量感知规划的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自动驾驶</b>框架MomAD解析

    自动驾驶技术研究与分析

    编者语:「智驾最前沿」微信公众号后台回复:C-0450,获取本文参考报告:《自动驾驶行业研究报告》pdf下载方式。 自动驾驶进入202
    的头像 发表于 12-19 13:07 1513次阅读

    自动泊车的应用

    与城市环境的复杂性和高速公路驾驶的风险相比,停车场景的特点是低速、空间有限和高可控性。这些特点为在车辆中逐步部署自动驾驶能力提供了可行
    的头像 发表于 12-18 11:38 1489次阅读
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>在<b class='flag-5'>自动</b>泊车的应用