0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

端到端是怎么让自动驾驶更像老司机的?

智驾最前沿 来源:智驾最前沿 作者:智驾最前沿 2026-01-21 09:29 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

[首发于智驾最前沿微信公众号]如果将自动驾驶的发展史比作人类的学习历程,那么在过去很长一段时间里,这个“学生”其实一直都在背诵极其繁琐的教条。这一阶段的自动驾驶系统使用的是模块化架构,它的运行高度依赖于手写的成千上万条逻辑规则。比如如果遇到行人过马路,你就刹车;如果前面的车打左转向灯,你就稍微减速;如果看到黄灯闪烁,你就判断距离是否足够停车。这种方式在逻辑简单的封闭园区或是结构化程度极高的高速公路上或许管用,但在充满随机性的城市闹市区,这套系统就会有些吃力。

自动驾驶行业之所以在近两年集体转向“端到端”架构,本质上是因为大家终于意识到,真实世界的复杂程度是不可能通过人工穷举来覆盖的。端到端架构的核心在于它实现了一种从“信号输入”到“控制输出”的直接映射。用通俗的话说,它让汽车不再是按照指令执行程序的机器,而是变成了一个拥有“驾驶直觉”的智能体。

这种驾驶直觉是一行行敲出来的代码决定的,而是神经网络通过观察数百万小时的人类驾驶视频,自己悟出来的肌肉记忆。特斯拉的FSD v12版本通过用一个统一的神经网络替换掉之前三十多万行复杂的C++代码,彻底打破了传统算法的上限,让智驾表现出了前所未有的丝滑感。

wKgZO2lwK--AfYbAAAAQo00DEvw035.jpg

传统架构与端到端的区别

要理解端到端到底解决了什么,我们得先知道传统架构具体有什么问题。在传统架构中,感知模块就像是汽车的“眼睛”,它盯着画面看,然后把看到的障碍物转化成一个个简单的几何体,并给出一组坐标,再传给规控模块。

但这种方式有个致命的问题,一旦感知模块认定前方是一个“矩形框”,它会把这个物体背后的很多细节信息都给抹掉。比如看到一个行人正回头看车,或者正准备加速奔跑,这些细微的动态在被简化成坐标的过程中就消失了。规控模块拿到的只会是这些干巴巴的、甚至可能带有错误的抽象数据,这就像是一个人蒙着眼睛听别人转述路况,听到的还是经过劣质翻译后的信息,决策起来自然畏手畏脚。

在端到端架构下,数据在神经网络内部是以高维特征的形式流动的,没有任何信息会被强行“翻译”或“截断”。这意味着系统能直接感知到那些难以用语言定义的微妙环境,像是夕阳照在路面上的反光、积水倒映出的虚影,或者是前方车辆刹车灯亮起的瞬间等都可以直接转化成决策控制的依据。

wKgZPGlwK_CAK73PAAB0E39pPWU240.jpg

模块化与端到端自动驾驶区别,图片源自:网络

这种“感知-决策”一体化的设计,使自动驾驶系统在训练时不再是各个模块自扫门前雪,而是会朝着一个终极目标,也就是“像人类一样平稳安全地开车”,并进行全局优化。

这种全局优化的逻辑带来的提升是颠覆性的。在传统架构中,感知模块报错可能仅仅是因为某个目标的识别率掉了百分之二,但这百分之二的错误传到规控模块可能就触发一次急刹。但在端到端架构里,系统具备了极强的容错和“自我修复”能力,它在学习时就理解了哪些视觉特征是对驾驶结果至关重要的,哪些是可以忽略的噪声。

以UniAD模型为例,它在一个统一的Transformer框架下,将目标检测、轨迹跟踪、建图和规划等任务全整合在一起。大家在同一个BEV(鸟瞰图)特征空间里交流,预测模块在推算别人的路线时,会同时参考自车正打算往哪儿开,这使得自动驾驶感知与决策过程极其高效,可以让智驾系统在处理复杂的变道挤入、无保护左转等场景时,表现得更像一个经验丰富的老司机。

架构对比维度 传统模块化架构(Modular System) 端到端神经网络架构(End-to-End System)
逻辑基础 基于“If-Then”的人工硬编码规则 基于大规模人类驾驶数据的神经网络自学习
信息损耗 模块间通过定义接口传输(如坐标、标签),信息丢失大 全局特征向量流动,保留了原始传感器的细微语义
长尾场景处理 严重依赖补丁代码,难以覆盖边缘案例 具备跨场景的泛化能力,能处理未见过的异常工况
优化策略 局部优化,各模块目标不一致甚至冲突 以轨迹规划为唯一终极目标进行全局联合优化
更新速度 极其缓慢,需人工调试参数并验证逻辑链条 极快,通过增加高质量数据和算力自动进化
响应时延 模块串行处理,叠加时延高且不稳定 单次推理周期固定,响应时间通常在毫秒级

传统架构与端到端的区别

wKgZO2lwK_GAHCZPAAAR42n7O-I309.jpg

端到端赋予机器物理直觉

如果端到端只是简单地模仿人类的操作,那它还算不上完全的智能。想要成为真正的老司机,那一定是要能够“预判”未来,也就是在脑子里模拟未来几秒钟可能发生的所有情景。在端到端技术的发展路径中,世界模型(World Models)的加入相当于给系统装上了一个“大脑模拟器”。

这种模型不再死记硬背路面长什么样,而是通过观察海量的视频数据,学会现实世界的物理规律。它知道一个球滚出来之后大概率会有个孩子跟上来,也知道在雨天刹车距离会变长。世界模型的本质是一种生成式的人工智能,它能够根据当前的画面,预测并生成出未来各种可能的演化路径。

这种预测能力对于解决自动驾驶最头疼的“长尾场景”至关重要。传统的算法在遇到从未见过的施工工地或者奇形怪状的交通事故现场时,会因为没有对应的代码指令而直接“罢工”或是乱开。但具备世界模型的端到端系统,能够基于它对物理世界的常识性理解,推断出那些障碍物是不可逾越的。

wKgZPGlwK_GALqDYAAadZZ1MXyI918.jpg

图片源自:网络

更有意思的是,世界模型不仅能辅助决策,它还是一个极其强大的“数据模拟器”。在现实中采集极端的危险场景成本极高且非常危险,但在神经网络内部,世界模型可以凭空创造出成千上万个符合逻辑的险情场景,让端到端模型在这些创造出的场景中疯狂演练。这种从真实中提炼规律,再用规律反哺虚拟训练的闭环,使得自动驾驶的进化速度比以前单纯靠实车跑里程要快上百倍。

与世界模型相辅相成的是3D占用网络(Occupancy Network)。这是端到端架构在空间感知上的另一大利器。以前的自动驾驶系统习惯于把世界看成是一个个如车、人、树等特定种类的“物体”。但这种思维方式太狭隘了,如果在路上遇到一个形状怪异的雕塑,或者是从卡车上掉落的一个大木箱,系统可能因为认不出它是什么而选择无视它。

3D占用网络则粗暴且有效地解决了这个问题,它不管障碍物到底是什么,它只会把空间切碎成无数个微小的体素(Voxel),然后判断每一个格子里到底有没有东西。这就赋予了汽车一种“几何直觉”,只要那个空间被占用了,无论它是什么东西,系统都会绕着走。这种不依赖语义标签的避障方式,极大地增强了端到端系统的安全底线,让自动驾驶汽车在面对千奇百怪的城市场景时,依然能保持良好的行驶表现。

wKgZO2lwK_GAExuCAAASG3BOmsQ393.jpg

端到端不得不面对的黑盒问题

虽然端到端系统可以展现出老司机的“车感”,但它有一个不得不面对的问题,那就是不可解释的“黑盒”。如果传统的模块化系统出了事故,可以翻看日志,精准地定位到故障点。但在一个拥有数亿参数的神经网络里,方向盘往左转一度,可能是受到多个因素的影响,没人能说得清到底为什么。这种“不可解释性”是端到端落地的最大拦路虎。

wKgZPGlwK_KAdGvcAABdQcngJ-Q652.jpg

图片源自:网络

为了解决这个问题,有技术尝试引入一种拟人的架构设计,那就是借鉴诺贝尔奖得主丹尼尔·卡尼曼提出的“快慢系统”理论。在这种架构里,端到端神经网络充当的是“系统1”,负责毫秒级的直觉反应。而为了制衡这种直觉,又在外面套上了一个“系统2”,也就是基于视觉语言模型(VLM)或者是硬编码规则的安全防御层。

系统2就像是一个坐在副驾驶的教练,它不仅能理解“别闯红灯”、“单行道不能进入”这些明确的符号规则,还能通过逻辑推理来判断系统1的操作是否符合规范。如果端到端模型因为某些特征误导做出危险的动作,系统2就会通过预设的物理安全规则强制切断控制权,并做出安全的动作或紧急刹停。这种“神经网络负责上限,传统规则负责下限”的策略,是目前端到端技术量产落地的最优解。

顺着这个逻辑看下去,端到端的进化也正在重塑整个汽车产业。以前自动驾驶团队里最多的是写逻辑代码的C++工程师,但现在,最核心的角色变成了数据和算力运维专家。自动驾驶系统的强弱不再取决于谁写的代码更精妙,而取决于谁能更高效地筛选出高质量的驾驶视频,谁能搭建出规模更大的GPU训练集群。这种转变,让自动驾驶的竞争彻底变成了一场资源的较量。只有那些拥有百万级装机量、能形成闭环数据流的企业,才能通过不断的迭代,让系统在每一次版本更新中变得越来越像一名“老司机”。

wKgZO2lwK_KAZRr5AAASAJELks8170.jpg

端到端落地会带来哪些挑战?

当我们从更高维度俯瞰自动驾驶的发展,我们就会发现端到端架构其实是在尝试解决人工智能的一个终极难题,那就是如何让机器理解常识。像是看到路边有皮球滚过要小心有小孩、雨天不能离大货车太近等在人类看来是常识的场景,以前是需要工程师绞尽脑汁去设计逻辑条件的。

而端到端通过对海量真实数据的学习,在神经网络中沉淀出了一种“物理世界的常识”。当这种常识积累到一定程度,系统就会表现类人的智能,它会知道应如何礼让行人,如何在复杂的并线中寻找空隙。这种进化是不受人工编程限制的,它唯一的边界就是数据的丰富度和算力的天花板。

wKgZPGlwK_OAYZFuAEASN_5zzys529.jpg

图片源自:网络

当然,端到端架构对数据质量的要求近乎苛刻,如果喂给它的是大量平庸甚至没有借鉴性的驾驶视频,训练出来的模型也只会是一个“平庸的司机”。此外,为了支撑这种超大规模模型的推理,车载芯片的内存带宽和算力开销也成了必须面对的硬成本。

尤其是当系统变得越来越像人时,人类社会该如何构建一套全新的评估和定责标准?当一个黑盒模型做出了违规操作,我们该如何对其进行精准的修正而又不产生副作用?这些问题目前都还在探索之中。

但不可否认的是,端到端架构已经为自动驾驶指明了通往更高阶智能的方向。它通过消除模块间的信息壁垒,利用全局优化打破了人类逻辑的上限。随着世界模型、大语言模型与端到端架构的进一步深度融合,未来的智驾系统将不仅能看清路,更能“读懂”这个复杂多变的人类世界。这种从“机器驾驶”向“类人智能驾驶”的跨越,正是端到端技术带给我们的核心答案。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 端到端
    +关注

    关注

    0

    文章

    52

    浏览量

    10878
  • 自动驾驶
    +关注

    关注

    795

    文章

    15056

    浏览量

    181989
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    为什么一段式自动驾驶很难落地?

    [首发于智驾最前沿微信公众号]自动驾驶技术在过去十年中经历了从基础辅助驾驶高度自动化系统的快速演进。在这一进程中,技术架构的选择始终是决定行业走向的核心命题。传统的
    的头像 发表于 03-08 09:44 1886次阅读
    为什么一段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自动驾驶</b>很难落地?

    自动驾驶为什么会出现黑盒现象?

    自动驾驶领域,(End-to-End)是指从感知环境的原始数据车辆实际控制指令,全部交给一个统一的深度学习模型来完成。这和传统的模
    的头像 发表于 02-20 09:25 9649次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>为什么会出现黑盒现象?

    与模块化自动驾驶的数据标注要求有何不同?

    [首发于智驾最前沿微信公众号]自动驾驶技术路径的每一次技术转向,都伴随着底层数据处理逻辑的彻底重构。过去,智驾系统普遍依赖模块化设计,将驾驶任务拆解为感知、预测、规控等独立环节;而今,以
    的头像 发表于 01-27 09:48 1181次阅读
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>与模块化<b class='flag-5'>自动驾驶</b>的数据标注要求有何不同?

    如何训练好自动驾驶模型?

    [首发于智驾最前沿微信公众号]最近有位小伙伴在后台留言提问:算法是怎样训练的?是模仿学习、强化学习和离线强化学习这三类吗?其实
    的头像 发表于 12-08 16:31 1679次阅读
    如何训练好<b class='flag-5'>自动驾驶</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>模型?

    智驾模拟软件推荐——为什么选择Keymotek的aiSim?

    随着自动驾驶技术的快速发展,车企和科技公司对于模拟测试平台的需求越来越强。从L2/ADASL4/L5等级的自动驾驶,虚拟模拟已经成为其中的关键一环。特别是对于「
    的头像 发表于 11-18 11:35 1094次阅读

    自动驾驶仿真与基于规则的仿真有什么区别?

    自动驾驶领域,“仿真”指的是将感知控制的整个决策链条视为一个整体,从而进行训练和验证的思路。
    的头像 发表于 11-02 11:33 1933次阅读

    自动驾驶中“一段式”和“二段式”有什么区别?

    [首发于智驾最前沿微信公众号]最近有小伙伴提问,一段式和二段式有什么区别。其实说到
    的头像 发表于 10-24 09:03 1518次阅读
    <b class='flag-5'>自动驾驶</b>中“一段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”和“二段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”有什么区别?

    自动驾驶中常提的一段式(单段)是个啥?

    自动驾驶技术的发展,催生出技术的应用,一段式
    的头像 发表于 10-18 10:16 1955次阅读

    西井科技自动驾驶模型获得国际认可

    近日,西井科技AI创研团队在国际权威自动驾驶算法榜单NAVSIM v2中脱颖而出,凭借创新的自动驾驶模型,以综合得分48.759的成绩
    的头像 发表于 10-15 17:20 1515次阅读

    一文读懂特斯拉自动驾驶FSD从辅助的演进

    [首发于智驾最前沿微信公众号]自动驾驶行业发展至今,特斯拉一直被很多企业对标,其FSD系统的每一次更新,都会获得非常多人的关注。早期自动驾驶是一个分层的、由多模块组成的系统,感知、定位、预测、规划
    的头像 发表于 10-11 09:13 1243次阅读
    一文读懂特斯拉<b class='flag-5'>自动驾驶</b>FSD从辅助<b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的演进

    自动驾驶大模型为什么会有不确定性?

    。为了能让自动驾驶汽车做出正确、安全且符合逻辑的行驶动作,大模型被提了出来。
    的头像 发表于 09-28 09:20 1105次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大模型为什么会有不确定性?

    自动驾驶相较传统自动驾驶到底有何提升?

    各自专业模块独立承担,再通过预定的接口协议将信息有序传递。与之相对照,“”(end-to-end)自动驾驶以统一的大规模神经网络为核心,将从摄像头、雷达、激光雷达等传感器采集
    的头像 发表于 09-02 09:09 1094次阅读
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自动驾驶</b>相较传统<b class='flag-5'>自动驾驶</b>到底有何提升?

    Nullmax自动驾驶最新研究成果入选ICCV 2025

    近日,国际计算机视觉大会 ICCV 2025 正式公布论文录用结果,Nullmax 感知团队在自动驾驶方向的最新研究成果《HiP-AD: Hierarchical
    的头像 发表于 07-05 15:40 2043次阅读
    Nullmax<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自动驾驶</b>最新研究成果入选ICCV 2025

    为什么自动驾驶大模型有黑盒特性?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术落地,(End-to-End)大模型也成为行业研究与应用的热门方向。相较于传统自动驾驶
    的头像 发表于 07-04 16:50 1109次阅读
    为什么<b class='flag-5'>自动驾驶</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大模型有黑盒特性?

    数据标注方案在自动驾驶领域的应用优势

    10-20TB,其中需要标注的数据占比超过60%。在这样的背景下,数据标注方案应运而生,正在重塑自动驾驶的数据生产范式。
    的头像 发表于 06-23 17:27 1262次阅读