0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

打破端到端自动驾驶感知和规划的耦合障碍!

3D视觉工坊 来源:3D视觉工坊 2023-08-07 15:07 次阅读

0. 笔者个人体会

端到端自动驾驶一直是研究的重点和热点,输入RGB图像或雷达点云,输出自车的控制信号或运动规划。但目前很多工作都是只做感知或者只做规划,很重要的一个原因是端到端模型训练时间太长了,而且最终学习到的控制信号也未见得多好。现有的教师-学生范式还可能产生很严重的Causal Confusion问题。

今天要为大家介绍的就是ICCV 2023开源的工作DriveAdapter,解决了自动驾驶感知和规划的耦合障碍,来源于上交和上海AI Lab,这里不得不慨叹AI Lab实在高产,刚刚用UniAD拿了CVPR的Best Paper就又产出了新成果。

DriveAdapter的做法是,用学生模型来感知,用教师模型来规划,并且引入新的适配器和特征对齐损失来打破感知和规划的耦合障碍!想法很新颖!

1. 问题引出

最直接的端到端自动驾驶框架,就是输入RGB图,利用强化学习直接输出控制信号(a)。但这样做效率太低了,在使用预训练模型的情况下甚至都需要20天才能收敛!

8df6a13a-34ad-11ee-9e74-dac502259ad0.png

现在主流框架基本都是教师-学生模型,也就是说首先用强化学习训练一个复杂的教师模型,然后用原始的传感器数据让小模型去模仿教师模型的行为(Behavior Cloning)。这种范式的效率非常高!但是仍然有很大的问题,也就是由行为克隆引发的因果混淆问题(Causal Confusion)。这里也推荐「3D视觉工坊」新课程《深度剖析面向自动驾驶领域的车载传感器空间同步(标定)》。

听起来很绕口,那么这到底是个啥?

举个简单例子:

当车辆位于十字路口时,自车的路径实际上应该是根据信号灯来决定的。但是在图像上信号灯很小,周围车辆很大。所以学生模型从教师学习到的实际情况很可能是:根据其他车辆的行为来规划自车。那么如果自车处在路口第一辆车的位置,很有可能自车会永远不动!

8e0b8a82-34ad-11ee-9e74-dac502259ad0.png

那么DriveAdapter这个方案打算怎么做呢?

简单来说,它是解耦了学生和教师模型。学生负责进行感知,输入RGB图像,输出BEV分割图。然后BEV分割图输送给教师,进行自车的路径规划!

8e3764cc-34ad-11ee-9e74-dac502259ad0.png

当然里面还有特别多的细节,下面我们一起来看具体的论文信息

2. 论文信息

标题:DriveAdapter: Breaking the Coupling Barrier of Perception and Planning in End-to-End Autonomous Driving

作者:Xiaosong Jia, Yulu Gao, Li Chen, Junchi Yan, Patrick Langechuan Liu, Hongyang Li

机构:上海交通大学、上海AI Lab、北航、安克创新

原文链接:https://arxiv.org/abs/2308.00398

代码链接:https://github.com/OpenDriveLab/DriveAdapter

3. 摘要

端到端的自动驾驶旨在构建一个以原始传感器数据为输入,直接输出自车的规划轨迹或控制信号的完全可微系统。最先进的方法通常遵循"教师-学生"范式。该模型使用权限信息(周围智能体和地图要素的真实情况)来学习驾驶策略。学生模型只具有获取原始传感器数据的权限,并对教师模型采集的数据进行行为克隆。通过在规划学习过程中消除感知部分的噪声,与那些耦合的工作相比,最先进的工作可以用更少的数据获得更好的性能。

然而,在当前的教师-学生范式下,学生模型仍然需要从头开始学习一个规划头,由于原始传感器输入的冗余和噪声性质以及行为克隆的偶然混淆问题,这可能具有挑战性。在这项工作中,我们旨在探索在让学生模型更专注于感知部分的同时,直接采用强教师模型进行规划的可能性。我们发现,即使配备了SOTA感知模型,直接让学生模型学习教师模型所需的输入也会导致较差的驾驶性能,这来自于预测的特权输入与真实值之间的较大分布差距。

为此,我们提出了DriveAdapter,它在学生(感知)和教师(规划)模块之间使用具有特征对齐目标函数的适配器。此外,由于基于纯学习的教师模型本身是不完美的,偶尔会破坏安全规则,我们针对那些不完美的教师特征提出了一种带有掩码的引导特征学习的方法,进一步将手工规则的先验注入到学习过程中。DriveAdapter在多个基于CARLA的闭环仿真测试集上实现了SOTA性能。

4. 算法解析

DriveAdapter整体的思路非常清晰,学生模型将原始传感器数据作为输入,并提取BEV特征以供BEV分割和适配器模块使用。之后,预测的BEV分割图被馈送到冻结的教师模型和适配器模块中。最后,适配器模块接收来自具有GT教师特征的监督,以及学生模型提供的BEV特征。对于教师模型引入规则的情况,对"对齐损失"应用掩码,并且所有适配器模块的监督来自动作损失的反向传播。

8e6b9c24-34ad-11ee-9e74-dac502259ad0.png

4.1 感知学习的学生模型

学生模型将4个相机图像和1个雷达点云作为输入,目的是生成BEV的语义分割图。具体流程是,首先使用BEVFusion将原始传感器数据转换成2D的BEV特征,然后使用Mask2former执行语义分割。

但关键问题是,即使使用SOTA感知模块,如果直接将预测的BEV分割馈送给教师模型,也并不会产生多好的预测和规划效果。

这是因为啥呢?

首先就是语义分割的不准确问题。搞过语义分割的小伙伴肯定清楚,模型直接输出的分割图其实效果并不是太好,很多甚至需要经过复杂的后处理才可以使用,分割的路线、车辆和信号灯非常不准,直接用的话噪声非常大。毕竟教师模型是用BEV分割的Ground Truth来训练的,直接用学生模型输出的BEV分割肯定是效果非常差。

8e855cea-34ad-11ee-9e74-dac502259ad0.png

另一个原因就是教师模式的不完善。其实单独使用教师模型来输出运动规划,其结果也是非常不准的,所以学术界很多做法都是加入一些手工设计的规则来进行二次约束,这样来提高性能。

8eb2cfe0-34ad-11ee-9e74-dac502259ad0.png

解耦教师和学生模型的思路确实很棒,但是这两个问题也确实很尖锐。那么怎么解决这两个问题呢?这就要涉及到DriveAdapter的另一个关键模块:适配器。

4.2 适配器模块

为了获得更低的成本和更好的适应性,作者在学生和教师模型之间添加适配器。虽然感觉这个适配器长得有点像很多论文里提到的"即插即用"模块?

适配器是分级插入的,第一层输入是原始的BEV分割图和学生模型的底层特征。之后,一方面不断编码BEV分割图,另一方面使用卷积层来对BEV特征进行降采样,来对其不同特征层之间的分辨率。

8ecc3fc0-34ad-11ee-9e74-dac502259ad0.png

那么,具体怎么弥补BEV分割图和GT之间的差距呢?这里是为每个适配器都设计了一个特征对齐目标函数。实际上,相当于每个适配器模块都使用了一个额外的信息源,并且用原始BEV特征来恢复教师模型所需的GT特征。通过这种方式,可以以逐层监督的方式逐步缩小预测与真实特征之间的分布差距:

8ede3a4a-34ad-11ee-9e74-dac502259ad0.png

针对教师模型不完善的问题,作者是通过两种方式将手工规则的先验注入训练过程:(1)特征对齐Mask:对于教师模型错误并被规则检测的情况,由于教师模型中的原始特征导致错误的决策,就不让适配器模块恢复。(2)行动引导特征学习:计算模型预测和实际决策之间的损失,并通过冻结的教师模型和适配器模块进行反向传播。这里也推荐「3D视觉工坊」新课程《深度剖析面向自动驾驶领域的车载传感器空间同步(标定)》。

5. 实验结果

作者使用CARLA模拟器进行数据收集和闭环驾驶性能评估,每帧采集4台相机和1台激光雷达的原始数据。训练是在Town01、Town03、Town04和Town06进行,总共189K帧。评估指标方面,用的是CARLA的官方指标,包括:**违规指数( IS )衡量沿途发生的违规行为数量,路径完成度( RC )评估车辆完成路径的百分比。驾驶得分( DS )**表示路线完成度和违规得分的乘积。

和其他SOTA方法的对比是在Town05 Long和Longest6序列上进行。可以发现,DriveAdapter甚至可以与经过10倍数据量训练的模型相媲美,而在DriveAdapter也使用10倍数据以后,性能进一步提升,这其实是因为训练更好得感知了红灯。

8ef87b80-34ad-11ee-9e74-dac502259ad0.png

8f321ce6-34ad-11ee-9e74-dac502259ad0.png

两个消融实验,一方面对比了特征对齐损失、特征对齐Mask、行为引导损失,一方面对比了适配器的各个阶段:

8f4248c8-34ad-11ee-9e74-dac502259ad0.png

8f5ee686-34ad-11ee-9e74-dac502259ad0.png

最后这个实验很有意思,不知道读者有没有这样的想法:"学生模型能不能不生成BEV分割,而是直接生成教师模型的中间特征图,那么性能会不会不一样?"。

8f7d31e0-34ad-11ee-9e74-dac502259ad0.png

实际上,随着学生模型的学习目标变深,整个驾驶性能是增加的。作者认为,将特征直接输入到教师模型的更深层会遇到更少的累积误差。但有个极端例外,就是只做行为克隆,也就相当于完全不使用教师模型,这样会遇到严重的惯性问题,导致路径完成度( RC )较低。

那既然学习目标变深以后,性能会变好,为啥还要生成BEV分割呢?作者主要是考虑到,早期阶段的特征包含更多关于场景的详细信息,可能会对教师模型决策很重要,并且适配器可以缓解累积误差。另一方面,语义分割可以直观得调试学生模型的感知情况。

6. 总结

今天给大家介绍的是ICCV 2023的开源工作DriveAdapter,它很好得解耦了自动驾驶感知和规划的行为克隆,提出了一种新的端到端范式。直接利用通过RL学习的教师模型中的驾驶知识,并且克服了感知不完善和教师模型不完善的问题。笔者觉得更重要的是整篇文章分析问题的思路很通顺,读起来很舒服。算法刚刚开源,感兴趣的小伙伴赶快试试吧。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 传感器
    +关注

    关注

    2525

    文章

    48129

    浏览量

    740202
  • 模型
    +关注

    关注

    1

    文章

    2707

    浏览量

    47706
  • 自动驾驶
    +关注

    关注

    773

    文章

    13060

    浏览量

    163240

原文标题:ICCV 2023开源!打破端到端自动驾驶感知和规划的耦合障碍!

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    未来已来,多传感器融合感知自动驾驶破局的关键

    巨大的进展;自动驾驶开始摒弃手动编码规则和机器学习模型的方法,转向全面采用的神经网络AI系统,它能模仿学习人类司机的驾驶,遇到场景直接
    发表于 04-11 10:26

    【mBot申请】自动驾驶

    申请理由:很喜欢硬件功能完善的机器人,这款机器人上面的多种传感器及器件均用过,超声波传感器和巡线传感器还未接触过,想了解下这种传感器的灵敏度和精度,而且近年来自动驾驶汽车兴起,还希望借此做一款
    发表于 11-30 15:30

    自动驾驶真的会来吗?

    所需要的图像识别、计算机视觉、深度学习等关键技术的投资热度在明显增强。另外,也已经有公司在开发不同于普通地图的3D地图,能详细道路旁边的电线杆的位置,以及与下一个油桶、灯柱距离。对于自动驾驶的发展
    发表于 07-21 09:00

    细说关于自动驾驶那些事儿

    ADAS,若以NHTSA对自动驾驶的等级,大多介于第二第三级。不过,Google、福特和百度,则是希望跳过“半自动驾驶”的过程,直接研发等级最高的完全自动驾驶。NHTSA将
    发表于 05-15 17:49

    自动驾驶的到来

    得益于2025规划,中国整车厂与Tier1目前对于自动驾驶有极大的热忱及投入,有机会在这个领域实现弯道超车。目前的顾虑在于法规政策的制定,以及中国特色的交通情况带给自动驾驶的挑战。安全问题  目前主要
    发表于 06-08 15:25

    速腾聚创首次发布LiDAR算法 六大模块助力自动驾驶

    、车道标识线检测、障碍物检测、动态物体跟踪、障碍物分类识别等六大功能模块,有助于自动驾驶车辆立刻获得LiDAR感知能力。今年4月份,速腾聚创宣布启动“普罗米修斯”计划,致力于向合作伙伴
    发表于 10-13 16:08

    即插即用的自动驾驶LiDAR感知算法盒子 RS-Box

    ,即可快速、无缝地将激光雷达感知模块嵌入自己的无人驾驶方案中,真正实现“一键获得自动驾驶激光雷达环境感知能力”。RS-BoxLiDAR
    发表于 12-15 14:20

    UWB主动定位系统在自动驾驶中的应用实践

    3万美元以上,相当于一辆中级车的价格。自动驾驶四大核心技术分别为环境感知、高精度定位、路径规划、控制执行。其中环境感知技术是最基础、最重要的一环。通过环境
    发表于 12-14 17:30

    车联网对自动驾驶的影响

    通常无法做出及时有效的处理,单纯依靠传感器感知路面环境的自动驾驶也很难避免车祸的发生,但是车联网通过基于两辆车的数据分析,提前预知“车祸”的可能性,对两辆车完成协调,避免潜在事故发生。车辆网在近年来
    发表于 03-19 06:20

    如何让自动驾驶更加安全?

    的基础和条件。今年1月份,国家发改委发布《智能汽车创新发展战略征求意见稿》,明确提出了中国2035年发展成为智能汽车大国的战略规划自动驾驶汽车公共道路测试的下一阶段,将是部分技术领先企业的商业化
    发表于 05-13 00:26

    智能感知方案怎么帮助实现安全的自动驾驶

    未来,自动驾驶将不再是科幻电影里的桥段,这是未来汽车的一个趋势,感知自动驾驶的重要组成部分,同时安全性至关重要。作为全球第7大汽车半导体供应商,安森美半导体提供全面的智能感知方案,包
    发表于 07-31 07:11

    自动驾驶汽车中传感器的分析

    特斯拉在五月份发生的自动驾驶事故,和最近在Defcon上演示的如何干扰传感器,都充分说明了传感器在自动驾驶中的重要性:环境感知自动驾驶实现的基础,如果不能正确地
    发表于 05-14 07:34

    网联化自动驾驶的含义及发展方向

    ,货车通过无线通信链路将自身感知的前方车辆信息传输到自动驾驶车辆中,实现车辆“透视” [4] 。该场景示意 如图3所示:    在智能计算方面,基于单车智能的自动驾驶产生数据量可达到
    发表于 01-12 15:42

    自动驾驶技术的实现

    的带宽有了更高的要求。从而使用以太网技术及中央域控制(Domain)和区域控制(Zonal)架构是下一代车载网络的发展方向。然而对于自动驾驶技术的实现,涉及感知规划、执行三个层面。
    发表于 09-03 08:31

    自动驾驶综述之定位、感知规划常见算法汇总

    自驾车自动驾驶系统的体系结构一般分为感知系统和决策系统。感知系统一般分为许多子系统,负责自动驾驶汽车定位、静态 障碍物测绘、移动
    发表于 06-02 16:11 0次下载
    <b class='flag-5'>自动驾驶</b>综述之定位、<b class='flag-5'>感知</b>、<b class='flag-5'>规划</b>常见算法汇总