0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

端到端自动驾驶多模态轨迹生成方法GoalFlow解析

地平线HorizonRobotics 来源:地平线HorizonRobotics 2025-03-18 17:59 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

• 论文链接:

https://arxiv.org/abs/2503.05689

•项目链接:

https://github.com/YvanYin/GoalFlow

概述

自动驾驶轨迹规划往往采用直接回归轨迹的方法,这种方式虽在测试中能取得不错的性能,可直接输出当前场景下最有可能的轨迹或控制,但它难以对自动驾驶场景中常见的多模态动作分布进行有效建模。在实际驾驶场景里,往往不存在唯一的最优决策,不同的路况、交通标志以及其他道路使用者的行为等,都可能导致车辆存在多种合理的行驶轨迹选择,而回归模型在处理这种多模态特性时显得力不从心。为了解决这个问题,我们提出了一种基于goal point的生成式方法GoalFlow,通过使用goal point这种强引导信息来引导生成式模型生成安全、高质量、多模态的规划轨迹。我们的方法在公开数据集Navsim综合分数大幅领先其他方法。同时,通过Flow Matching对轨迹分布进行建模仅用一步降噪即可实现优秀的推理性能。

GoalFlow解决的问题

当前生成多模态候选轨迹的方法主要由两种方式:一种是在回归轨迹的基础上添加不同的引导信息,例如左右转等。另一种是通过扩散模型这种连续建模的方式通过不断加噪和去噪来生成众多的轨迹。这两种方式都很难达到理想的效果。前者容易发生轨迹的坍缩,引导出的轨迹非常相似。后者容易生成高度发散的轨迹,这为挑选轨迹增加了难度。为此,GoalFlow主要思考如何探索其他可行道路来实现高质量的候选轨迹生成。

如何应对生成式模型轨迹过于发散的情况

相比生成众多发散的候选轨迹,从中挑选出来一条最优的作为输出是更加困难的事情。我们希望通过降低轨迹的发散程度来减轻轨迹打分器的压力。而其中,使用什么样的信息来对轨迹进行约束是最重要的。我们发现,相比于dense的图像或者BEV特征,扩散模型更喜欢sparse的信息。于是,我们采用一段轨迹中最重要的点end point作为goal point来对轨迹进行约束,使得车辆能行驶到goal point。

2beb13ae-02f6-11f0-9310-92fbcf53809c.png

如何构造goal point

goal point在自动驾驶中并不是个新事物,业务中往往可以使用车道信息来预测goal point或者使用直接将导航作为goal point。但是车道信息往往需要昂贵的高精地图,而导航往往并不表示车辆在未来几秒后的精确信息。其他学术上的方法也有map-free的用网格将空间划分若干单元来进行预测,这种方式又没有充分考虑到goal point自身的分布特性。在调研众多方法后,我们根据VADv2的做法,首先将轨迹的末端点进行聚类得到goal point的分布特性后,再从不同角度对goal point进行评估。

2c0e25c4-02f6-11f0-9310-92fbcf53809c.png

如何平衡生成准确轨迹和多模态轨迹

输入给生成模型的信息包括两种,一种是goal point来对轨迹进行约束和引导,一种是场景信息的BEV特征。前者对轨迹的要求是生成指向goal point的轨迹,后者是生成当前情况下最有可能的轨迹。为了平衡这两种需求,我们主要进行了训练策略上的不同测试。具体来说,我们会对这两种信息分别进行类型编码,在训练过程中采用Classifier-Free Guidance策略,随机drop掉这两种特征。训练时condition输入包括三类:无condition,场景信息作为condition以及场景信息和goal point作为condition。

GoalFlow框架

2c1f246e-02f6-11f0-9310-92fbcf53809c.png

核心思路:引入goal point作为引导信息,通过建立dense的goal point词汇表和新颖评分机制挑选最优goal point,再由goal point和场景信息作为condition,交给Flow Matching生成轨迹。

具体流程:

感知方面上采用transfuser,融合图像和LiDAR信息,得到BEV feature。

通过聚类数据集中的轨迹末端点得到dense的goal point词表,作为goal point的候选集。

将goal point和真实end point的远近程度以及goal point是否在车辆可行驶区域内作为评价标准,从词表中挑选出当前最优的goal point。

引入flow matching对轨迹进行连续建模,将场景信息和goal point作为condition生成轨迹。

实验结果

2c3da93e-02f6-11f0-9310-92fbcf53809c.png

2c5003b8-02f6-11f0-9310-92fbcf53809c.png

在Navsim数据集上,轨迹采用碰撞率,是否在可行驶区域内,舒适度等综合指标PDMS来评价。GoalFlow在PDMS上达到90.3分,远超以regression为代表的Transfuser方法(84.0分)和naive的generative model(85.6分)。模拟真实场景用更精确goal point代替预测goal point时,PDMS达到92.1分,逼近人类驾驶的94.8分。此外,基于flow matching的方法对推理中denoising步数具有鲁棒性,只需1步推理就能达到优异性能,大大减轻自动驾驶硬件负担。

展望与总结

GoalFlow通过聚类方法捕捉目标点 (goal point) 的分布特性,并设计了一套目标点评估机制,为目标点进行打分。基于这些目标点,GoalFlow引导生成式方法Flow Matching生成高质量轨迹。实验表明,GoalFlow能够生成优异的轨迹,并提供多样化的高质量轨迹候选,显著提升了轨迹生成的性能。

未来,我们将进一步探索如何优化引导信息的利用,尤其是设计更高效的网络结构,以更好地平衡场景信息和目标点引导信息对模型的影响。此外,当前工作主要聚焦于坐标位置作为引导条件,之后可以进一步探索将人类语言指令作为条件输入,结合GoalFlow实现更智能的指令跟随能力,拓展其在人机交互和自动驾驶等领域的应用潜力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51710
  • 自动驾驶
    +关注

    关注

    791

    文章

    14669

    浏览量

    176499

原文标题:CVPR 2025|GoalFlow:目标点驱动,解锁端到端生成式策略新未来

文章出处:【微信号:horizonrobotics,微信公众号:地平线HorizonRobotics】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    技术分享 |模态自动驾驶混合渲染HRMAD:将NeRF和3DGS进行感知验证和AD测试

    模态自动驾驶混合渲染HRMAD,融合NeRF与3DGS技术,实现超10万㎡场景重建,传感器实时输出,仿真更接近真实数据!然而,如何用高保真仿真场景快速验证
    的头像 发表于 03-26 16:05 3921次阅读
    技术分享 |<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>自动驾驶</b>混合渲染HRMAD:将NeRF和3DGS进行感知验证和<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>AD测试

    未来已来,传感器融合感知是自动驾驶破局的关键

    巨大的进展;自动驾驶开始摒弃手动编码规则和机器学习模型的方法,转向全面采用的神经网络AI系统,它能模仿学习人类司机的
    发表于 04-11 10:26

    如何基于深度神经网络设计一个自动驾驶模型?

    如何基于深度神经网络设计一个自动驾驶模型?如何设计一个基于增强学习的自动驾驶决策系统?
    的头像 发表于 04-29 16:44 5659次阅读
    如何基于深度神经网络设计一个<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的<b class='flag-5'>自动驾驶</b>模型?

    佐思汽研发布《2024年自动驾驶研究报告》

    自动驾驶是直接从传感器信息输入(如摄像头图像、LiDAR等)控制命令输出(如转向、加减速等)映射的一套系统,最早出现在1988年的A
    的头像 发表于 04-20 11:21 5281次阅读
    佐思汽研发布《2024年<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自动驾驶</b>研究报告》

    实现自动驾驶,唯有

    ,去年行业主流方案还是轻高精地图城区智驾,今年大家的目标都瞄到了(End-to-End, E2E)。
    的头像 发表于 08-12 09:14 2078次阅读
    实现<b class='flag-5'>自动驾驶</b>,唯有<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>?

    Mobileye自动驾驶解决方案的深度解析

    自动驾驶技术正处于快速发展之中,各大科技公司和汽车制造商均在争相布局,试图在这个新兴领域占据一席之地。Mobileye作为全球自动驾驶技术的领军企业之一,凭借其独特的
    的头像 发表于 10-17 09:35 1251次阅读
    Mobileye<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自动驾驶</b>解决方案的深度<b class='flag-5'>解析</b>

    Waymo利用谷歌Gemini大模型,研发端自动驾驶系统

    迈新步,为其机器人出租车业务引入了一种基于谷歌模态大语言模型(MLLM)“Gemini”的全新训练模型——“
    的头像 发表于 10-31 16:55 2345次阅读

    连接视觉语言大模型与自动驾驶

    自动驾驶在大规模驾驶数据上训练,展现出很强的决策规划能力,但是面对复杂罕见的驾驶场景,依然
    的头像 发表于 11-07 15:15 1118次阅读
    连接视觉语言大模型与<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自动驾驶</b>

    自动驾驶技术研究与分析

    编者语:「智驾最前沿」微信公众号后台回复:C-0450,获取本文参考报告:《自动驾驶行业研究报告》pdf下载方式。 自动驾驶进入202
    的头像 发表于 12-19 13:07 1513次阅读

    DiffusionDrive首次在自动驾驶中引入扩散模型

        近年来,自动驾驶成为研究热点,其核心在于从传感器数据直接学习驾驶决策。然而,驾驶
    的头像 发表于 03-08 13:59 1468次阅读
    DiffusionDrive首次在<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自动驾驶</b>中引入扩散模型

    动量感知规划的自动驾驶框架MomAD解析

    自动驾驶框架实现了感知与规划的无缝集成,但通常依赖于一次性轨迹预测,这可能导致控制不稳定,并且对单顿感知中的遮挡问题较为敏感。为解决这
    的头像 发表于 03-18 09:31 1462次阅读
    动量感知规划的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自动驾驶</b>框架MomAD<b class='flag-5'>解析</b>

    一种模态驾驶场景生成框架UMGen介绍

    自动驾驶技术的快速发展对闭环仿真器提出了迫切需求,而生成式模型为其提供了一种有效的技术架构。然而,现有的
    的头像 发表于 03-24 15:57 1510次阅读
    一种<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>驾驶</b>场景<b class='flag-5'>生成</b>框架UMGen介绍

    为什么自动驾驶大模型有黑盒特性?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术落地,(End-to-End)大模型也成为行业研究与应用的热门方向。相较于传统自动驾驶
    的头像 发表于 07-04 16:50 591次阅读
    为什么<b class='flag-5'>自动驾驶</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大模型有黑盒特性?

    Nullmax自动驾驶最新研究成果入选ICCV 2025

    近日,国际计算机视觉大会 ICCV 2025 正式公布论文录用结果,Nullmax 感知团队在自动驾驶方向的最新研究成果《HiP-AD: Hierarchical
    的头像 发表于 07-05 15:40 1559次阅读
    Nullmax<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自动驾驶</b>最新研究成果入选ICCV 2025

    自动驾驶仿真与基于规则的仿真有什么区别?

    自动驾驶领域,“仿真”指的是将感知控制的整个决策链条视为一个整体,从而进行训练和验证的思路。
    的头像 发表于 11-02 11:33 1424次阅读