0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种多模态驾驶场景生成框架UMGen介绍

地平线HorizonRobotics 来源:地平线HorizonRobotics 2025-03-24 15:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

• 论文地址:

https://arxiv.org/abs/2503.14945

•项目主页:

https://yanhaowu.github.io/UMGen/

概述

端到端自动驾驶技术的快速发展对闭环仿真器提出了迫切需求,而生成式模型为其提供了一种有效的技术架构。然而,现有的驾驶场景生成方法大多侧重于图像模态,忽略了其他关键模态的建模,如地图信息、智能交通参与者等,从而限制了其在真实驾驶场景中的适用性。

为此,我们提出了一种多模态驾驶场景生成框架——UMGen,该框架能够全面预测和生成驾驶场景中的核心元素,包括自车运动、静态环境、智能交通参与者以及图像信息。具体而言,UMGen将场景生成建模为Next-Scene Prediction任务,利用帧间并行自回归与帧内多模态自回归技术,使得一个统一模型即可生成以自车为中心、模态协同一致的驾驶场景序列。UMGen生成的每个场景均包含自车、地图、交通参与者、图像等多种模态信息,并可灵活扩展至更多模态,以适应不同应用需求。

UMGen不仅能够灵活生成多样化的驾驶场景,还支持基于用户设定生成特定驾驶情境,例如控制自车执行左转、右转,或模拟他车cut-in等复杂交互行为。凭借这一交互式生成能力,UMGen可为自动驾驶系统的训练提供稀缺样本,从而提升模型的泛化能力。同时,它还可用于构建闭环仿真环境,对端到端自动驾驶系统进行全面测试与优化,甚至支持自博弈式训练,进一步增强系统的智能决策能力。

UMGen生成的多模态场景,视频中的每一个模态(自车动作,地图,交通参与者,图像)都由模型自行想象生成

方法

7b2334ba-057b-11f0-9310-92fbcf53809c.png

Pipeline of UMGen

UMGen从给定的初始场景序列开始,逐场景、自回归地生成多模态驾驶场景。我们首先根据历史信息预测自车要采取的动作,然后根据这一动作预测观察到的地图变化,以及其他交通参与者的行动,最后将这些信息映射到图像中。为实现这一目标,我们将每个时刻的场景元素(包括自车动作、地图、交通参与者以及摄像头图像)转换为有序的token序列,从而将生成任务转化为Next-token Prediction任务。一个很直观的想法是将来自不同帧、不同模态的token直接拼接在一起,然后使用一个decoder-only的transformer进行预测。但是这样做,token数量会随着场景长度的增加而迅速增加,使得算力需求变得无法接受。

为了解决这一问题,我们提出了一种两阶段序列预测方法,将整体任务划分为帧间预测和帧内预测两个阶段。在帧间预测阶段,我们设计了时序自回归模块 (TAR) ,该模块通过因果注意力机制对帧间的时序演化进行建模,确保每个token仅依赖于其历史状态,从而捕捉时间维度上的动态变化。在帧内预测阶段,我们引入了有序自回归模块 (OAR) ,该模块通过指定帧内模态生成的顺序(自车动作→地图元素→交通参与者→摄像头图像,如下视频所示),建立场景内不同模态之间的关联,从而保证模态间的一致性。TAR和OAR模块协同工作,不仅有效捕捉了跨模态的时序依赖关系,还显著降低了计算复杂度,为高效生成多模态驾驶场景提供了技术保障。同时,为了增强自车动作与地图变化之间的模态一致性,我们还提出了AMA模块,根据自车动作计算affine transformation矩阵对地图特征进行变换,充分利用地图这种静态元素的时序先验提升预测精度。

UMGen生成过程可视化

实验及可视化

UMGen在nuPlan数据集上进行训练,并通过可视化和定量实验证明其具备自由幻想多模态驾驶场景的能力,以及按照用户需求生成特定驾驶场景的能力。此外,我们还展示了UMGen在闭环仿真中的应用潜力:通过将自定义的自车动作注入UMGen中替换生成的自车动作,UMGen实时生成了相对应的下一时刻场景。

以下对部分实验结果进行展示。

自由幻想生成驾驶场景序列

由UMGen自主推理生成场景,用户不对UMGen提供任何额外的控制信号

A. 生成长时序多模态驾驶场景

B. 生成多样驾驶场景

自车受控下的场景生成

用户控制自车动作以生成指定行为模式下的多模态场景。

A. 在路口控制自车直行或者右转

B. 控制自车停车等待或者变道超车

用户指定的场景生成

在此模式下,用户可通过控制指定交通参与者的动作以创造场景。

在该场景中,通过设定黑色汽车的横向速度,我们创造了一个"他车突然变道插入"的危险场景,并控制自车刹车或者变道完成规避。

利用Diffusion Model进一步提升图像

质量

受到近期Diffusion模型的启发,我们训练了一个基于transformer的Diffusion模型。通过将UMGen生成的token作为condition,我们实现了更高质量的图像生成。

小图为原始生成图像,大图为Diffusion模型生成图像

总结

UMGen在统一框架内实现了多模态驾驶场景的生成,每个场景包含自车动作、地图、交通参与者以及对应的图像信息。其交互式生成的能力,展现了广泛的应用潜力, 如作为闭环仿真器的核心组件以及corner case数据生成器等。在未来的研究中,将更多模态数据(如激光雷达点云)纳入生成框架中,将是一个值得探索的方向,这有望进一步提升场景生成的丰富性和实用性。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51693
  • 自动驾驶
    +关注

    关注

    791

    文章

    14667

    浏览量

    176391

原文标题:CVPR 2025 | UMGen:多模态驾驶场景生成统一框架

文章出处:【微信号:horizonrobotics,微信公众号:地平线HorizonRobotics】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基于模态语义SLAM框架

    本文提出了个鲁棒且快速的模态语义 SLAM 框架,旨在解决复杂和动态环境中的 SLAM 问题。具体来说,将仅几何聚类和视觉语义信息相结合,以减少由于小尺度对象、遮挡和运动模糊导致的
    的头像 发表于 08-31 09:39 2494次阅读

    松灵新品丨全球首款模态®ROS开发平台LIMO来了,将联合古月居打造精品课程 精选资料分享

    地形通过性和场景的适应性直是无人驾驶、机器人等场景化所需要突破的难题。通过多
    发表于 08-30 08:39

    一种基于图像平移的目标检测框架

    集。本文提出了一种基于图像平移的目标检测框架,以解决在不利条件下目标检测精度下降的问题。我们提出利...
    发表于 08-31 07:43

    介绍一种嵌入式框架模板的构建方案

    介绍一种嵌入式框架模板的构建方案
    发表于 02-22 06:25

    一种尺度视点特性视图生成方法的研究和应用_谢冰

    一种尺度视点特性视图生成方法的研究和应用_谢冰
    发表于 03-15 09:27 0次下载

    文化场景下的模态情感识别

    自动情感识别是个非常具有挑战性的课题,并且有着广泛的应用价值.本文探讨了在文化场景下的模态情感识别问题.我们从语音声学和面部表情等
    发表于 12-18 14:47 0次下载

    模态生物特征识别系统框架

    针对模态生物特征识别系统并行融合模式中使用方便性和使用效率方面的问题,在现有序列化模态生物特征识别系统的基础上,提出了一种结合并行融合和
    发表于 01-02 18:47 0次下载
    <b class='flag-5'>多</b><b class='flag-5'>模态</b>生物特征识别系统<b class='flag-5'>框架</b>

    一种无监督下利用模态文档结构信息帮助图片-句子匹配的采样方法

    Approach for Image-Sentence Matching UsingDocument-Level Structural Information,提出了一种无监督设定下,更有效地利用模态文档
    的头像 发表于 12-26 10:26 2869次阅读
    <b class='flag-5'>一种</b>无监督下利用<b class='flag-5'>多</b><b class='flag-5'>模态</b>文档结构信息帮助图片-句子匹配的采样方法

    任意文本、视觉、音频混合生成模态有了强大的基础引擎CoDi-2

    CoDi )模型,让一种模型统多种模态成为可能。CoDi 不仅支持从单模态到单模态生成,还
    的头像 发表于 12-03 20:20 1049次阅读
    任意文本、视觉、音频混合<b class='flag-5'>生成</b>,<b class='flag-5'>多</b><b class='flag-5'>模态</b>有了强大的基础引擎CoDi-2

    大模型+模态的3实现方法

    我们知道,预训练LLM已经取得了诸多惊人的成就, 然而其明显的劣势是不支持其他模态(包括图像、语音、视频模态)的输入和输出,那么如何在预训练LLM的基础上引入跨模态的信息,让其变得更强大、更通用呢?本节将
    的头像 发表于 12-13 13:55 2994次阅读
    大模型+<b class='flag-5'>多</b><b class='flag-5'>模态</b>的3<b class='flag-5'>种</b>实现方法

    人工智能领域模态的概念和应用场景

    随着人工智能技术的不断发展,模态成为了个备受关注的研究方向。模态技术旨在将不同类型的数据和信息进行融合,以实现更加准确、高效的人工智能
    的头像 发表于 12-15 14:28 1.3w次阅读

    OneLLM:对齐所有模态框架

    OneLLM 是第个在单个模型中集成八不同模态的MLLM。通过统框架和渐进式
    的头像 发表于 01-04 11:27 1818次阅读
    OneLLM:对齐所有<b class='flag-5'>模态</b>的<b class='flag-5'>框架</b>!

    字节跳动发布OmniHuman 模态框架

    2 月 6 日消息,字节跳动近日发布了项重大成果 ——OmniHuman 模态框架,其优势在于其强大的视频生成能力。用户只需提供
    的头像 发表于 02-07 17:50 1178次阅读

    端到端自动驾驶模态轨迹生成方法GoalFlow解析

    自动驾驶轨迹规划往往采用直接回归轨迹的方法,这种方式虽在测试中能取得不错的性能,可直接输出当前场景下最有可能的轨迹或控制,但它难以对自动驾驶场景中常见的
    的头像 发表于 03-18 17:59 1163次阅读
    端到端自动<b class='flag-5'>驾驶</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>轨迹<b class='flag-5'>生成</b>方法GoalFlow解析

    一种适用于动态环境的自适应先验场景-对象SLAM框架

    由于传统视觉SLAM在动态场景中容易会出现严重的定位漂移,本文提出了一种新颖的基于场景-对象的可靠性评估框架,该框架通过当前帧质量指标以及相
    的头像 发表于 08-19 14:17 636次阅读
    <b class='flag-5'>一种</b>适用于动态环境的自适应先验<b class='flag-5'>场景</b>-对象SLAM<b class='flag-5'>框架</b>