0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

连接视觉语言大模型与端到端自动驾驶

地平线HorizonRobotics 来源:地平线HorizonRobotics 2024-11-07 15:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

连接视觉语言大模型与端到端自动驾驶

端到端自动驾驶在大规模驾驶数据上训练,展现出很强的决策规划能力,但是面对复杂罕见的驾驶场景,依然存在局限性,这是因为端到端模型缺乏常识知识和逻辑思维。而视觉语言多模态大模型(LargeVision-Language Models,LVLM),例如GPT-4O,已经展现出极强的视觉理解能力和分析能力,可以很好的与端到端模型互为补充,充当驾驶决策的“大脑”。

基于这个思路,我们提出了一种连接视觉语言多模态大模型和端到端模型的智驾系统 Senna,针对端到端模型鲁棒性差,泛化性弱问题,行业首创“大模型高维驾驶决策-端到端低维轨迹规划”的新驾驶范式,打造“大模型 +端到端”的下一代架构,实现安全,高效,拟人的智能驾驶。经多个数据集上的大量实验证明Senna 具有业界最优的多模态+端到端规划性能,展现出强大的跨场景泛化性和可迁移能力。

概述

端到端自动驾驶在大规模驾驶数据上训练,展现出很强的决策规划能力,但是面对复杂罕见的驾驶场景,依然存在局限性,这是因为端到端模型缺乏常识知识和逻辑思维。而视觉语言多模态大模型(Large Vision-Language Models,LVLM),例如GPT-4O,已经展现出极强的视觉理解能力和分析能力,可以很好的与端到端模型互为补充,充当驾驶决策的“大脑”。基于这个思路,我们提出了一种连接视觉语言多模态大模型和端到端模型的智驾系统Senna,针对端到端模型鲁棒性差,泛化性弱问题,行业首创“大模型高维驾驶决策-端到端低维轨迹规划”的新驾驶范式,打造“大模型+端到端”的下一代架构,实现安全,高效,拟人的智能驾驶。经多个数据集上的大量实验证明,Senna具有业界最优的多模态+端到端规划性能,展现出强大的跨场景泛化性和可迁移能力。

Senna解决的研究问题

此前基于大模型的自动驾驶方案,往往将大模型直接作为端到端模型,即直接用大模型预测规划轨迹或者控制信号,但是大模型并不擅长预测精准的数值,因此这种方案并不一定是最优解。此前神经学的研究表明,人脑在做细致决策时,层次化的高维决策模块和低维执行模块组成的系统起到了关键的作用。例如,当想要左转的驾驶员看到红绿灯由红变绿,大脑中首先会思考,现在红绿灯变绿了,因此我可以加速启动通过路口。然后再通过“打转向灯”,“踩油门”等一系列动作完成通过路口这个目标。基于上述观察,Senna主要尝试探索和解决三个问题:

(1)如何有效地结合多模态大模型和端到端自动驾驶模型?

wKgaoWcsaSCAanLQAAJKOrcQaug740.png

Senna采用解耦的行为决策-轨迹规划思路,多模态大模型在大规模驾驶数据上微调,以提升其对驾驶场景的理解能力,并采用自然语言输出高维决策指令,然后端到端模型基于大模型提供的决策指令,生成具体的规划轨迹。一方面,使用大模型预测语言化的决策指令,可以最大利用其在语言任务上预训练的知识和常识,生成合理的决策,并且避免预测精确数字效果欠佳的缺陷;另一方面,端到端模型更擅长精确的轨迹预测,将高维决策的任务解耦,可以降低端到端模型学习的难度,提升其轨迹规划的精确度。

(2)如何设计一个面向驾驶任务的多模态大模型?

wKgZoWcsaSCAQb0uAAFXJwmxIjA919.png

驾驶依赖于准确的空间感知,目前常见的多模态大模型没有针对多图输入进行专门优化,此前针对驾驶任务的大模型或者仅支持前视输入,缺乏完整的空间感知,存在安全隐患;或者支持多图输入,但是并没有进行细致的设计,或针对其有效性进行验证。

为了解决这些问题,我们提出了Senna,Senna包含两个模块,一个驾驶多模态大模型 (Senna-VLM) 和一个端到端模型(Senna-E2E),相比于通用的多模态大模型,Senna-VLM针对驾驶任务做出如下设计:首先,针对驾驶的大模型需要支持多图从而可以输入环视和多帧的信息,这对于准确的驾驶场景理解和安全非常重要。最初,我们尝试简单基于LLaVA-1.5模型加入环视多图输入,但是效果并不符合预期。在LLaVA中,一张图像需要占用576个token,6张图则需要占用3456个token,这几乎要接近最大输入长度,导致图像信息占用的token数量过多。因此Senna-VLM对图像编码器输出的图像token做进一步特征压缩,并设计了针对环视多图的prompt,使得Senna可以区分不同视角的图像特征并建立空间理解能力。

(3)如何有效地训练面向驾驶任务的多模态大模型?

wKgZoWcsaSCAWrRVAAKMGKWbWZU858.png

在有了适合驾驶任务的模型设计后,有效地训练LVLM是最后一步。这部分包括两方面的内容,数据和训练策略。在数据方面,此前工作提出了一些策略,但是很多并不是针对规划服务,例如检测和grouding。另外,很多数据依赖于人工标注,这限制了数据的大规模生产。在本文中,我们首次验证了不同类型的问答数据在驾驶规划中的重要性。具体来说,我们引入了一系列面向规划的问答数据,旨在增强Senna对驾驶场景中与规划相关的线索的理解,最终实现更准确的规划。这些问答数据包括驾驶场景描述、交通参与者的运动意图预测、交通信号检测、高维决策规划等。我们的数据策略可以完全通过自动化流程实现大规模生产。至于训练策略,大多数现有方法采用通用数据预训练,然后针对驾驶任务微调。然而,我们的实验结果表明,这可能不是最佳选择。我们为 Senna-VLM 提出了一种三阶段训练策略,包括混合数据预训练、驾驶通用微调和驾驶决策微调。实验结果表明,我们提出的三阶段训练策略可以实现最佳的规划性能。

Senna的关键创新

在模型层面,Senna提出层次化的规划策略,可以充分利用大模型的常识知识和逻辑推理能力,生成准确的决策指令,并通过端到端模型生成具体的轨迹。另外,Senna设计了针对环视和多图的策略,通过图像token压缩和精心设计的环视prompt,有效提高了多模态大模型对驾驶场景的理解。

在数据方面,我们设计了多种可以大规模自动标注的面向规划的驾驶问答数据,包括场景描述、交通参与者行为预测、交通信号识别以及自车决策等。这些问答数据对于Senna生成准确的决策起到了关键作用。

在训练层面,我们提出三阶段的大模型训练策略,不仅提升了Senna在驾驶场景的表现,且有效保留了其常识知识而不至于出现模式坍塌的问题。

Senna的实验及应用效果

基于多个数据集上的大量实验表明Senna 实现了state-of-the-art的规划性能。实验结果的亮点在于,通过使用在大规模数据集上预训练的权重并进行微调,Senna 实现了显著的性能提升,与没有预训练的模型相比,平均规划误差大幅降低了27.12% ,碰撞率降低了33.33%,这些结果验证了 Senna 提出的结构化的决策规划策略、模型结构设计和训练策略的有效性。Senna强大的跨场景泛化性和可迁移能力,展现出成为下一代通用智驾大模型的潜力。

未来探索方向

Senna初步探索并验证了基于语言化的决策将大模型和端到端模型结合的可行性。下一步,我们将利用更精细的语言决策,并基于决策信息以可控的方式实现个性化的轨迹规划,并在可解释性、闭环验证等方面进一步探索优化。相信Senna将会激发行业在该领域的进一步研究和突破。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能驾驶
    +关注

    关注

    5

    文章

    2947

    浏览量

    50965
  • 自动驾驶
    +关注

    关注

    791

    文章

    14671

    浏览量

    176542
  • 大模型
    +关注

    关注

    2

    文章

    3442

    浏览量

    4967

原文标题:下一代“多模态大模型+端到端”架构Senna:开创智驾决策规划全新范式

文章出处:【微信号:horizonrobotics,微信公众号:地平线HorizonRobotics】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自动驾驶中基于规则的决策和模型有何区别?

    自动驾驶架构的选择上,也经历了从感知、决策控制、执行的三段式架构到现在火热的模型,尤其是在2024年特斯拉推出FSD V12后,各
    的头像 发表于 04-13 09:38 3427次阅读
    <b class='flag-5'>自动驾驶</b>中基于规则的决策和<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大<b class='flag-5'>模型</b>有何区别?

    如何基于深度神经网络设计一个自动驾驶模型

    如何基于深度神经网络设计一个自动驾驶模型?如何设计一个基于增强学习的自动驾驶决策系统?
    的头像 发表于 04-29 16:44 5659次阅读
    如何基于深度神经网络设计一个<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的<b class='flag-5'>自动驾驶</b><b class='flag-5'>模型</b>?

    理想汽车自动驾驶模型实现

    理想汽车在感知、跟踪、预测、决策和规划等方面都进行了模型化,最终实现了模型。这种模型不仅
    发表于 04-12 12:17 937次阅读
    理想汽车<b class='flag-5'>自动驾驶</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>模型</b>实现

    实现自动驾驶,唯有

    ,去年行业主流方案还是轻高精地图城区智驾,今年大家的目标都瞄到了(End-to-End, E2E)。
    的头像 发表于 08-12 09:14 2083次阅读
    实现<b class='flag-5'>自动驾驶</b>,唯有<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>?

    Mobileye自动驾驶解决方案的深度解析

    自动驾驶技术正处于快速发展之中,各大科技公司和汽车制造商均在争相布局,试图在这个新兴领域占据一席之地。Mobileye作为全球自动驾驶技术的领军企业之一,凭借其独特的
    的头像 发表于 10-17 09:35 1255次阅读
    Mobileye<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自动驾驶</b>解决方案的深度解析

    Waymo利用谷歌Gemini大模型,研发端自动驾驶系统

    迈新步,为其机器人出租车业务引入了一种基于谷歌多模态大语言模型(MLLM)“Gemini”的全新训练模型——“
    的头像 发表于 10-31 16:55 2358次阅读

    自动驾驶技术研究与分析

    编者语:「智驾最前沿」微信公众号后台回复:C-0450,获取本文参考报告:《自动驾驶行业研究报告》pdf下载方式。 自动驾驶进入202
    的头像 发表于 12-19 13:07 1513次阅读

    一文带你厘清自动驾驶架构差异

    [首发于智驾最前沿微信公众号]随着自动驾驶技术飞速发展,智能驾驶系统的设计思路也经历了从传统模块化架构
    的头像 发表于 05-08 09:07 786次阅读
    一文带你厘清<b class='flag-5'>自动驾驶</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>架构差异

    为什么自动驾驶模型有黑盒特性?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术落地,(End-to-End)大模型也成为行业研究与应用的热门方向。相较于传统
    的头像 发表于 07-04 16:50 591次阅读
    为什么<b class='flag-5'>自动驾驶</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大<b class='flag-5'>模型</b>有黑盒特性?

    Nullmax自动驾驶最新研究成果入选ICCV 2025

    近日,国际计算机视觉大会 ICCV 2025 正式公布论文录用结果,Nullmax 感知团队在自动驾驶方向的最新研究成果《HiP-AD
    的头像 发表于 07-05 15:40 1565次阅读
    Nullmax<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>自动驾驶</b>最新研究成果入选ICCV 2025

    自动驾驶模型为什么会有不确定性?

    。为了能让自动驾驶汽车做出正确、安全且符合逻辑的行驶动作,模型被提了出来。
    的头像 发表于 09-28 09:20 544次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大<b class='flag-5'>模型</b>为什么会有不确定性?

    西井科技自动驾驶模型获得国际认可

    近日,西井科技AI创研团队在国际权威自动驾驶算法榜单NAVSIM v2中脱颖而出,凭借创新的自动驾驶
    的头像 发表于 10-15 17:20 1054次阅读

    自动驾驶仿真与基于规则的仿真有什么区别?

    自动驾驶领域,“仿真”指的是将感知控制的整个决策链条视为一个整体,从而进行训练和验证的思路。
    的头像 发表于 11-02 11:33 1425次阅读

    模型中常提的快慢思考会对自动驾驶产生什么影响?

    2024年7月,理想汽车发布的基于模型、VLM视觉语言
    的头像 发表于 11-22 10:59 2271次阅读
    大<b class='flag-5'>模型</b>中常提的快慢思考会对<b class='flag-5'>自动驾驶</b>产生什么影响?

    如何训练好自动驾驶模型

    [首发于智驾最前沿微信公众号]最近有位小伙伴在后台留言提问:算法是怎样训练的?是模仿学习、强化学习和离线强化学习这三类吗?其实
    的头像 发表于 12-08 16:31 44次阅读
    如何训练好<b class='flag-5'>自动驾驶</b><b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>模型</b>?