0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

自动驾驶中常提的VLA是个啥?

智驾最前沿 来源:智驾最前沿 作者:智驾最前沿 2025-06-18 09:20 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

[首发于智驾最前沿微信公众号]随着自动驾驶技术落地,很多新技术或在其他领域被使用的技术也在自动驾驶行业中得到了实践,VLA就是其中一项,尤其是随着端到端大模型的提出,VLA在自动驾驶中的使用更加普遍。那VLA到底是个啥?它对于自动驾驶行业来说有何作用?

VLA全称为“Vision-Language-Action”,即视觉-语言-动作模型,其核心思想是将视觉感知、语言理解与动作决策端到端融合,在一个统一的大模型中完成从环境观察到控制指令输出的全过程。与传统自动驾驶系统中感知、规划、控制模块化分工的思路不同,VLA模型通过大规模数据驱动,实现了“图像输入、指令输出”的闭环映射,有望大幅提高系统的泛化能力与场景适应性。

wKgZPGhSFGGADiWsAABhun9Lczk192.jpg

VLA最早由GoogleDeepMind于2023年在机器人领域提出,旨在解决“视觉-语言-动作”三者协同的智能体控制问题。DeepMind的首个VLA模型通过将视觉编码器与语言编码器与动作解码器结合,实现了从摄像头图像和文本指令到物理动作的直接映射。这一技术不仅在机器人操作上取得了突破,也为智能驾驶场景引入了全新的端到端思路。

在自动驾驶领域,感知技术通常由雷达、激光雷达、摄像头等多种传感器负责感知,感知结果经过目标检测、语义分割、轨迹预测、行为规划等一系列模块处理,最后由控制器下发方向盘和油门等动作指令。整个流程虽条理清晰,却存在模块间误差累积、规则设计复杂且难以覆盖所有极端场景的短板。VLA模型正是在此背景下应运而生,它舍弃了中间的手工设计算法,直接用统一的神经网络从多模态输入中学习最优控制策略,从而简化了系统架构,提高了数据利用效率。

wKgZO2hSFGKAL_qDAACtwrr_t_Y075.jpg

VLA模型通常由四个关键模块构成。第一是视觉编码器,用于对摄像头或激光雷达等传感器采集的图像和点云数据进行特征提取;第二是语言编码器,通过大规模预训练的语言模型,理解导航指令、交通规则或高层策略;第三是跨模态融合层,将视觉和语言特征进行对齐和融合,构建统一的环境理解;第四是动作解码器或策略模块,基于融合后的多模态表示生成具体的控制指令,如转向角度、加减速命令等。

在视觉编码器部分,VLA模型一般采用卷积神经网络或视觉大模型(VisionTransformer)对原始像素进行深度特征抽取;同时,为了增强对三维场景的理解,部分研究引入三维空间编码器,将多视角图像或点云映射到统一的三维特征空间中。这些技术使VLA在处理复杂道路环境、行人辨识和物体追踪上拥有较传统方法更强的表现力。

语言编码器则是VLA与传统端到端驾驶模型的最大差异所在。通过接入大规模预训练语言模型,VLA能够理解自然语言形式的导航指令(如“前方在第二个红绿灯右转”)或高层安全策略(如“当检测到行人时务必减速至5公里/小时以下”),并将这些理解融入决策过程。这种跨模态理解能力不仅提升了系统的灵活性,也为人车交互提供了新的可能。

跨模态融合层在VLA中承担着“粘合剂”作用,它需要设计高效的对齐算法,使视觉与语言特征在同一语义空间内进行交互。一些方案利用自注意力机制(Self-Attention)实现特征间的深度融合,另一些方案则结合图神经网络或Transformer结构进行多模态对齐。这些方法的目标都是构建一个统一表征,以支持后续更准确的动作生成。

动作解码器或策略模块通常基于强化学习或监督学习框架训练。VLA利用融合后的多模态特征,直接预测如转向角度、加速度和制动压力等连续控制信号。这一过程省去了传统方案中复杂的规则引擎和多阶段优化,使整个系统在端到端训练中获得了更优的全局性能。但同时也带来了可解释性不足、安全验证难度增大等挑战。

VLA模型的最大优势在于其强大的场景泛化能力与上下文推理能力。由于模型在大规模真实或仿真数据上学习了丰富的多模态关联,它能在复杂交叉路口、弱光环境或突发障碍物出现时,更迅速地做出合理决策。此外,融入语言理解后,VLA可以根据指令灵活调整驾驶策略,实现更自然的人机协同驾驶体验。

国内外多家企业已开始将VLA思想应用于智能驾驶研发。DeepMind的RT-2模型在机器人控制上展示了端到端视觉-语言-动作融合的潜力,而元戎启行公开提出的VLA模型,被其定义为“端到端2.0版本”,元戎启行CEO周光表示“这套系统上来以后城区智驾才能真正达到好用的状态”。智平方在机器人领域推出的GOVLA模型,也展示了全身协同与长程推理的先进能力,为未来智能驾驶提供了新的参考。

VLA虽然给自动驾驶行业提出了新的可能,但实际应用依旧面临很多挑战。首先是模型可解释性不足,作为“黑盒子”系统,很难逐步排查在边缘场景下的决策失误,给安全验证带来难度。其次,端到端训练对数据质量和数量要求极高,还需构建覆盖多种交通场景的高保真仿真环境。另外,计算资源消耗大、实时性优化难度高,也是VLA商用化必须克服的技术壁垒。

为了解决上述问题,也正在探索多种技术路径。如有通过引入可解释性模块或后验可视化工具,对决策过程进行透明化;还有利用Diffusion模型对轨迹生成进行优化,确保控制指令的平滑性与稳定性。同时,将VLA与传统规则引擎或模型预测控制(MPC)结合,以混合架构提高安全冗余和系统鲁棒性也成为热门方向。

未来,随着大模型技术、边缘计算和车载硬件的持续进步,VLA有望在自动驾驶领域扮演更加核心的角色。它不仅能为城市复杂道路提供更智能的驾驶方案,还可扩展至车队协同、远程遥控及人机交互等多种应用场景。智驾最前沿以为,“视觉-语言-动作”一体化将成为自动驾驶技术的主流方向,推动智能出行进入新的“端到端2.0”时代。

VLA作为一种端到端多模态融合方案,通过将视觉、语言和动作三大要素集成到同一模型中,为自动驾驶系统带来了更强的泛化能力和更高的交互灵活性。尽管仍需解决可解释性、安全验证与算力优化等挑战,但其革命性的技术框架无疑为未来智能驾驶的发展指明了方向。随着业界不断积累实践经验、优化算法与完善安全体系,VLA有望成为自动驾驶领域的“下一代技术基石”。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Vla
    Vla
    +关注

    关注

    0

    文章

    25

    浏览量

    5921
  • 自动驾驶
    +关注

    关注

    795

    文章

    15057

    浏览量

    182001
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自动驾驶中常的鲁棒性是

    随着自动驾驶技术的快速发展,鲁棒性(Robustness)成为评价自动驾驶系统的重要指标之一。很多小伙伴也会在自动驾驶相关的介绍中,对某些功能用鲁棒性进行描述。一鲁棒的系统能够在复杂
    的头像 发表于 01-02 16:32 9431次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的鲁棒性是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?

    自动驾驶中常的SLAM到底是

    ?这两问题。目前,自动驾驶技术主要依赖高精地图和RTK(实时动态定位)系统完成高精度定位。然而,这种方法的实现成本高昂,需要依赖于完善的基础设施,且在动态环境中适应性不足。为此自动驾驶工程师提出了另一种更具灵活性和
    的头像 发表于 11-21 15:17 3080次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的SLAM到底是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?

    自动驾驶大模型中常的Token是?对自动驾驶有何影响?

    、多模态传感器数据的实时处理与决策。在这一过程中,大模型以其强大的特征提取、信息融合和预测能力为自动驾驶系统提供了有力支持。而在大模型的中,有一“Token”的概念,有些人看到后或许会问: Token是
    的头像 发表于 03-28 09:16 1587次阅读

    自动驾驶中常的“NOA”是

    近年来,自动驾驶技术发展迅速,业界不断探索如何在复杂交通场景中实现真正的无人驾驶。城市NOA作为自动驾驶的一项前沿技术,正成为各大厂商相互争夺的关键技术。 何为NOA? NOA,全称
    的头像 发表于 04-09 09:03 3594次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“NOA”是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?

    自动驾驶中常的“点云”是

    ?对自动驾驶有何影响? 点云是? 点云(Point Cloud)是一种在三维空间中由大量离散点组成的数据集合,每个点包含自身的笛卡尔坐标(X、Y、Z),并可附带颜色、强度、时间戳
    的头像 发表于 05-21 09:04 1461次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“点云”是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?

    自动驾驶中常的HMI是

    [首发于智驾最前沿微信公众号]在自动驾驶汽车领域,HMI(Human–Machine Interface,人机交互界面)正成为很多车企相互竞争的一大领域。之所以如此,是因为在车辆从“人控”过渡到“机
    的头像 发表于 06-22 13:21 2536次阅读

    自动驾驶中常的世界模型是

    对外部环境进行抽象和建模的技术,让自动驾驶系统在一简洁的内部“缩影”里,对真实世界进行描述与预测,从而为感知、决策和规划等关键环节提供有力支持。 什么是世界模型? 我们不妨先把“世界模型”想象成一种“数字化的地
    的头像 发表于 06-24 08:53 1489次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的世界模型是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?

    自动驾驶中常的惯性导航系统是?可以不用吗?

    每次提到自动驾驶硬件时,大家可能第一反应想到的是激光雷达、车载摄像头、毫米波雷达等,但想要让自动驾驶车辆实际落地,有一硬件也非常重要,那就是惯性导航系统。在很多讨论自动驾驶技术的内容
    的头像 发表于 07-24 18:12 2283次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的惯性导航系统是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?可以不用吗?

    自动驾驶中常的RTK是

    [首发于智驾最前沿微信公众号]在谈及自动驾驶关键技术时,经常会听到一技术,那就是RTK,很多人看到RTK后一定会想,这到底是技术?为啥这个技术很少在发布会上看到,但对于
    的头像 发表于 08-10 10:35 1651次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的RTK是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?

    自动驾驶中常的硬件在环是

    [首发于智驾最前沿微信公众号]在谈及自动驾驶技术时,经常会提及一技术,那就是硬件在环,所谓的硬件在环是?对于自动驾驶来说有
    的头像 发表于 08-14 08:54 1576次阅读

    自动驾驶中常的ODD是

    [首发于智驾最前沿微信公众号]在自动驾驶中,经常会听到一概念,那就是ODD。所谓ODD,全称为Operational Design Domain,中文常译为“运行设计域”或者“作业域”。直观一点
    的头像 发表于 09-22 09:04 1182次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的ODD是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?

    自动驾驶中常的“专家数据”是

    [首发于智驾最前沿微信公众号]在谈及自动驾驶时,经常会听到一概念,那便是“专家数据”。专家数据,说白了就是“按理应该这么做”的那类示范数据。它不是随机抓来的日志,也不是随便标注的标签,而是来源可靠
    的头像 发表于 10-09 09:33 980次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“专家数据”是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?

    自动驾驶上常VLA与世界模型有什么区别?

    自动驾驶中常VLA,全称是Vision-Language-Action,直译就是“视觉-语言-动作”。VLA的目标是把相机或传感器看到的
    的头像 发表于 10-18 10:15 1496次阅读

    自动驾驶中常的“强化学习”是

    [首发于智驾最前沿微信公众号]在谈及自动驾驶时,有些方案中会提到“强化学习(Reinforcement Learning,简称RL)”,强化学习是一类让机器通过试错来学会做决策的技术。简单理解
    的头像 发表于 10-23 09:00 1008次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“强化学习”是<b class='flag-5'>个</b><b class='flag-5'>啥</b>?

    VLA能解决自动驾驶中的哪些问题?

    、语言表达和动作控制这三者整合到一统一的模型框架中。 与传统自动驾驶系统将感知、预测、规划、控制拆解为多个独立模块的做法不同,VLA可以缩短“看见什么”和“如何行动”之间的鸿沟,构建一
    的头像 发表于 11-25 08:53 703次阅读
    <b class='flag-5'>VLA</b>能解决<b class='flag-5'>自动驾驶</b>中的哪些问题?