0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

VLA,是完全自动驾驶的必经之路?

Hobby观察 来源:电子发烧友 作者:梁浩斌 2025-06-18 00:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道 (文/梁浩斌)最近,智驾领域又出现多个“新名词”,比如蔚来推出的NWM、多家车企和智驾供应商都在宣传的VLA。实际上,从各家的路线来看,随着更大算力的芯片,比如小鹏、蔚来自研的智驾芯片,以及英伟达Thor的上车,越来越多的智驾方案选择VLA的路径。

那么本文就梳理一下当前智驾领域集中主流的大模型技术路线,以及各家厂商实现方式的区别和发展。

VLA和VLM

VLA即Vision-Language-Action,视觉-语言-动作模型。简单来说,VLA是一种结合视觉感知、语言理解和动作决策的多模态AI模型。VLA通过统一空间智能、语言智能和行为智能,使自动驾驶系统能够更全面地理解复杂环境并执行任务。

VLA的核心能力主要是三种,包括BEV、激光雷达等视觉输入;理解自然语言指令或场景描述等语言处理能力;以及对车辆控制动作输出的能力。最终通过这三种能力,实现从感知到决策的端到端闭环。

VLM即Vision-Language Model,视觉-语言模型,从名字上看,VLA就是在VLM的基础上增加了动作的能力,事实也确实如此。

VLA在VLM核心的多模态推理和理解能力上,增加了动作生成的能力,将VLM的输出,比如将“在这个路口要转左”的指令输出直接转化为车辆的控制信号,包括油门、方向盘角度、刹车力度等。

一般来说,VLA通常也是基于预训练的VLM基座模型,利用VLM具备的视觉和语言能力,引入动作预测模块进行扩展,使其适应各种任务,包括机器人,自动驾驶等。

具体到自动驾驶的应用中,VLA可以直接调用VLM生成的语义理解结果,比如识别视频画面中的交通标志、场景描述等,结合实时感知数据来生成车辆的控制指令。同时,VLA的执行结果,也可以反向优化VLM的场景理解能力,优化决策选择。

简单总结下来,VLM是倾向于认知的一个模型,它通过自然语言来描述出当前车辆前方的场景,以及“看到”哪些内容,并能够输出一些车辆控制指令的文本;VLA是侧重于动作控制,在获得场景的自然语言信息后,解决车辆应该如何继续行驶,比如作出避让、变道等动作,并直接输出油门、方向盘角度、刹车力度等具体的控制指令。

小鹏、理想、元戎落注VLA,但实现方式略有不同

目前小鹏、理想、元戎启行等车企和智驾公司,都展示了其VLA的技术布局,并表示即将量产。

元戎启行CEO周光在最近的2025年火山引擎Force原动力大会就宣布,将携手火山引擎,基于豆包大模型,共同研发VLA等前瞻技术,元戎骑行VLA模型将在2025年第三季度推向消费者市场。

理想汽车此前则透露VLA模型将在今年三季度搭载于理想L9/L8改款车型。

小鹏汽车在最近小鹏G7发布会上表示,将行业首发本地端VLA+VLM大模型。小鹏在车端实现VLA的方式大致是,采用超大参数云端大模型,训练出世界模型基座,再通过蒸馏的方式产出适配车端算力的小模型,最大限度地保留云端模型基座的核心能力。

今年4月,小鹏汽车对外宣布正在研发参数规模达到720亿的云端大模型,即“小鹏世界基座模型”。该基座模型是以大语言模型为骨干网络,使用海量优质驾驶数据训练的VLA大模型(视觉-语言-行为大模型),具备视觉理解能力、链式推理能力(CoT)和动作生成能力。目前,小鹏汽车已经在后装算力的车端上用小尺寸的基座模型实现了控车。在没有任何规则代码托底的情况下,新的“AI大脑”展现出令人惊喜的基础驾车技能,能够丝滑地加减速、变道绕行、转弯掉头、等待红绿灯等等。

在上周的计算机视觉顶会CVPR 2025上,小鹏汽车也分享了其基础模型的进展。小鹏世界基座模型负责人刘先明博士表示,小鹏汽车已经在云上训练了10亿、30亿、70亿、720亿等多个参数的模型,并且持续向模型“投喂”更大规模的训练数据。目前,小鹏世界基座模型累计“吃下”2000多万条视频片段(每条时长30秒)。

在这一过程中,研发团队清晰地看到了规模法则(Scaling Law)的显现。也就是说,模型的参数量越大、模型学习的数据越多,模型的性能越强。这是AI大模型浪潮以来,行业内首次明确验证规模法则在自动驾驶VLA模型上持续生效。

理想汽车的VLA路线则略有不同,是先对基座模型进行蒸馏,产出车端的蒸馏模型,然后再进行强化学习,实现“司机Agent”。

蔚来世界模型NWM

蔚来近期推送了其最新的NWM首个版本,据蔚来的介绍,蔚来世界模型NWM是一个多元自回归生成模型,具备空间认知和时间认知能力,能进行长时序决策与推演。蔚来世界模型 NWM同样是多模态输入输出,输入的多模态数据包含图像、语言,输出的多模态数据则包含图像和行动。

所以NWM其实是包含了VLA的所有特征,但不同之处在于,NWM对于空间理解的能力,以及长时序的建模能力会更强。

蔚来用停车场自主寻路的功能来展示NWM的认知、理解与推理能力。例如,当车辆在行驶过程中看到“15-20号楼→”的标牌时,它就能理解18号楼应当向右转;在上一个路口看到“出口直行”字样,当前路口却没有标牌,车辆也能推理出出口应该继续直行。

写在最后

元戎启行认为,VLA是通往完全自动驾驶的必经途径。当前VLA确实已经成为智驾的主流发展方向,而VLA对于车端的算力需求,还将会带动智驾芯片算力的需求爆发。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自动驾驶
    +关注

    关注

    795

    文章

    15057

    浏览量

    182001
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    2500 TOPS!特斯拉HW5智驾算力怪兽突击,国产VLA火速进化

    电子发烧友网报道(文/莫婷婷)外媒报道称,特斯拉的“AI5 / HW5”下一代 FSD(完全自动驾驶)芯片已进入量产阶段。这款芯片拥有惊人的2000至2500 TOPS运算能力,远超当前市场主流智驾
    的头像 发表于 06-20 09:05 9126次阅读
    2500 TOPS!特斯拉HW5智驾算力怪兽突击,国产<b class='flag-5'>VLA</b>火速进化

    格罗方德传感器融合方案助力实现更安全的自动驾驶

    雷达是高级驾驶辅助系统(ADAS)的核心技术基石,与摄像头、激光雷达等传感器协同组成感知网络,支撑车辆环境感知、驾驶决策,助力当下安全驾驶及未来完全自动驾驶发展。
    的头像 发表于 05-20 17:03 1928次阅读
    格罗方德传感器融合方案助力实现更安全的<b class='flag-5'>自动驾驶</b>

    小米正式发布并全面开源自动驾驶模型Xiaomi OneVL

    近日,小米正式发布并全面开源自动驾驶模型Xiaomi OneVL,这是一款一步式潜空间语言视觉推理框架,将VLA、世界模型和潜空间推理三大技术路线统一到同一架构中。小米官方给出的核心数据极具冲击力
    的头像 发表于 05-15 11:30 1778次阅读

    别克至境与Momenta合作发布首台全自动驾驶概念车

    4月24日,在北京国际汽车展览会上,别克“至境移动空间智慧体”发布,并首次在车身上标注 “Momenta inside” 。该车型也成为Momenta首台全自动驾驶概念车,标志着双方合作从智能驾驶的量产应用阶段,迈向更高阶的系统共创阶段。
    的头像 发表于 04-29 15:35 493次阅读

    为什么自动驾驶方案不再强调地图了?

    边缘化? 如何从救命稻草到发展阻碍? 自动驾驶技术大规模普及的早期,高精度地图被行业公认为全自动驾驶实现的必经之路。这种地图与我们日常手机导航使用的普通地图有着天壤之别。普通地图的误差通常在几米到十几米之间,主要用
    的头像 发表于 03-31 08:57 445次阅读
    为什么<b class='flag-5'>自动驾驶</b>方案不再强调地图了?

    已有VLM,自动驾驶为什么还要探索VLA?

    [首发于智驾最前沿微信公众号]自动驾驶技术正处于发展的转折点。过去十几年间,行业长期依赖模块化的技术路径,即将驾驶任务拆解为感知、预测、规划和控制四个独立环节。这种结构虽然清晰,但在面对突发状况
    的头像 发表于 02-03 09:04 458次阅读
    已有VLM,<b class='flag-5'>自动驾驶</b>为什么还要探索<b class='flag-5'>VLA</b>?

    如何设计好自动驾驶ODD?

    为确定自动驾驶的可使用范围,会给自动驾驶设置一个运行设计域(Operational Design Domain,ODD)。ODD的作用就是用来明确自动驾驶在什么情况下能工作,在什么情况下不能工作,给车设定“工作范围”。
    的头像 发表于 01-24 09:27 1922次阅读

    VLA与世界模型有什么不同?

    [首发于智驾最前沿微信公众号]当前自动驾驶行业,各车企的技术路径普遍选择了单车智能方向。而在实际落地过程中,不同企业选择了差异化的技术实现方式,部分车企侧重于视觉—语言—动作模型(Vision
    的头像 发表于 12-17 09:13 972次阅读
    <b class='flag-5'>VLA</b>与世界模型有什么不同?

    VLA能解决自动驾驶中的哪些问题?

    [首发于智驾最前沿微信公众号]很多从事自动驾驶的小伙伴应该对VLA这个概念已经非常熟悉了。VLA即“Visual-Language-Action”(视觉—语言—动作)模型,它的核心是将视觉信息
    的头像 发表于 11-25 08:53 703次阅读
    <b class='flag-5'>VLA</b>能解决<b class='flag-5'>自动驾驶</b>中的哪些问题?

    VLA和世界模型,谁才是自动驾驶的最优解?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术发展,其实现路径也呈现出两种趋势,一边是以理想、小鹏、小米为代表的VLA(视觉—语言—行动)模型路线;另一边则是以华为、蔚来为主导的世界模型(World
    的头像 发表于 11-05 08:55 1003次阅读
    <b class='flag-5'>VLA</b>和世界模型,谁才是<b class='flag-5'>自动驾驶</b>的最优解?

    自动驾驶上常提的VLA与世界模型有什么区别?

    自动驾驶中常提的VLA,全称是Vision-Language-Action,直译就是“视觉-语言-动作”。VLA的目标是把相机或传感器看到的画面、能理解和处理自然语言的大模型能力,和最终控制车辆
    的头像 发表于 10-18 10:15 1496次阅读

    塑造自动驾驶汽车格局的核心技术

    自动驾驶汽车长期以来一直是科幻小说中的情节,但在如今的2025年,它似乎已经离我们越来越近,智能辅助驾驶已经出现在越来越多的新能源汽车中。但距离完全自动驾驶仍有需要克服的工程挑战。
    的头像 发表于 08-21 16:03 1186次阅读

    自动驾驶达到什么技术标准才能称为L3级?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶技术时,常会陷入两个极端,一方面是大家对“完全自动驾驶”的美好愿景,另一方面是自动驾驶技术飞速发展过程中对于“安全隐患”的担忧。L3级自动驾驶
    的头像 发表于 08-21 10:37 2214次阅读
    <b class='flag-5'>自动驾驶</b>达到什么技术标准才能称为L3级?

    卡车、矿车的自动驾驶和乘用车的自动驾驶在技术要求上有何不同?

    [首发于智驾最前沿微信公众号]自动驾驶技术的发展,让组合辅助驾驶得到大量应用,但现在对于自动驾驶技术的宣传,普遍是在乘用车领域,而对于卡车、矿车的自动驾驶发展,却鲜有提及。其实在卡车、
    的头像 发表于 06-28 11:38 1932次阅读
    卡车、矿车的<b class='flag-5'>自动驾驶</b>和乘用车的<b class='flag-5'>自动驾驶</b>在技术要求上有何不同?

    浅析4D-bev标注技术在自动驾驶领域的重要性

    自动驾驶技术的发展日新月异。从最初简单的辅助驾驶功能,逐步迈向高度自动化甚至完全自动驾驶的阶段。其中,海量且精准的数据是训练高性能自动驾驶
    的头像 发表于 06-12 16:10 3054次阅读